Learnable Item Tokenization for Generative Recommendation

728x90

"Learnable Item Tokenization for Generative Recommendation"

1) 저널 or 학회 및 년도

ACM International Conference on Information and Knowledge Management (CIKM '24), 2024.

2) 논문의 제목

Learnable Item Tokenization for Generative Recommendation.

3) 논문의 주제

대형 언어 모델(LLM) 기반 생성형 추천 시스템에서 아이템 토큰화(Item Tokenization) 문제를 해결하기 위한 새로운 방법론 LETTER (LEarnable Tokenizer for generaTivE Recommendation) 제안.
기존 토큰화 방식(ID 기반, 텍스트 기반, 코드북 기반)이 가진 한계를 극복하고, 추천 데이터와 LLM의 언어 공간을 효과적으로 연결하는 토큰 생성 방식 연구.

4) 논문에 사용된 데이터, 모델 등

데이터셋:
- Instruments (Amazon Review 데이터)
- Beauty (Amazon Review 데이터)
- Yelp (Yelp 사용자 리뷰 데이터)
사용된 모델:
- 기존 추천 모델:
  - MF (Matrix Factorization)
  - Caser, HGN, BERT4Rec, LightGCN, SASRec
- 기존 생성형 추천 모델:
  - BIGRec (텍스트 기반)
  - P5-TID (텍스트 기반)
  - P5-SemID, P5-CID (ID 기반)
  - TIGER (코드북 기반)
  - LC-Rec (코드북 기반)
- 제안 모델 (LETTER):
  - 기본 모델: Residual Quantized VAE (RQ-VAE) 기반 토큰화
  - 학습 기법: Collaborative Regularization, Diversity Regularization 적용
  - 추론 최적화: Ranking-Guided Generation Loss 적용

5) 논문의 기여점

생성형 추천을 위한 새로운 토큰화 방식 LETTER 제안.
기존의 ID, 텍스트, 코드북 기반 토큰화 방식의 문제점을 해결:
- ID 기반 방식 → 의미 없는 숫자로 인해 일반화 어려움.
- 텍스트 기반 방식 → 협업 신호 부족으로 유사 아이템 구별 어려움.
- 코드북 기반 방식 → 협업 신호가 반영되지 않으며 코드 할당 편향 발생.
Residual Quantized VAE (RQ-VAE) 기반으로 **계층적 의미(Hierarchical Semantics)**를 반영한 아이템 토큰화 구현.
추천 데이터의 협업 신호를 반영하는 Contrastive Regularization 기법 적용.
토큰 할당의 다양성을 보장하여 특정 코드가 과도하게 사용되는 문제(Code Assignment Bias) 해결.
순위 최적화를 위한 Ranking-Guided Generation Loss 도입.
실험을 통해 최신 생성형 추천 모델 대비 성능 우위 입증.

6) 논문의 제안을 위해 진행된 방법론

(1) Residual Quantized VAE (RQ-VAE) 기반 토큰화:
- 아이템의 텍스트 정보(제목, 설명)를 계층적 코드 시퀀스로 변환.
- 토큰이 점진적으로 의미를 좁혀가며 계층적 정보를 반영하도록 설계.
(2) Collaborative Regularization:
- Contrastive Learning을 활용하여 CF 모델(SASRec, LightGCN)에서 생성한 임베딩과 토큰화된 임베딩을 정렬.
- 아이템 간 협업 신호를 반영하여, 유사한 사용자 상호작용을 가진 아이템이 유사한 토큰 시퀀스를 가지도록 조정.
(3) Diversity Regularization:
- K-means 기반 클러스터링을 활용하여 코드 임베딩의 균형을 유지.
- 특정 코드가 너무 많이 사용되는 편향 문제(Code Assignment Bias) 완화.
(4) Ranking-Guided Generation Loss:
- Hard Negative Sampling을 활용하여 학습 시 어려운 샘플을 더욱 강조.
- 추천 성능의 핵심 지표인 Recall@K, NDCG@K를 직접적으로 향상.

7) 논문의 핵심 novelty

기존 아이템 토큰화 방식의 한계를 해결하는 새로운 학습 가능한 토크나이저(LETTER) 제안.
Residual Quantized VAE (RQ-VAE)를 활용하여 계층적 의미를 반영.
협업 필터링 임베딩과 정렬하여 아이템의 협업 신호를 반영한 토큰화 방식 개발.
Diversity Regularization을 통해 코드 할당의 불균형을 해소.
Ranking-Guided Generation Loss 도입으로 생성형 추천 모델의 순위 최적화 달성.

8) 논문의 한계

RQ-VAE 기반 토큰화의 연산량 문제:
- 계층적 토큰화 과정에서 기존 ID 기반 방식보다 연산량 증가.
- 실시간 추천 시스템 적용 시 최적화 필요.
LLM 기반 생성형 추천 모델의 학습 비용:
- LoRA 기반 경량화 기법을 적용했지만, 여전히 LLaMA-7B 기반 모델의 비용이 높음.
Cold-start 아이템의 성능 검증 부족:
- Collaborative Regularization이 기존 아이템에는 강하지만, 신규 아이템에서는 성능 저하 가능성 있음.

9) 향후 논문의 연구 방향

더 작은 LLM 모델(LLaMA-2, Mistral 등)과의 결합 연구.
Cross-Domain Recommendation 확장:
- 다양한 도메인의 아이템을 하나의 토큰 공간에서 학습하는 방법론 개발.
자연어 사용자 입력과의 결합:
- 추천 시 자연어 입력과 LETTER 기반 토큰을 결합하여 유연한 추천 시스템 구축.
Chain-of-Thought Reasoning 도입:
- 생성형 추천 모델에서 추론 과정을 명확하게 설명할 수 있도록 설계.

10) 총평

LLM 기반 생성형 추천 시스템에서 핵심 문제인 "아이템 토큰화"를 해결하는 혁신적인 접근법을 제안한 논문.
기존 ID, 텍스트, 코드북 기반 토큰화 방식의 한계를 극복하고, 계층적 의미 + 협업 신호 + 코드 다양성을 반영한 새로운 토큰화 방식(LETTER)을 개발.
최신 생성형 추천 모델(TIGER, LC-Rec) 대비 성능 향상을 입증.
다만, 실시간 추천 시스템 적용을 위한 경량화 연구가 필요하고, cold-start 문제에 대한 추가 실험이 필요할 것으로 보임.
향후 연구에서는 경량화 모델 적용, 크로스 도메인 확장, 자연어 프롬프트 결합 연구가 중요한 방향이 될 것.

728x90

'AI-LAB > 논문리뷰' 카테고리의 다른 글

Modeling Interactions Between Stocks Using LLM-Enhanced Graphs for Volume Prediction (0)	2025.02.16
TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendations (0)	2025.02.15
Large Language Models for Next Point-of-Interest Recommendation (0)	2025.02.15
Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System (0)	2025.02.15
[논문리뷰] Medical Specialty Recommendations by an Artificial Intelligence Chatbot on a Smartphone: Development and Deployment (0)	2023.06.25

JS LAB

Learnable Item Tokenization for Generative Recommendation

"Learnable Item Tokenization for Generative Recommendation"

1) 저널 or 학회 및 년도

2) 논문의 제목

3) 논문의 주제

4) 논문에 사용된 데이터, 모델 등

5) 논문의 기여점

6) 논문의 제안을 위해 진행된 방법론

7) 논문의 핵심 novelty

8) 논문의 한계

9) 향후 논문의 연구 방향

10) 총평

'AI-LAB > 논문리뷰' 카테고리의 다른 글

티스토리툴바

Learnable Item Tokenization for Generative Recommendation

"Learnable Item Tokenization for Generative Recommendation"

1) 저널 or 학회 및 년도

2) 논문의 제목

3) 논문의 주제

4) 논문에 사용된 데이터, 모델 등

5) 논문의 기여점

6) 논문의 제안을 위해 진행된 방법론

7) 논문의 핵심 novelty

8) 논문의 한계

9) 향후 논문의 연구 방향

10) 총평

'AI-LAB > 논문리뷰' 카테고리의 다른 글

관련글

티스토리툴바