TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendations

AI-LAB/논문리뷰

JS LAB 2025. 2. 15. 19:18

728x90

대형 언어 모델(LLM)을 활용한 **생성형 추천 시스템(Generative Recommendation)**에서,
사용자 및 아이템 ID를 효과적으로 토큰화(Tokenization)하는 방법을 연구.
기존의 ID 기반 토큰화 방식(ID, 텍스트, 코드북 기반)의 한계를 극복하고,
협업 필터링(CF) 정보와 LLM을 정렬하는 새로운 토큰화 기법(TokenRec) 제안.

데이터셋:
- Amazon-Beauty (화장품 추천 데이터)
- Amazon-Clothing (의류 추천 데이터)
- LastFM (음악 추천 데이터)
- MovieLens 1M (영화 추천 데이터)
사용된 모델:
- 기존 추천 모델:
  - MF, NeuCF, LightGCN, GTN, LTGNN (협업 필터링 기반)
  - SASRec, BERT4Rec, S3Rec (시퀀셜 추천 기반)
- 기존 LLM 기반 추천 모델:
  - P5, CID, POD, CoLLM
- 제안 모델 (TokenRec):
  - Masked Vector-Quantized Tokenizer (MQ-Tokenizer)
  - Generative Retrieval (LLM 기반 생성형 검색)
  - LLM Backbone: T5-small 사용

ID 기반 추천 시스템과 LLM 기반 추천 시스템을 효과적으로 결합하는 새로운 토큰화 방법(TokenRec) 제안.
사용자 및 아이템 ID를 벡터 양자화(Vector Quantization, VQ)를 활용하여 토큰화.
Collaborative Filtering 정보를 반영하여, 유사한 사용자와 아이템이 유사한 토큰을 갖도록 설계.
기존 LLM 기반 추천 시스템의 비효율적인 Auto-Regressive Decoding을 대체하는 Generative Retrieval 기법 개발.
새로운 사용자 및 아이템에 대한 Generalization(일반화) 성능 향상.
실험을 통해 기존 LLM 기반 추천 모델 대비 성능 향상 및 계산 효율성 증가를 입증.

(1) Masked Vector-Quantized Tokenizer (MQ-Tokenizer) 활용
- 기존의 숫자 ID를 직접 토큰화하는 방식(ID 기반 추천)의 한계를 극복.
- GNN 기반 협업 필터링 모델(LightGCN)에서 학습된 사용자 및 아이템 표현을 벡터 양자화(Vector Quantization)하여 토큰화.
- 토큰화를 위한 K-way Encoder, Codebook, K-to-1 Decoder 설계.
(2) Generative Retrieval 기반 추천 시스템 개발
- 기존의 Auto-Regressive 방식(토큰을 한 글자씩 생성하는 방식)이 아닌,
  LLM을 활용해 사용자 선호도를 벡터로 생성하고, Top-K 아이템을 검색하여 추천.
- GNN 기반 협업 필터링 정보를 활용하여 LLM의 벡터를 아이템 벡터와 정렬.
(3) Masking 및 Multi-codebook 기법 도입
- 벡터 양자화 과정에서 일부 정보를 무작위로 마스킹하여 일반화 성능을 향상.
- K개의 코드북(Codebook)을 활용하여 다양한 특성을 반영한 토큰 생성.

기존 ID 기반 추천 모델과 LLM 기반 생성형 추천 모델을 연결하는 새로운 토큰화 전략(TokenRec) 제안.
벡터 양자화(Vector Quantization)를 활용하여 ID를 효과적으로 토큰화하고, LLM과 정렬.
Generative Retrieval Paradigm 도입으로, 기존 Auto-Regressive Decoding 방식보다 빠르고 정확한 추천 성능 달성.
일반화 성능 강화: 새로운 사용자 및 아이템에도 적응 가능하도록 설계.

GNN 기반 사용자 및 아이템 벡터 학습 필요:
- 기존의 협업 필터링 모델(LightGCN, GTN 등)을 먼저 학습해야 함.
- GNN을 업데이트해야 새로운 사용자와 아이템을 반영 가능.
LLM 기반 추천 시스템의 계산 비용:
- LLM을 활용한 추천 시스템은 여전히 계산 비용이 높음.
- 다만, 기존 Auto-Regressive 방식보다 속도가 13배 이상 향상됨(실험 결과 기반).
Cold-start 문제에 대한 추가 연구 필요:
- 새로운 사용자 및 아이템의 성능 향상은 이루어졌지만, Cold-start 문제 완전 해결은 아님.

더 작은 LLM 모델(LLaMA-2, Mistral 등)과 결합 연구.
Cross-Domain Recommendation 확장:
- 다양한 도메인의 아이템을 하나의 토큰 공간에서 학습하는 방법론 연구.
프롬프트 최적화 연구:
- LLM 기반 추천에서 보다 효율적인 Prompt Engineering 적용.
Hybrid Recommendation Model 개발:
- LLM + GNN 조합을 최적화하여 더 빠르고 정확한 추천 모델 연구.

LLM 기반 추천 시스템의 핵심 문제(사용자 및 아이템 ID 토큰화)를 해결하는 혁신적인 접근법.
기존 ID 기반 추천 및 LLM 기반 추천 모델의 한계를 극복하는 새로운 토큰화 기법(TokenRec) 제안.
기존 LLM 기반 추천 모델 대비 연산 속도 13배 향상, 성능 개선(Recall@20 19.08% 증가).
새로운 사용자 및 아이템에 대한 일반화 성능 향상, Generative Retrieval 도입으로 비효율적인 Auto-Regressive Decoding 제거.
다만, GNN 기반 사용자 및 아이템 벡터 학습이 필요하고, Cold-start 문제 해결은 추가 연구가 필요.
향후 연구에서는 경량화 모델 적용, 크로스 도메인 확장, 프롬프트 최적화가 중요한 방향이 될 것.

728x90