https://arxiv.org/abs/2402.13598
User-LLM: Efficient LLM Contextualization with User Embeddings
Large language models (LLMs) have achieved remarkable success across various domains, but effectively incorporating complex and potentially noisy user timeline data into LLMs remains a challenge. Current approaches often involve translating user timelines
arxiv.org
User의 기록을 단순 text로 넘겨주면 성능이 떨어진다 => embedding 으로 줘서 성능을 올려보자
기존 방법은 Text로 입력하지만 이제 Embedding으로 해서 LLM에 주입하자!!
근데 Soft prompt로 주입하는 것이 아닌 Cross-attention을 진행


Token도 줄이고, 성능도 높인 것을 볼 수 있다.
요약이 생각보다 별로네요....?
확실히 token만 줄이기 보단 embedding 단에 확실하게 압축하는 것이 좋긴 하네요

연구 문제 | LLM에 사용자 히스토리(타임라인)를 효율적이고 정밀하게 통합하여 개인화 응답을 생성하려는 문제 |
기존 한계 | - 유저 히스토리를 텍스트로 변환 → 컨텍스트 길이 ↑, 연산량 ↑ - 텍스트는 행동의 뉘앙스/변화 감지 어려움 |
핵심 아이디어 | 유저 타임라인을 임베딩으로 표현하고, Cross-Attention을 통해 LLM에 직접 통합 |
모델 구성 | ① User Encoder: ID 기반 시퀀스를 임베딩 시퀀스로 변환 ② Cross-Attn LLM: 유저 임베딩을 LLM 중간 레이어에 주입 ③ (선택) Perceiver: 임베딩 압축 |
훈련 방식 | - 2단계 학습: (1) 유저 인코더 사전학습 (2) LLM + 인코더 공동 파인튜닝 - 전략: Full / Encoder-only / LoRA / Projection-only |
입력 형식 | 유저 히스토리: ID 시퀀스 쿼리: 자연어 질의 출력: 개인화된 LLM 응답 |
기술적 특징 | - ID → feature embedding → item embedding (concat) → Transformer → 임베딩 시퀀스 - Cross-Attn(Q = LLM, K/V = User embedding) - Gated Attention α 사용 (layer별 조절) |
사용 데이터셋 | MovieLens20M / Amazon Review / Google Local Review |
평가 작업(Task) | - 다음 아이템 예측 - 선호 장르/카테고리 예측 - 리뷰 생성 |
주요 성능 | - 최대 16.33% 정확도 향상 - 최대 78.1X 연산량 감소 (FLOPs 기준) - Perceiver로 68% 토큰 수 절감 시에도 성능 유지 |
주요 비교 결과 | - 기존 Text Prompt / Text Summary 방식 대비 성능·효율 모두 우위 - Soft-prompt 대비 Cross-attn 방식이 리뷰 생성 등에서 월등 |
한계 | - Cold-start 사용자/아이템 대응 미흡 - 도메인 일반화 추가 검증 필요 - Cross-Attn 위치 및 α 튜닝 필요 |
기여 요약 | ✅ LLM 개인화를 위한 사용자 임베딩 통합 방식 제안 ✅ Cross-attn 기반 유저-LLM 통합 구조 정립 ✅ Perceiver와 다양한 학습 전략으로 실용성 확보 ✅ 다수 데이터셋/태스크에서 일반화 능력 실증 |
🧠 USER-LLM 논문 핵심 요약표
문제 상황 | 기존 LLM 개인화 방식은 유저 히스토리를 텍스트 프롬프트로 변환하여 사용함. → 긴 컨텍스트 길이와 높은 연산 비용 발생 + 행동 변화 포착 미흡 |
주요 기여 | ① 유저 히스토리를 ID 기반 임베딩으로 표현해 직접 LLM에 통합 ② Cross-attention 기반 통합 메커니즘 사용 ③ Perceiver를 이용한 임베딩 압축으로 효율 향상 ④ 다양한 트레이닝 전략(Full, LoRA, Enc, Proj) 제안 |
방법론 | 1. User Encoder: 여러 feature(name, genre, rating 등)를 결합해 sequence 임베딩 생성 2. Cross-Attention: 임베딩을 LLM 중간 레이어에 Cross-Attn으로 삽입 (Flamingo 스타일) 3. Training 전략: Encoder 사전학습 → LLM + Encoder 동시 파인튜닝 or 부분 학습 4. Perceiver Layer: 유저 임베딩을 latent query로 요약, 토큰 수 감소 |
실험 환경 | - 사용 데이터셋: MovieLens20M, Google Review, Amazon Review - 평가 작업: Next-item prediction, Favorite category prediction, Review generation |
주요 결과 | - 최대 78.1배의 FLOPs 절감 - 최대 16.33% 정확도 향상 - 특히 긴 시퀀스에 대해 더 효과적 -Encoder만 학습하거나 LoRA만 적용해도 좋은 성능 유지 |
성능 비교 | USER-LLM은 Text-Prompt와 Text-Summarization보다 더 적은 토큰 수로 높은 정확도 달성 |
효율성 | - Text Prompt는 시퀀스 길이 증가에 따라 토큰 수 ↑ (50→200일 경우 700→2500토큰) → FLOPs ↑ - USER-LLM은 고정 32토큰만 사용 → 최대 78.1X 연산 효율 향상 |
모듈 비교 | - Cross-Attention > Soft-Prompt (특히 리뷰 생성에 큰 차이) - 상위 LLM 레이어일수록 Cross-Attn의 영향 더 큼 |
한계 | - 사용자 임베딩 품질에 따라 LLM 성능이 크게 좌우됨 - 새로운 사용자나 Cold Start 문제에 대해 직접 대응 방법은 없음 |
향후 연구 방향 | - 더 정교한 사전학습 기법 통한 유저 임베딩 개선 - LLM과 유저 임베딩 간 정렬(alignment) 향상 - 다양한 태스크에서의 범용성 및 제너럴라이제이션 강화 |
논문 USER-LLM: Efficient LLM Contextualization with User Embeddings은 개인화를 위한 LLM 사용에 있어 기존 접근 방식의 한계를 극복하고자 제안된 방법입니다.
🔍 관련 연구 및 USER-LLM과의 차이점 비교표
분야 대표 연구 핵심 아이디어 USER-LLM과의 차이점분야 | 대표 연구 | 핵심 아이디어 | 차이점 |
1. 텍스트 기반 사용자 개인화 | - GPTRec - LLM-Rec - OpenP5 |
- 사용자 히스토리를 텍스트로 변환 - LLM에 그대로 프롬프트로 입력하여 개인화 |
⚠️ 긴 컨텍스트 → 높은 연산비용 ⚠️ 변화된 취향 반영 어려움 ✅ USER-LLM은 텍스트 대신 임베딩 사용 ✅ sequence compression으로 효율 극대화 |
2. Soft-Prompt 기반 개인화 | - Doddapaneni et al., 2024 - Prompt Tuning |
- 사용자 데이터를 텍스트에서 임베딩으로 변환 - Soft prompt로 LLM 앞에 삽입 |
⚠️ Soft Prompt는 LLM 내부 의미적 통합 부족 ⚠️ Fine-grained control 어려움 ✅ USER-LLM은 Cross-Attention 기반 통합 ✅ LLM의 상위 레이어에서 의미적 정보를 효과적으로 반영 |
3. 멀티모달 LLM | - Flamingo - PaLI, Palm-E |
- 이미지나 음성 등 다양한 modality를 임베딩으로 표현 - Cross-attention을 통해 LLM에 통합 |
🔁 USER-LLM은 이 접근을 사용자 정보에 적용 🚀 사용자 히스토리를 독립적 modality로 취급하는 첫 시도 |
4. Long-context modeling | - LongNet - RingAttention - Gist tokens |
- LLM이 긴 컨텍스트를 잘 다루도록 구조 변경 - 입력 압축, Attention 최적화 등 |
⚠️ LLM 아키텍처 자체 변경 요구 ✅ USER-LLM은 context 축소 (token 단축)를 통해 우회적 해결 ✅ 기존 LLM 그대로 활용 가능 |
5. 사용자 임베딩 생성 | - BERT4Rec - U-BERT - Contrastive Learning 기반 추천 |
- 사용자 행동을 기반으로 별도 encoder 학습 - 주로 추천 시스템에서 활용 |
⚠️ LLM과의 통합 고려 부족 ✅ USER-LLM은 encoder + LLM 동시 훈련 구조 제안 ✅ Cross-attention 통합 방식 실험적 검증 포함 |
🎯 USER-LLM의 차별화 포인트 요약
텍스트 프롬프트 의존 탈피 | 사용자 히스토리를 텍스트로 재구성하지 않고, 임베딩을 바로 사용하여 효율성 확보 |
Cross-Attention 기반 통합 | Soft prompt보다 깊이 있는 정보 통합 가능. LLM 상위 레이어가 사용자 임베딩에 더 집중함을 실험으로 검증 |
Perceiver 활용한 임베딩 압축 | 기존 sequence 길이와 무관하게 고정된 짧은 길이의 임베딩 사용 가능 (토큰 32개로 고정) |
다양한 훈련 전략 제공 | Full, LoRA, Encoder-only, Projection-only 등 실용성 고려한 다양한 파인튜닝 전략 제안 |
다양한 데이터셋 실험 | MovieLens, Amazon, Google Review 등 도메인 다양성 확보로 일반화 능력 검증 |
🧪 이 논문이 등장한 필연성
기존 연구들이:
- 긴 컨텍스트로 인해 연산량이 커지고,
- 텍스트 기반 히스토리 재구성이 비효율적이며,
- Soft Prompt 방식이 LLM의 의미적 reasoning에 제한적인 상황에서,
USER-LLM은:
- 유저 히스토리를 독립적 modality로 보고,
- LLM과의 통합을 cross-attention 기반으로 설계하며,
- 실제 시스템 적용을 고려한 효율성과 일반화 가능성을 제공하기 위해 등장한 것입니다.
USER-LLM 논문은 기존의 텍스트 기반 사용자 개인화 방식의 한계를 극복하고, 효율적이고 정밀한 사용자 개인화를 위해 사용자 임베딩 기반의 새로운 LLM 컨텍스트화 방식을 제안합니다.
🧠 USER-LLM 방법론 정리
1️⃣ 문제 정의
입력 | 사용자 집합 U, 아이템 집합 V 각 사용자 u∈U는 시계열 타임라인 S_u = (v_1^(u), v_2^(u), ..., v_n^(u))를 가짐 |
목표 | 주어진 사용자 히스토리 S_u와 쿼리 Q에 대해 개인화된 응답 A_u를 생성하는 디코더-only LLM 설계 |
기본 전제 | 각 아이템 v는 다수의 feature M = {m_1, m_2, ..., m_M}를 가짐 예: name, genre, rating 등 |
2️⃣ 전체 아키텍처
USER-LLM은 두 개의 주요 구성요소로 구성됩니다.
[1] 사용자 임베딩 생성기 (User Encoder)
[2] 언어 모델과의 통합 모듈 (Cross-Attention 기반 LLM)
3️⃣ 사용자 임베딩 생성
🧩 입력 구성
- 각 유저 히스토리는 ID 시퀀스 형태로 구성됨:
S_u = [ (x_{1,m_1}, ..., x_{1,m_M}), ..., (x_{L,m_1}, ..., x_{L,m_M}) ] - x_{i,m_j}: feature m_j의 ID 값
🏗️ 임베딩 처리
- feature별 임베딩 매트릭스

- 아이템 단위 임베딩 f_i 생성:

- 차원 축소:

🔁 Autoregressive Transformer Encoder
- 전체 임베딩 시퀀스: F' = [f'_1, ..., f'_L]
- Transformer decoder T로 시퀀스를 입력:

4️⃣ LLM 통합 (Cross-Attention 기반)
⚙️ 기본 구조
LLM의 일부 중간 레이어에 Cross-Attention 모듈 삽입:
기존 LLM Layer:
Input → Self-Attn → FeedForward
USER-LLM Layer:
Input → Self-Attn → Cross-Attn(유저임베딩) → FeedForward
🔄 연산 수식

- Q = O_i, K = V = E_{S_u}
5️⃣ Gated Cross-Attention (선택적)
Cross-Attn 영향력을 레이어별로 제어할 수 있도록 스칼라 게이트 α_i ∈ [0, 1]사용:

- 상위 LLM 레이어일수록 α가 높아지는 경향 → 사용자 특성은 상위 의미에서 반영됨
6️⃣ 훈련 전략 (2단계)
(1) 사용자 인코더 사전학습 | - 목표: 사용자 행동 시퀀스를 기반으로 자기지도 학습 - 예측: 다음 아이템의 각 feature를 예측 (cross-entropy loss) |
(2) 전체 모델 파인튜닝 | 입력: 사용자 ID 시퀀스 + 자연어 쿼리 LLM과 Encoder를 연결하고, 다양한 학습 전략 사용 |
파인튜닝 전략 종류
Full | LLM + Encoder + Projection 전체 학습 |
Enc | Encoder + Projection만 학습 (LLM은 고정) |
LoRA | LLM에 LoRA 적용 + Encoder 학습 (효율적) |
Proj | Projection만 학습 (최소 파라미터 조정) |
7️⃣ Perceiver 기반 압축
- Perceiver는 user embedding을 latent query를 이용해 요약
- 예: 50개 시퀀스를 → 16개 임베딩으로 압축
- 장점:
- 긴 유저 히스토리도 LLM 입력 토큰 수 고정 가능 (예: 32개)
- 잡음 제거, 효율적 정보 압축 가능
🧩 시각화 구조 요약
유저 시퀀스 (ID 기반) ─▶ [User Encoder (Transformer)]
└─▶ Esu (유저 임베딩)
유저 임베딩 Esu
↓
Cross-Attention
↓
LLM Intermediate Layers
↓
Personalized Output
이 구조는 기존 텍스트 기반 방법이 가진 비효율성, 표현력 한계, 연산 비용 문제를 모두 해결하면서도, LLM의 표현력과 사용자 이해를 결합하는 데 성공했습니다.
✅ 1. 실험 결과 요약
실험 항목 | USER-LLM 성과 |
정확도 향상 | - 최대 16.33% 성능 향상(예: Favorite Category Prediction – Google Review) - 대부분의 Task에서 기존 Text-Prompt 방식보다 높은 성능 달성 |
연산 효율 | - 최대 78.1배 FLOPs 감소 - 긴 시퀀스에서도 context token 수를 32로 고정 가능 |
모델 경량화 | - Full fine-tune 없이 Encoder 또는 LoRA만으로도 좋은 성능 유지 → 파라미터 효율적 |
Cross-Attn 효과 | - Soft-prompt보다 항상 높은 성능 → 특히 Review Generation task에서 성능 차이 큼 |
Perceiver 압축 | - 임베딩 수를 50개 → 16개로 줄여도 성능 유지 → Cross-attention 효율 유지 |
Generalization | - Next Item Prediction 외에도 Favorite Genre/Review Generation에서 좋은 성능 → 사용자 임베딩이 일반적 표현력 가짐 |
🔚 2. 결론 (Conclusion)
논문은 다음과 같은 결론을 제시합니다:
- 사용자 행동 시퀀스를 LLM에 효율적으로 통합하려면, 텍스트가 아닌 임베딩 기반 접근이 더 효과적이다.
- USER-LLM은 Cross-Attention을 통해 유저 임베딩과 LLM을 통합하여 성능을 높이고 연산비용을 줄인다.
- 이 방식은 리소스 제한 환경에서도 유의미한 성능을 제공하며, LLM의 사전 지식을 훼손하지 않으면서 사용자 개인화가 가능하다.
- 다양한 개인화 태스크에 잘 generalize 되며, 범용 사용자 기반 언어 인터페이스 설계에 효과적이다.
⚠️ 3. 한계점 (Limitations)
Cold-start 문제 | 새로운 사용자(user) 또는 아이템에 대한 데이터가 없으면 사용자 임베딩이 생성되지 않음 |
데이터 전처리 비용 | ID 기반 feature 설계, embedding vocabulary 구축 등 초기 구축 비용 존재 |
대규모 학습 필요 | 사용자 encoder의 pretraining이 필요하므로, 많은 interaction 데이터를 요구 |
도메인 일반화 | MovieLens, Amazon, Google 리뷰에 특화되어 있음 → 의료, 금융 등 고정밀 도메인에서는 추가 검증 필요 |
Cross-Attn 위치 민감성 | LLM의 어느 layer에 cross-attn을 삽입하느냐에 따라 성능이 달라질 수 있음 (논문에선 실험으로 분석했지만 실제 응용에선 튜닝 필요) |
🌟 4. 기여 (Contributions)
논문은 다음과 같은 주요 기여를 합니다:
① 사용자 임베딩 기반 LLM 개인화 프레임워크 제안 | 사용자 행동 시퀀스를 ID 임베딩으로 요약하여 Cross-Attn으로 LLM과 통합하는 구조를 최초로 제안 |
② Cross-Attention 기반 통합 구조 실험적 검증 | Soft prompt 대비 우수한 성능을 다양한 task에서 입증 |
③ Perceiver를 활용한 임베딩 압축 및 효율성 확보 | Transformer 기반 Encoder + Perceiver 조합으로 token 수 대폭 감소 |
④ 다양한 파인튜닝 전략 설계 (Full, LoRA, Enc-only) | 자원 제약 환경에서도 적용 가능하도록 다양한 학습 전략 제안 |
⑤ 리뷰 생성, 장르 예측 등 다양한 Task에서 Generalization 입증 | 단일 임베딩 구조로 여러 다운스트림 개인화 task에서 좋은 성능을 보임 |