인공지능/논문 리뷰 or 진행

USER-LLM: Efficient LLM Contextualization with User Embeddings

이게될까 2025. 7. 13. 23:49
728x90
728x90

https://arxiv.org/abs/2402.13598

 

User-LLM: Efficient LLM Contextualization with User Embeddings

Large language models (LLMs) have achieved remarkable success across various domains, but effectively incorporating complex and potentially noisy user timeline data into LLMs remains a challenge. Current approaches often involve translating user timelines

arxiv.org

User의 기록을 단순 text로 넘겨주면 성능이 떨어진다 => embedding 으로 줘서 성능을 올려보자 

 

기존 방법은 Text로 입력하지만 이제 Embedding으로 해서 LLM에 주입하자!!

근데 Soft prompt로 주입하는 것이 아닌 Cross-attention을 진행 

 

 Token도 줄이고, 성능도 높인 것을 볼 수 있다.

요약이 생각보다 별로네요....?

확실히 token만 줄이기 보단 embedding 단에 확실하게 압축하는 것이 좋긴 하네요 

 

연구 문제 LLM에 사용자 히스토리(타임라인)를 효율적이고 정밀하게 통합하여 개인화 응답을 생성하려는 문제
기존 한계 - 유저 히스토리를 텍스트로 변환 → 컨텍스트 길이 ↑, 연산량 ↑
- 텍스트는 행동의 뉘앙스/변화 감지 어려움
핵심 아이디어 유저 타임라인을 임베딩으로 표현하고, Cross-Attention을 통해 LLM에 직접 통합
모델 구성 User Encoder: ID 기반 시퀀스를 임베딩 시퀀스로 변환
Cross-Attn LLM: 유저 임베딩을 LLM 중간 레이어에 주입
③ (선택) Perceiver: 임베딩 압축
훈련 방식 - 2단계 학습: (1) 유저 인코더 사전학습 (2) LLM + 인코더 공동 파인튜닝
- 전략: Full / Encoder-only / LoRA / Projection-only
입력 형식 유저 히스토리: ID 시퀀스
쿼리: 자연어 질의
출력: 개인화된 LLM 응답
기술적 특징 - ID → feature embedding → item embedding (concat) → Transformer → 임베딩 시퀀스
- Cross-Attn(Q = LLM, K/V = User embedding)
- Gated Attention α 사용 (layer별 조절)
사용 데이터셋 MovieLens20M / Amazon Review / Google Local Review
평가 작업(Task) - 다음 아이템 예측
- 선호 장르/카테고리 예측
- 리뷰 생성
주요 성능 - 최대 16.33% 정확도 향상
- 최대 78.1X 연산량 감소 (FLOPs 기준)
- Perceiver로 68% 토큰 수 절감 시에도 성능 유지
주요 비교 결과 - 기존 Text Prompt / Text Summary 방식 대비 성능·효율 모두 우위
- Soft-prompt 대비 Cross-attn 방식이 리뷰 생성 등에서 월등
한계 - Cold-start 사용자/아이템 대응 미흡
- 도메인 일반화 추가 검증 필요
- Cross-Attn 위치 및 α 튜닝 필요
기여 요약 ✅ LLM 개인화를 위한 사용자 임베딩 통합 방식 제안
✅ Cross-attn 기반 유저-LLM 통합 구조 정립
✅ Perceiver와 다양한 학습 전략으로 실용성 확보
✅ 다수 데이터셋/태스크에서 일반화 능력 실증
더보기

 


🧠 USER-LLM 논문 핵심 요약표

문제 상황 기존 LLM 개인화 방식은 유저 히스토리를 텍스트 프롬프트로 변환하여 사용함.
→ 긴 컨텍스트 길이와 높은 연산 비용 발생 + 행동 변화 포착 미흡
주요 기여 ① 유저 히스토리를 ID 기반 임베딩으로 표현해 직접 LLM에 통합
② Cross-attention 기반 통합 메커니즘 사용
③ Perceiver를 이용한 임베딩 압축으로 효율 향상
④ 다양한 트레이닝 전략(Full, LoRA, Enc, Proj) 제안
방법론 1. User Encoder: 여러 feature(name, genre, rating 등)를 결합해 sequence 임베딩 생성
2. Cross-Attention: 임베딩을 LLM 중간 레이어에 Cross-Attn으로 삽입 (Flamingo 스타일)
3. Training 전략: Encoder 사전학습 → LLM + Encoder 동시 파인튜닝 or 부분 학습
4. Perceiver Layer: 유저 임베딩을 latent query로 요약, 토큰 수 감소
실험 환경 - 사용 데이터셋: MovieLens20M, Google Review, Amazon Review
- 평가 작업: Next-item prediction, Favorite category prediction, Review generation
주요 결과 - 최대 78.1배의 FLOPs 절감
- 최대 16.33% 정확도 향상
- 특히 긴 시퀀스에 대해 더 효과적
-Encoder만 학습하거나 LoRA만 적용해도 좋은 성능 유지
성능 비교 USER-LLM은 Text-Prompt와 Text-Summarization보다 더 적은 토큰 수로 높은 정확도 달성
효율성 - Text Prompt는 시퀀스 길이 증가에 따라 토큰 수 ↑ (50→200일 경우 700→2500토큰)
→ FLOPs ↑
- USER-LLM은 고정 32토큰만 사용 → 최대 78.1X 연산 효율 향상
모듈 비교 - Cross-Attention > Soft-Prompt (특히 리뷰 생성에 큰 차이)
- 상위 LLM 레이어일수록 Cross-Attn의 영향 더 큼
한계 - 사용자 임베딩 품질에 따라 LLM 성능이 크게 좌우됨
- 새로운 사용자나 Cold Start 문제에 대해 직접 대응 방법은 없음
향후 연구 방향 - 더 정교한 사전학습 기법 통한 유저 임베딩 개선
- LLM과 유저 임베딩 간 정렬(alignment) 향상
- 다양한 태스크에서의 범용성 및 제너럴라이제이션 강화

 

논문 USER-LLM: Efficient LLM Contextualization with User Embeddings은 개인화를 위한 LLM 사용에 있어 기존 접근 방식의 한계를 극복하고자 제안된 방법입니다. 


🔍 관련 연구 및 USER-LLM과의 차이점 비교표

분야 대표 연구 핵심 아이디어 USER-LLM과의 차이점
분야 대표 연구 핵심 아이디어 차이점
1. 텍스트 기반 사용자 개인화 - GPTRec 
- LLM-Rec
- OpenP5
- 사용자 히스토리를 텍스트로 변환
- LLM에 그대로 프롬프트로 입력하여 개인화
⚠️ 긴 컨텍스트 → 높은 연산비용
⚠️ 변화된 취향 반영 어려움
✅ USER-LLM은 텍스트 대신 임베딩 사용
✅ sequence compression으로 효율 극대화
2. Soft-Prompt 기반 개인화 - Doddapaneni et al., 2024
- Prompt Tuning
- 사용자 데이터를 텍스트에서 임베딩으로 변환
- Soft prompt로 LLM 앞에 삽입
⚠️ Soft Prompt는 LLM 내부 의미적 통합 부족
⚠️ Fine-grained control 어려움
✅ USER-LLM은 Cross-Attention 기반 통합
✅ LLM의 상위 레이어에서 의미적 정보를 효과적으로 반영
3. 멀티모달 LLM - Flamingo 
- PaLI, Palm-E
- 이미지나 음성 등 다양한 modality를 임베딩으로 표현
- Cross-attention을 통해 LLM에 통합
🔁 USER-LLM은 이 접근을 사용자 정보에 적용
🚀 사용자 히스토리를 독립적 modality로 취급하는 첫 시도
4. Long-context modeling - LongNet
- RingAttention
- Gist tokens
- LLM이 긴 컨텍스트를 잘 다루도록 구조 변경
- 입력 압축, Attention 최적화 등
⚠️ LLM 아키텍처 자체 변경 요구
✅ USER-LLM은 context 축소 (token 단축)를 통해 우회적 해결
✅ 기존 LLM 그대로 활용 가능
5. 사용자 임베딩 생성 - BERT4Rec
- U-BERT
- Contrastive Learning 기반 추천
- 사용자 행동을 기반으로 별도 encoder 학습
- 주로 추천 시스템에서 활용
⚠️ LLM과의 통합 고려 부족
✅ USER-LLM은 encoder + LLM 동시 훈련 구조 제안
✅ Cross-attention 통합 방식 실험적 검증 포함

🎯 USER-LLM의 차별화 포인트 요약

텍스트 프롬프트 의존 탈피 사용자 히스토리를 텍스트로 재구성하지 않고, 임베딩을 바로 사용하여 효율성 확보
Cross-Attention 기반 통합 Soft prompt보다 깊이 있는 정보 통합 가능.
LLM 상위 레이어가 사용자 임베딩에 더 집중함을 실험으로 검증
Perceiver 활용한 임베딩 압축 기존 sequence 길이와 무관하게 고정된 짧은 길이의 임베딩 사용 가능 (토큰 32개로 고정)
다양한 훈련 전략 제공 Full, LoRA, Encoder-only, Projection-only 등 실용성 고려한 다양한 파인튜닝 전략 제안
다양한 데이터셋 실험 MovieLens, Amazon, Google Review 등 도메인 다양성 확보로 일반화 능력 검증

🧪 이 논문이 등장한 필연성

기존 연구들이:

  • 긴 컨텍스트로 인해 연산량이 커지고,
  • 텍스트 기반 히스토리 재구성이 비효율적이며,
  • Soft Prompt 방식이 LLM의 의미적 reasoning에 제한적인 상황에서,

USER-LLM은:

  • 유저 히스토리를 독립적 modality로 보고,
  • LLM과의 통합을 cross-attention 기반으로 설계하며,
  • 실제 시스템 적용을 고려한 효율성과 일반화 가능성을 제공하기 위해 등장한 것입니다.

 

USER-LLM 논문은 기존의 텍스트 기반 사용자 개인화 방식의 한계를 극복하고, 효율적이고 정밀한 사용자 개인화를 위해 사용자 임베딩 기반의 새로운 LLM 컨텍스트화 방식을 제안합니다.


🧠 USER-LLM 방법론 정리


1️⃣ 문제 정의

입력 사용자 집합 U, 아이템 집합 V 
각 사용자 u∈U는 시계열 타임라인 S_u = (v_1^(u), v_2^(u), ..., v_n^(u))를 가짐
목표 주어진 사용자 히스토리 S_u와 쿼리 Q에 대해 개인화된 응답 A_u를 생성하는 디코더-only LLM 설계
기본 전제 각 아이템 v는 다수의 feature M = {m_1, m_2, ..., m_M}를 가짐
예: name, genre, rating 등

2️⃣ 전체 아키텍처

USER-LLM은 두 개의 주요 구성요소로 구성됩니다.

[1] 사용자 임베딩 생성기 (User Encoder)
[2] 언어 모델과의 통합 모듈 (Cross-Attention 기반 LLM)

3️⃣ 사용자 임베딩 생성

🧩 입력 구성

  • 각 유저 히스토리는 ID 시퀀스 형태로 구성됨:
    S_u = [ (x_{1,m_1}, ..., x_{1,m_M}), ..., (x_{L,m_1}, ..., x_{L,m_M}) ]
  • x_{i,m_j}: feature m_j의 ID 값

🏗️ 임베딩 처리

  • feature별 임베딩 매트릭스
  • 아이템 단위 임베딩 f_i 생성:
  • 차원 축소:

🔁 Autoregressive Transformer Encoder

  • 전체 임베딩 시퀀스: F' = [f'_1, ..., f'_L]
  • Transformer decoder T로 시퀀스를 입력:

4️⃣ LLM 통합 (Cross-Attention 기반)

⚙️ 기본 구조

LLM의 일부 중간 레이어에 Cross-Attention 모듈 삽입:

기존 LLM Layer: 
   Input → Self-Attn → FeedForward

USER-LLM Layer:
   Input → Self-Attn → Cross-Attn(유저임베딩) → FeedForward

🔄 연산 수식

  • Q = O_i, K = V = E_{S_u}

5️⃣ Gated Cross-Attention (선택적)

Cross-Attn 영향력을 레이어별로 제어할 수 있도록 스칼라 게이트 α_i ∈ [0, 1]사용:

  • 상위 LLM 레이어일수록 α가 높아지는 경향 → 사용자 특성은 상위 의미에서 반영됨

6️⃣ 훈련 전략 (2단계)

(1) 사용자 인코더 사전학습 - 목표: 사용자 행동 시퀀스를 기반으로 자기지도 학습
- 예측: 다음 아이템의 각 feature를 예측 (cross-entropy loss)
(2) 전체 모델 파인튜닝 입력: 사용자 ID 시퀀스 + 자연어 쿼리 LLM과 Encoder를 연결하고, 다양한 학습 전략 사용

파인튜닝 전략 종류

Full LLM + Encoder + Projection 전체 학습
Enc Encoder + Projection만 학습 (LLM은 고정)
LoRA LLM에 LoRA 적용 + Encoder 학습 (효율적)
Proj Projection만 학습 (최소 파라미터 조정)

7️⃣ Perceiver 기반 압축

  • Perceiver는 user embedding을 latent query를 이용해 요약
  • 예: 50개 시퀀스를 → 16개 임베딩으로 압축
  • 장점:
    • 긴 유저 히스토리도 LLM 입력 토큰 수 고정 가능 (예: 32개)
    • 잡음 제거, 효율적 정보 압축 가능

🧩 시각화 구조 요약

유저 시퀀스 (ID 기반) ─▶ [User Encoder (Transformer)]
                        └─▶ Esu (유저 임베딩)

유저 임베딩 Esu
        ↓
  Cross-Attention
        ↓
  LLM Intermediate Layers
        ↓
  Personalized Output

이 구조는 기존 텍스트 기반 방법이 가진 비효율성, 표현력 한계, 연산 비용 문제를 모두 해결하면서도, LLM의 표현력과 사용자 이해를 결합하는 데 성공했습니다.

 


✅ 1. 실험 결과 요약

실험 항목 USER-LLM 성과
정확도 향상 - 최대 16.33% 성능 향상(예: Favorite Category Prediction – Google Review)
- 대부분의 Task에서 기존 Text-Prompt 방식보다 높은 성능 달성
연산 효율 - 최대 78.1배 FLOPs 감소
- 긴 시퀀스에서도 context token 수를 32로 고정 가능
모델 경량화 - Full fine-tune 없이 Encoder 또는 LoRA만으로도 좋은 성능 유지
→ 파라미터 효율적
Cross-Attn 효과 - Soft-prompt보다 항상 높은 성능
→ 특히 Review Generation task에서 성능 차이 큼
Perceiver 압축 - 임베딩 수를 50개 → 16개로 줄여도 성능 유지
→ Cross-attention 효율 유지
Generalization - Next Item Prediction 외에도 Favorite Genre/Review Generation에서 좋은 성능
→ 사용자 임베딩이 일반적 표현력 가짐

🔚 2. 결론 (Conclusion)

논문은 다음과 같은 결론을 제시합니다:

  • 사용자 행동 시퀀스를 LLM에 효율적으로 통합하려면, 텍스트가 아닌 임베딩 기반 접근이 더 효과적이다.
  • USER-LLM은 Cross-Attention을 통해 유저 임베딩과 LLM을 통합하여 성능을 높이고 연산비용을 줄인다.
  • 이 방식은 리소스 제한 환경에서도 유의미한 성능을 제공하며, LLM의 사전 지식을 훼손하지 않으면서 사용자 개인화가 가능하다.
  • 다양한 개인화 태스크에 잘 generalize 되며, 범용 사용자 기반 언어 인터페이스 설계에 효과적이다.

⚠️ 3. 한계점 (Limitations)

Cold-start 문제 새로운 사용자(user) 또는 아이템에 대한 데이터가 없으면 사용자 임베딩이 생성되지 않음
데이터 전처리 비용 ID 기반 feature 설계, embedding vocabulary 구축 등 초기 구축 비용 존재
대규모 학습 필요 사용자 encoder의 pretraining이 필요하므로, 많은 interaction 데이터를 요구
도메인 일반화 MovieLens, Amazon, Google 리뷰에 특화되어 있음
→ 의료, 금융 등 고정밀 도메인에서는 추가 검증 필요
Cross-Attn 위치 민감성 LLM의 어느 layer에 cross-attn을 삽입하느냐에 따라 성능이 달라질 수 있음
(논문에선 실험으로 분석했지만 실제 응용에선 튜닝 필요)

🌟 4. 기여 (Contributions)

논문은 다음과 같은 주요 기여를 합니다:

① 사용자 임베딩 기반 LLM 개인화 프레임워크 제안 사용자 행동 시퀀스를 ID 임베딩으로 요약하여 Cross-Attn으로 LLM과 통합하는 구조를 최초로 제안
② Cross-Attention 기반 통합 구조 실험적 검증 Soft prompt 대비 우수한 성능을 다양한 task에서 입증
③ Perceiver를 활용한 임베딩 압축 및 효율성 확보 Transformer 기반 Encoder + Perceiver 조합으로 token 수 대폭 감소
④ 다양한 파인튜닝 전략 설계 (Full, LoRA, Enc-only) 자원 제약 환경에서도 적용 가능하도록 다양한 학습 전략 제안
⑤ 리뷰 생성, 장르 예측 등 다양한 Task에서 Generalization 입증 단일 임베딩 구조로 여러 다운스트림 개인화 task에서 좋은 성능을 보임

 

 

 

728x90