USER-LLM: Efficient LLM Contextualization with User Embeddings

인공지능/논문 리뷰 or 진행

USER-LLM: Efficient LLM Contextualization with User Embeddings

이게될까 2025. 7. 13. 23:49

728x90

User-LLM: Efficient LLM Contextualization with User Embeddings

Large language models (LLMs) have achieved remarkable success across various domains, but effectively incorporating complex and potentially noisy user timeline data into LLMs remains a challenge. Current approaches often involve translating user timelines

arxiv.org

User의 기록을 단순 text로 넘겨주면 성능이 떨어진다 => embedding 으로 줘서 성능을 올려보자

기존 방법은 Text로 입력하지만 이제 Embedding으로 해서 LLM에 주입하자!!

근데 Soft prompt로 주입하는 것이 아닌 Cross-attention을 진행

Token도 줄이고, 성능도 높인 것을 볼 수 있다.

요약이 생각보다 별로네요....?

확실히 token만 줄이기 보단 embedding 단에 확실하게 압축하는 것이 좋긴 하네요

연구 문제	LLM에 사용자 히스토리(타임라인)를 효율적이고 정밀하게 통합하여 개인화 응답을 생성하려는 문제
기존 한계	- 유저 히스토리를 텍스트로 변환 → 컨텍스트 길이 ↑, 연산량 ↑ - 텍스트는 행동의 뉘앙스/변화 감지 어려움
핵심 아이디어	유저 타임라인을 임베딩으로 표현하고, Cross-Attention을 통해 LLM에 직접 통합
모델 구성	① User Encoder: ID 기반 시퀀스를 임베딩 시퀀스로 변환 ② Cross-Attn LLM: 유저 임베딩을 LLM 중간 레이어에 주입 ③ (선택) Perceiver: 임베딩 압축
훈련 방식	- 2단계 학습: (1) 유저 인코더 사전학습 (2) LLM + 인코더 공동 파인튜닝 - 전략: Full / Encoder-only / LoRA / Projection-only
입력 형식	유저 히스토리: ID 시퀀스 쿼리: 자연어 질의 출력: 개인화된 LLM 응답
기술적 특징	- ID → feature embedding → item embedding (concat) → Transformer → 임베딩 시퀀스 - Cross-Attn(Q = LLM, K/V = User embedding) - Gated Attention α 사용 (layer별 조절)
사용 데이터셋	MovieLens20M / Amazon Review / Google Local Review
평가 작업(Task)	- 다음 아이템 예측 - 선호 장르/카테고리 예측 - 리뷰 생성
주요 성능	- 최대 16.33% 정확도 향상 - 최대 78.1X 연산량 감소 (FLOPs 기준) - Perceiver로 68% 토큰 수 절감 시에도 성능 유지
주요 비교 결과	- 기존 Text Prompt / Text Summary 방식 대비 성능·효율 모두 우위 - Soft-prompt 대비 Cross-attn 방식이 리뷰 생성 등에서 월등
한계	- Cold-start 사용자/아이템 대응 미흡 - 도메인 일반화 추가 검증 필요 - Cross-Attn 위치 및 α 튜닝 필요
기여 요약	✅ LLM 개인화를 위한 사용자 임베딩 통합 방식 제안 ✅ Cross-attn 기반 유저-LLM 통합 구조 정립 ✅ Perceiver와 다양한 학습 전략으로 실용성 확보 ✅ 다수 데이터셋/태스크에서 일반화 능력 실증

🧠 USER-LLM 논문 핵심 요약표

문제 상황	기존 LLM 개인화 방식은 유저 히스토리를 텍스트 프롬프트로 변환하여 사용함. → 긴 컨텍스트 길이와 높은 연산 비용 발생 + 행동 변화 포착 미흡
주요 기여	① 유저 히스토리를 ID 기반 임베딩으로 표현해 직접 LLM에 통합 ② Cross-attention 기반 통합 메커니즘 사용 ③ Perceiver를 이용한 임베딩 압축으로 효율 향상 ④ 다양한 트레이닝 전략(Full, LoRA, Enc, Proj) 제안
방법론	1. User Encoder: 여러 feature(name, genre, rating 등)를 결합해 sequence 임베딩 생성 2. Cross-Attention: 임베딩을 LLM 중간 레이어에 Cross-Attn으로 삽입 (Flamingo 스타일) 3. Training 전략: Encoder 사전학습 → LLM + Encoder 동시 파인튜닝 or 부분 학습 4. Perceiver Layer: 유저 임베딩을 latent query로 요약, 토큰 수 감소
실험 환경	- 사용 데이터셋: MovieLens20M, Google Review, Amazon Review - 평가 작업: Next-item prediction, Favorite category prediction, Review generation
주요 결과	- 최대 78.1배의 FLOPs 절감 - 최대 16.33% 정확도 향상 - 특히 긴 시퀀스에 대해 더 효과적 -Encoder만 학습하거나 LoRA만 적용해도 좋은 성능 유지
성능 비교	USER-LLM은 Text-Prompt와 Text-Summarization보다 더 적은 토큰 수로 높은 정확도 달성
효율성	- Text Prompt는 시퀀스 길이 증가에 따라 토큰 수 ↑ (50→200일 경우 700→2500토큰) → FLOPs ↑ - USER-LLM은 고정 32토큰만 사용 → 최대 78.1X 연산 효율 향상
모듈 비교	- Cross-Attention > Soft-Prompt (특히 리뷰 생성에 큰 차이) - 상위 LLM 레이어일수록 Cross-Attn의 영향 더 큼
한계	- 사용자 임베딩 품질에 따라 LLM 성능이 크게 좌우됨 - 새로운 사용자나 Cold Start 문제에 대해 직접 대응 방법은 없음
향후 연구 방향	- 더 정교한 사전학습 기법 통한 유저 임베딩 개선 - LLM과 유저 임베딩 간 정렬(alignment) 향상 - 다양한 태스크에서의 범용성 및 제너럴라이제이션 강화

논문 USER-LLM: Efficient LLM Contextualization with User Embeddings은 개인화를 위한 LLM 사용에 있어 기존 접근 방식의 한계를 극복하고자 제안된 방법입니다.

🔍 관련 연구 및 USER-LLM과의 차이점 비교표

분야 대표 연구 핵심 아이디어 USER-LLM과의 차이점

분야	대표 연구	핵심 아이디어	차이점
1. 텍스트 기반 사용자 개인화	- GPTRec - LLM-Rec - OpenP5	- 사용자 히스토리를 텍스트로 변환 - LLM에 그대로 프롬프트로 입력하여 개인화	⚠️ 긴 컨텍스트 → 높은 연산비용 ⚠️ 변화된 취향 반영 어려움 ✅ USER-LLM은 텍스트 대신 임베딩 사용 ✅ sequence compression으로 효율 극대화
2. Soft-Prompt 기반 개인화	- Doddapaneni et al., 2024 - Prompt Tuning	- 사용자 데이터를 텍스트에서 임베딩으로 변환 - Soft prompt로 LLM 앞에 삽입	⚠️ Soft Prompt는 LLM 내부 의미적 통합 부족 ⚠️ Fine-grained control 어려움 ✅ USER-LLM은 Cross-Attention 기반 통합 ✅ LLM의 상위 레이어에서 의미적 정보를 효과적으로 반영
3. 멀티모달 LLM	- Flamingo - PaLI, Palm-E	- 이미지나 음성 등 다양한 modality를 임베딩으로 표현 - Cross-attention을 통해 LLM에 통합	🔁 USER-LLM은 이 접근을 사용자 정보에 적용 🚀 사용자 히스토리를 독립적 modality로 취급하는 첫 시도
4. Long-context modeling	- LongNet - RingAttention - Gist tokens	- LLM이 긴 컨텍스트를 잘 다루도록 구조 변경 - 입력 압축, Attention 최적화 등	⚠️ LLM 아키텍처 자체 변경 요구 ✅ USER-LLM은 context 축소 (token 단축)를 통해 우회적 해결 ✅ 기존 LLM 그대로 활용 가능
5. 사용자 임베딩 생성	- BERT4Rec - U-BERT - Contrastive Learning 기반 추천	- 사용자 행동을 기반으로 별도 encoder 학습 - 주로 추천 시스템에서 활용	⚠️ LLM과의 통합 고려 부족 ✅ USER-LLM은 encoder + LLM 동시 훈련 구조 제안 ✅ Cross-attention 통합 방식 실험적 검증 포함

🎯 USER-LLM의 차별화 포인트 요약

텍스트 프롬프트 의존 탈피	사용자 히스토리를 텍스트로 재구성하지 않고, 임베딩을 바로 사용하여 효율성 확보
Cross-Attention 기반 통합	Soft prompt보다 깊이 있는 정보 통합 가능. LLM 상위 레이어가 사용자 임베딩에 더 집중함을 실험으로 검증
Perceiver 활용한 임베딩 압축	기존 sequence 길이와 무관하게 고정된 짧은 길이의 임베딩 사용 가능 (토큰 32개로 고정)
다양한 훈련 전략 제공	Full, LoRA, Encoder-only, Projection-only 등 실용성 고려한 다양한 파인튜닝 전략 제안
다양한 데이터셋 실험	MovieLens, Amazon, Google Review 등 도메인 다양성 확보로 일반화 능력 검증

🧪 이 논문이 등장한 필연성

기존 연구들이:

긴 컨텍스트로 인해 연산량이 커지고,
텍스트 기반 히스토리 재구성이 비효율적이며,
Soft Prompt 방식이 LLM의 의미적 reasoning에 제한적인 상황에서,

USER-LLM은:

유저 히스토리를 독립적 modality로 보고,
LLM과의 통합을 cross-attention 기반으로 설계하며,
실제 시스템 적용을 고려한 효율성과 일반화 가능성을 제공하기 위해 등장한 것입니다.

USER-LLM 논문은 기존의 텍스트 기반 사용자 개인화 방식의 한계를 극복하고, 효율적이고 정밀한 사용자 개인화를 위해 사용자 임베딩 기반의 새로운 LLM 컨텍스트화 방식을 제안합니다.

🧠 USER-LLM 방법론 정리

1️⃣ 문제 정의

입력	사용자 집합 U, 아이템 집합 V 각 사용자 u∈U는 시계열 타임라인 S_u = (v_1^(u), v_2^(u), ..., v_n^(u))를 가짐
목표	주어진 사용자 히스토리 S_u와 쿼리 Q에 대해 개인화된 응답 A_u를 생성하는 디코더-only LLM 설계
기본 전제	각 아이템 v는 다수의 feature M = {m_1, m_2, ..., m_M}를 가짐 예: name, genre, rating 등

2️⃣ 전체 아키텍처

USER-LLM은 두 개의 주요 구성요소로 구성됩니다.

[1] 사용자 임베딩 생성기 (User Encoder)
[2] 언어 모델과의 통합 모듈 (Cross-Attention 기반 LLM)

3️⃣ 사용자 임베딩 생성

🧩 입력 구성

각 유저 히스토리는 ID 시퀀스 형태로 구성됨:
S_u = [ (x_{1,m_1}, ..., x_{1,m_M}), ..., (x_{L,m_1}, ..., x_{L,m_M}) ]
x_{i,m_j}: feature m_j의 ID 값

🏗️ 임베딩 처리

feature별 임베딩 매트릭스

아이템 단위 임베딩 f_i 생성:

차원 축소:

🔁 Autoregressive Transformer Encoder

전체 임베딩 시퀀스: F' = [f'_1, ..., f'_L]
Transformer decoder T로 시퀀스를 입력:

4️⃣ LLM 통합 (Cross-Attention 기반)

⚙️ 기본 구조

LLM의 일부 중간 레이어에 Cross-Attention 모듈 삽입:

기존 LLM Layer: 
   Input → Self-Attn → FeedForward

USER-LLM Layer:
   Input → Self-Attn → Cross-Attn(유저임베딩) → FeedForward

🔄 연산 수식

Q = O_i, K = V = E_{S_u}

5️⃣ Gated Cross-Attention (선택적)

Cross-Attn 영향력을 레이어별로 제어할 수 있도록 스칼라 게이트 α_i ∈ [0, 1]사용:

상위 LLM 레이어일수록 α가 높아지는 경향 → 사용자 특성은 상위 의미에서 반영됨

6️⃣ 훈련 전략 (2단계)

(1) 사용자 인코더 사전학습	- 목표: 사용자 행동 시퀀스를 기반으로 자기지도 학습 - 예측: 다음 아이템의 각 feature를 예측 (cross-entropy loss)
(2) 전체 모델 파인튜닝	입력: 사용자 ID 시퀀스 + 자연어 쿼리 LLM과 Encoder를 연결하고, 다양한 학습 전략 사용

파인튜닝 전략 종류

Full	LLM + Encoder + Projection 전체 학습
Enc	Encoder + Projection만 학습 (LLM은 고정)
LoRA	LLM에 LoRA 적용 + Encoder 학습 (효율적)
Proj	Projection만 학습 (최소 파라미터 조정)

7️⃣ Perceiver 기반 압축

Perceiver는 user embedding을 latent query를 이용해 요약
예: 50개 시퀀스를 → 16개 임베딩으로 압축
장점:
- 긴 유저 히스토리도 LLM 입력 토큰 수 고정 가능 (예: 32개)
- 잡음 제거, 효율적 정보 압축 가능

🧩 시각화 구조 요약

유저 시퀀스 (ID 기반) ─▶ [User Encoder (Transformer)]
                        └─▶ Esu (유저 임베딩)

유저 임베딩 Esu
        ↓
  Cross-Attention
        ↓
  LLM Intermediate Layers
        ↓
  Personalized Output

이 구조는 기존 텍스트 기반 방법이 가진 비효율성, 표현력 한계, 연산 비용 문제를 모두 해결하면서도, LLM의 표현력과 사용자 이해를 결합하는 데 성공했습니다.

✅ 1. 실험 결과 요약

실험 항목	USER-LLM 성과
정확도 향상	- 최대 16.33% 성능 향상(예: Favorite Category Prediction – Google Review) - 대부분의 Task에서 기존 Text-Prompt 방식보다 높은 성능 달성
연산 효율	- 최대 78.1배 FLOPs 감소 - 긴 시퀀스에서도 context token 수를 32로 고정 가능
모델 경량화	- Full fine-tune 없이 Encoder 또는 LoRA만으로도 좋은 성능 유지 → 파라미터 효율적
Cross-Attn 효과	- Soft-prompt보다 항상 높은 성능 → 특히 Review Generation task에서 성능 차이 큼
Perceiver 압축	- 임베딩 수를 50개 → 16개로 줄여도 성능 유지 → Cross-attention 효율 유지
Generalization	- Next Item Prediction 외에도 Favorite Genre/Review Generation에서 좋은 성능 → 사용자 임베딩이 일반적 표현력 가짐

🔚 2. 결론 (Conclusion)

논문은 다음과 같은 결론을 제시합니다:

사용자 행동 시퀀스를 LLM에 효율적으로 통합하려면, 텍스트가 아닌 임베딩 기반 접근이 더 효과적이다.
USER-LLM은 Cross-Attention을 통해 유저 임베딩과 LLM을 통합하여 성능을 높이고 연산비용을 줄인다.
이 방식은 리소스 제한 환경에서도 유의미한 성능을 제공하며, LLM의 사전 지식을 훼손하지 않으면서 사용자 개인화가 가능하다.
다양한 개인화 태스크에 잘 generalize 되며, 범용 사용자 기반 언어 인터페이스 설계에 효과적이다.

⚠️ 3. 한계점 (Limitations)

Cold-start 문제	새로운 사용자(user) 또는 아이템에 대한 데이터가 없으면 사용자 임베딩이 생성되지 않음
데이터 전처리 비용	ID 기반 feature 설계, embedding vocabulary 구축 등 초기 구축 비용 존재
대규모 학습 필요	사용자 encoder의 pretraining이 필요하므로, 많은 interaction 데이터를 요구
도메인 일반화	MovieLens, Amazon, Google 리뷰에 특화되어 있음 → 의료, 금융 등 고정밀 도메인에서는 추가 검증 필요
Cross-Attn 위치 민감성	LLM의 어느 layer에 cross-attn을 삽입하느냐에 따라 성능이 달라질 수 있음 (논문에선 실험으로 분석했지만 실제 응용에선 튜닝 필요)

🌟 4. 기여 (Contributions)

논문은 다음과 같은 주요 기여를 합니다:

① 사용자 임베딩 기반 LLM 개인화 프레임워크 제안	사용자 행동 시퀀스를 ID 임베딩으로 요약하여 Cross-Attn으로 LLM과 통합하는 구조를 최초로 제안
② Cross-Attention 기반 통합 구조 실험적 검증	Soft prompt 대비 우수한 성능을 다양한 task에서 입증
③ Perceiver를 활용한 임베딩 압축 및 효율성 확보	Transformer 기반 Encoder + Perceiver 조합으로 token 수 대폭 감소
④ 다양한 파인튜닝 전략 설계 (Full, LoRA, Enc-only)	자원 제약 환경에서도 적용 가능하도록 다양한 학습 전략 제안
⑤ 리뷰 생성, 장르 예측 등 다양한 Task에서 Generalization 입증	단일 임베딩 구조로 여러 다운스트림 개인화 task에서 좋은 성능을 보임

저작자표시 비영리 (새창열림)

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Attention, pooling 방법에 따른 llm-> encoder 성능 - Pooling And Attention What Are Effective Designs For LLM-Based Embedding Models (3)	2025.07.18
EMB와 GEN을 한꺼번에 - GEM: Empowering LLM for both Embedding Generation and Language Understanding (1)	2025.07.16
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation (3)	2025.07.11
DPR - Dense Passage Retrieval for Open-Domain Question Answering (6)	2025.07.10
TriviaQA 논문 확인 및 평가 코드 작성 (6)	2025.07.08

현재글USER-LLM: Efficient LLM Contextualization with User Embeddings

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

공대생 도전 일지