https://arxiv.org/abs/2506.04344
GEM: Empowering LLM for both Embedding Generation and Language Understanding
Large decoder-only language models (LLMs) have achieved remarkable success in generation and reasoning tasks, where they generate text responses given instructions. However, many applications, e.g., retrieval augmented generation (RAG), still rely on separ
arxiv.org
GritLM과 마찬가지로 Generation과 Embedding을 한꺼번에 진행하는 모델을 만들었습니다.
GritLM은 Mistral 8B과 MoE 모델만 사용했지만 여기선 LLama 1B ~ 8B 모델을 통해 scale 법칙도 확인했고, 학습 또한 양을 줄여서 효율성을 인정받았습니다.
성능은 확실히 GritLM에 비해 떨어지지만 학습, 구조 면에서 감소시킨 것이 있기에 논문으로 작성된 것 같네요
LLM2Vec는 SOTA 성능을 달성했지만 LLM의 Generation 성능을 완전히 잃어버리는 것에서 이 논문의 기여가 좀 더 있겠습니다.(GritLM도 있긴 한데...)


prefix의 의미는 special 토큰에 저장이 되고, suffix는 special 토큰만 확인하고 decoding을 진행하여 압축된 정보만으로 생성을 진행하도록 학습합니다.

| 구간 | 의미 |
| 왼쪽 위 삼각형 (m × m) | prefix 간 causal attention → 일반 decoder와 동일하게 앞 토큰만 봄 |
| 가운데 작은 삼각형 | special token 간의 attention 차단 → 서로를 보지 못하도록 막음 |
| 오른쪽 아래 큰 삼각형 | suffix 간 causal attention → suffix는 자기 자신과 앞쪽 suffix만 볼 수 있음 |
| 중앙 세로 줄 (special token 열) | suffix가 special token은 볼 수 있음 → bottleneck 구조 완성 |
| 왼쪽 아래 사각형 | suffix가 prefix를 볼 수 없음 → 핵심! 압축은 오직 special token을 통해 전달됨 |
| 가운데 가로 줄 (special token 행) | special token이 prefix는 볼 수 있음 → 정보를 압축해서 받을 수 있음 |

그럼 여기서 드는 의문...
GEM은 GirtLM에 비해 너무 약하지 아니한가...
| 항목 | GEM | GritLM |
| 임베딩 성능 (MTEB) | SoTA에 근접, 일부 항목에서 부족 | SoTA 수준 달성 |
| 언어 이해 성능 (MMLU) | 일부 모델에서 소폭 하락 | 더 안정적으로 유지 |
| 학습 데이터 요구량 | 단 32K rows | 수백 K~수 M 수준 필요 |
| 구조 복잡도 | 기존 LLM 구조 그대로 (decoder-only) | 구조 일부 변경 (bidirectional layer 도입 등) |
| 학습 비용 | 가볍고 빠름 | 비싼 fine-tuning 필요 |
| 적용 범용성 | post-training 방식으로 모든 LLM에 가능 | 사전 조건 있음 |
| 🧩 문제 상황 | - LLM(특히 decoder-only)은 텍스트 생성에는 뛰어나지만, 텍스트 임베딩 성능은 낮음 - RAG 등에서는 별도 임베딩 모델이 필요해 시스템 복잡도 및 표현 불일치 발생 - 기존 임베딩 모델(BERT 등)은 생성 불가, LLM2Vec 등은 생성 능력 손실됨 |
| 🛠️ 방법론 (GEM) | - 입력에 특수 토큰([E]) 삽입 후 attention mask 조작하여 prefix 정보를 bottleneck 구조로 압축 - Next Token Prediction (NTP) + Contrastive Loss를 결합하여 훈련 - 구조 변경 없이 post-training/fine-tuning만으로 적용 가능 - 학습 시 일부는 special token 없이 학습 (혼합 학습) → 생성 능력 유지 |
| 📈 결과 | - MTEB (임베딩): 기존 LLM 대비 대폭 향상 (1B 기준 18.29 → 54.35) - MMLU (이해): 일부 모델에서 소폭 감소, 대부분은 유지됨 - GritLM 대비: 성능은 다소 낮지만 훨씬 가볍고 효율적인 훈련 가능 |
| 🧪 실험 구성 | - 대상 모델: LLaMA 1B/3B/8B, Mistral 7B - 학습 데이터: SimCSE (단 32K rows만 사용) - 평가: MTEB(15개 subtasks), MMLU(5-shot) - Ablation: α 값, mix 비율(p), special token 수 실험 |
| 🏆 기여 | - 별도 구조 변경 없이 LLM에 임베딩 기능 부여 가능 - 생성 + 임베딩이 가능한 통합 LLM 구성 - 초경량 self-supervised 방식으로 저비용 학습 실현 - 다양한 LLM에 범용적으로 적용 가능 (post-training) |
| ⚠️ 한계 | - LLaMA 8B 등 대규모 모델에서는 MTEB 성능 둔화 (튜닝 필요) - 30 tokens 이상 긴 문장에서는 특수 토큰 하나로 완전 압축 어려움 - 성능 자체는 GritLM보다 낮음, 단 실용성과 효율성에서 강점 |
| 💡 핵심 인사이트 | - “GEM은 SOTA 성능을 추구하기보다는, LLM에 임베딩 기능을 부담 없이 붙이는 실용적 방법론” - RAG, QA, 검색 시스템 등에서 embedding-query gap 해소용 통합 LLM으로 유망 |
📌 논문 핵심 내용 요약표
항목 내용| 항목 | 내용 |
| 문제 상황 | - 기존 LLM(특히 decoder-only)은 텍스트 생성과 reasoning에는 뛰어나지만, RAG 같은 시스템에서는 별도의 텍스트 임베딩 모델이 필요함. - 임베딩 모델과 LLM 사이의 표현 불일치가 시스템 성능 저하를 유발함. |
| 제안 기법 (GEM) |
- GEM (Generative Embedding Model): 기존 decoder-only LLM에 간단한 수정을 가해 임베딩도 생성할 수 있게 만듦. - Special token 삽입: 입력 문장 내에 특별 토큰을 삽입해 정보 압축을 유도 - Attention mask 제어: suffix가 prefix를 볼 수 없도록 attention을 조절해 bottleneck 형성 - Self-supervised 학습: Next Token Prediction(NTP) + Contrastive Learning 조합 |
| 학습 방법 | - 입력 문장 일부에 확률적으로 special token 삽입(p) - prefix + special token + suffix 구조로 입력 - suffix는 prefix를 볼 수 없게 attention mask 구성 - dropout된 prefix와 원본 간 contrastive loss로 임베딩 정제 - loss 함수: L = (1 - α) * L_NTP + α * L_CL |
| 모델 구조 | - 기존 decoder-only 구조 유지 - 특별한 아키텍처 변경 없이 학습으로만 임베딩 능력 추가 |
| 실험 설정 | - 모델: LLaMA 3 시리즈(1B/3B/8B), Mistral 7B - 데이터: SimCSE의 공개 corpus (32,000 rows 정도로 충분) - 평가: MTEB (embedding benchmark), MMLU (language understanding) |
| 결과 | - MTEB 성능 대폭 향상 (e.g., LLaMA 1B: 18.29 → 54.35) - MMLU 성능은 소폭 감소 (e.g., LLaMA 1B: 31.7 → 28.3) - GritLM, LLM2Vec 등 SoTA와 비교 시 유사하거나 더 효율적 |
| 기여 | - 텍스트 생성 능력을 유지하면서 임베딩 성능을 향상시킬 수 있는 새로운 방법 제시 - 별도 구조 변경 없이 post-training/fine-tuning으로 적용 가능 - 소량 데이터, 낮은 계산 비용으로 효율적인 구현 가능 |
| 한계 | - LLaMA 3 8B 모델에서는 MTEB 성능이 3B보다 낮게 나오는 등일관된 scaling이 보장되지 않음 → 하이퍼파라미터 튜닝 필요 - 복잡한 입력 (e.g. 30 tokens 초과)에서 special token 하나로 완전 재생은 어려움 |
| 향후 방향 | - 다양한 special token 수 실험 및 dynamic attention mask 개선 - 다양한 LLM 및 task에 적용 가능성 검증 |
📈 Ablation Study 주요 결과
| 실험 항목 | 설정 | MTEB 성능 | MMLU 성능 |
| Mix 비율 p | 0.8 (raw text 80%) | 48.11 | 27.72 |
| Contrastive Loss 추가 | 사용 | 54.35 | 28.36 |
| Special Token 수 | 5~10개 | 최고 성능 | 미미한 영향 |
| 스케일 업 실험 | LLaMA 1B → 3B → 8B | 3B에서 최고 성능 | 1B, 3B가 언어 성능 유지 우수 |
🔍 핵심 인사이트 요약
- LLM의 generation 능력을 손상시키지 않고 embedding 능력을 추가한 최초의 실용적 접근
- 추가 매개변수 없이, attention mask 조절만으로 임베딩을 생성하게 만듦
- contrastive loss와 special token 설계가 성능 핵심
- 향후 RAG 시스템에서 별도 embedding model 없이 단일 LLM으로 효율적 처리 가능성을 열어줌
🔍 GEM 논문의 관련 연구 정리
| 카테고리 | 내용 요약 | 대표 모델 / 논문 | GEM과의 차별점 |
| 1. Large Language Models (LLMs) | - 최근 LLM(GPT, LLaMA 등)은 decoder-only 구조를 사용하며, text generation과 reasoning에 강점을 보임 - RAG와 같은 시스템에서는 외부 지식 조합으로 LLM을 보완함 |
- GPT - LLaMA - Mistral, Gemini 등 |
GEM은 decoder-only 구조 그대로 유지하면서 embedding 기능을 추가함 |
| 2. Text Embedding Models | - 기존 embedding 모델들은 bidirectional encoder 사용 (e.g., BERT) - 주로 mean pooling, EOS token 등으로 벡터 추출 - contrastive 학습 기반 fine-tuning도 일반적 |
- BERT - SimCSE - E5, BGE, RepLLaMA 등 |
기존 encoder 기반 모델은 text 생성 불가능 → GEM은 생성 능력을 보존하면서 embedding도 수행 |
| 3. Embedding이 가능한 LLM 개조 시도 | - Echo: 입력 복제 후 붙이기 (4배 계산량 증가) - GritLM: causal + bidirectional attention 혼합으로 fine-tuning - LLM2Vec: causal을 bidirectional로 완전히 바꿔 임베딩 전용 LLM화 |
- Echo - GritLM - LLM2Vec |
GEM은: ✓ 생성 능력 유지 ✓ bidirectional attention 사용 안 함 ✓ 소량 데이터(32K row)로 학습 가능 ✓ 별도 모델 구조 변경 없음 |
| 4. Context Compression 관련 연구 | - 입력 길이 증가 문제 해결을 위해 context를 요약하거나 압축하는 방식 제안됨 - Special token에 요약 정보를 압축해 학습하거나 autoencoder처럼 구성함 |
- Gist - ICAE - AutoCompressor - SepLLM |
GEM은 context compression 기술을 embedding 생성에 활용함 → 특수 token에 정보를 압축해 embedding으로 사용함 |
📌 GEM이 기존 연구에 비해 갖는 장점 요약
- ✅ 기존 LLM 구조(decoder-only)를 유지하면서 embedding 성능을 대폭 향상
- ✅ 텍스트 생성 능력 유지 (LLM2Vec은 생성 능력 상실)
- ✅ bidirectional attention 불필요 (contrastive loss + attention mask 제어로 해결)
- ✅ 적은 학습량으로도 높은 성능 (32,000개 문장으로 SoTA 근접)
- ✅ 추가 파라미터 도입 없이 간단한 fine-tuning만으로 적용 가능
✅ GEM vs 기존 방식: 상세 비교
| 항목 | GEM | GritLM | LLM2Vec | AutoCompressor |
| 기반 구조 | Decoder-only LLM 유지 | Decoder-only + 일부 bidirectional attention | Decoder-only → 완전 Encoder화 |
Encoder + Decoder (Autoencoder 구조) |
| 임베딩 생성 방식 | Special token 삽입 + attention mask 조작 + contrastive 학습 | Multi-task (causal + contrastive)with partial bidirectional attention | Causal attention → Bidirectional로 변형 후 contrastive 학습 |
Encoder가 context 압축, Decoder가 복원 |
| 언어 생성 능력 유지 여부 | ✅ 유지됨 | ✅ 유지됨 | ❌ 소실됨 | ❌ 일반 LLM으로 활용 불가 |
| 구조 변경 여부 | ❌ 없음(attention mask만 변경) | ✅ 일부 구조 변경(bidirectional 추가) | ✅ 완전한 구조 변경(encoder화) | ✅ 구조 변경 (encoder-decoder 필요) |
| 훈련 데이터량 | ✅ 적음 (32K row로도 충분) | ❌ 많음 (수십만~백만 이상 필요) | ❌ 많음 (contrastive pretraining) | ✅ 적음 (하지만 복원용 고품질 label 필요) |
| embedding 성능 (MTEB) | SoTA 근접 (특히 1B/3B) | SoTA 수준 (7B 모델 기준) | SoTA (8B 모델 기준 최고) | 좋은 압축 성능, 하지만 embedding 자체 아님 |
| 주요 사용 목적 | Dual-purpose (임베딩 + 생성) | Dual-purpose | 임베딩 전용 | Context 압축 및 복원 |
| Attention 제어 방식 | Special token 이후로 prefix attend 불가(bottleneck 형성) | 일부 bidirectional layer 활용 | 완전 bidirectional 전환 | Encoder에서 압축 후 latent 전달 |
🔍 각 방법론 비교 설명
🔹 GEM (본 논문)
- 핵심 아이디어:
- 입력 내에 special token을 삽입하고, attention mask를 조작하여 prefix 정보를 token으로 압축하도록 학습
- 다음 토큰 예측(NTP) + contrastive loss (self-supervised)
- 장점:
- 기존 decoder-only LLM 그대로 활용 가능
- text generation 성능 유지
- 학습 효율이 뛰어남 (소량 데이터로 가능)
- 차별점:
- attention mask만 수정 → 구조는 그대로
- 매우 경량의 fine-tuning만으로 임베딩 품질 확보
🔹 GritLM (Muennighoff et al., 2024)
- 핵심 아이디어:
- causal attention 기반 NTP + supervised contrastive learning을 병행
- 일부 bidirectional attention을 도입
- 장점:
- dual-purpose 가능 (임베딩 + 생성)
- MTEB, MMLU 모두에서 강력한 성능
- 단점:
- bidirectional 구성 추가 → 구조 변경 필요
- 대규모 데이터 요구
- GEM과 차이점:
- GEM은 구조 변경 없음 + 소량 데이터로 가능
- GritLM은 더 많은 데이터와 복잡한 구조 요구
🔹 LLM2Vec (BehnamGhader et al., 2024)
- 핵심 아이디어:
- 기존 decoder-only LLM을 완전히 bidirectional encoder로 변형
- contrastive 학습 기반 임베딩 전용 모델로 사용
- 장점:
- MTEB 기준 SoTA 성능 달성
- 단점:
- text generation 능력 완전히 소실됨
- 구조 전환 필요, 일반 LLM으로 활용 불가
- GEM과 차이점:
- GEM은 임베딩 + 생성 모두 가능
- LLM2Vec은 embedding 전용이지만 성능 극대화
🔹 AutoCompressor (Chevalier et al., 2023)
- 핵심 아이디어:
- Encoder가 긴 context를 압축된 representation으로 요약
- Decoder는 이 representation을 기반으로 원래 문장을 복원
- 용도:
- 긴 입력의 context compression (e.g. long-prompt RAG, CoT 등)
- 장점:
- 긴 문장 요약, RAG 성능 향상
- 단점:
- embedding task는 아님, 생성이나 reasoning task와 목적 다름
- GEM과 차이점:
- AutoCompressor는 context 압축이 목적이고, GEM은 임베딩 생성이 목적
- GEM은 text embedding + 생성 가능, AutoCompressor는 일반 LLM으로 사용 어려움
📌 결론: GEM의 핵심 차별성 요약
| 특성 | GEM이 독보적인 이유 |
| 유연성 | decoder-only LLM 모두에 적용 가능 (post-training 방식) |
| 이중 기능 | 생성 능력 손실 없이 고품질 임베딩 생성 가능 |
| 학습 효율 | 32K 수준의 self-supervised 데이터로도 학습 가능 |
| 구조 보존 | 모델 아키텍처 변경 없이 attention mask만 조정 |
| 효과적 학습 기법 | Mixed NTP + contrastive loss 조합으로 빠른 수렴과 성능 확보 |
논문 "GEM: Empowering LLM for both Embedding Generation and Language Understanding"의 핵심 기여는, 기존 decoder-only LLM이 갖는 텍스트 생성 능력은 유지하면서도 고품질 텍스트 임베딩을 생성할 수 있도록 훈련하는 방법을 제안한 것입니다.
✅ GEM의 핵심 아이디어
"특수 토큰(special tokens)을 삽입하고 attention mask를 조작해, 입력 문장의 의미를 압축(embedding) 하도록 훈련한다."
🔧 Step-by-Step 방법론 설명
1️⃣ 입력 구조 변경: 특수 토큰 삽입
- 기존 decoder-only LLM은 입력에 대해 순방향(causal) attention을 적용하여 다음 단어를 예측합니다.
- GEM은 입력 문장에 특수 토큰 E(embedding token)을 중간 또는 끝에 삽입합니다.
📌 예시:
입력 문장: "The quick brown fox jumps over the lazy dog."
수정된 입력: "The quick brown fox [E] jumps over the lazy dog."
2️⃣ Attention Mask 조작 (정보 흐름 차단)
- 목표: [E] 토큰이 앞 문장의 정보를 ‘요약’하도록 유도하고, 이후 토큰은 [E]를 통해서만 정보를 얻게 만듦
- 이를 위해 attention mask를 수정:
- suffix 토큰은 prefix를 볼 수 없음
- [E]는 prefix만 보고 압축 정보를 생성
- suffix는 [E]만 보고 decoding
🎯 결과:
정보 흐름이 [prefix] → [E] → [suffix]로만 흘러감
→ 즉, [E]에 정보가 압축됨 = 임베딩 벡터로 사용 가능
3️⃣ 학습 방식: Mixed NTP + Contrastive Learning
🔸 A. NTP (Next Token Prediction) with Special Tokens
- 전체 입력은 여전히 다음 토큰 예측 (causal language modeling) 방식으로 훈련
- 단, [E]는 예측 대상에서 제외하고 나머지로만 loss 계산
- 일부 문장은 special token 없이도 넣어 학습 → 기존 언어 능력 유지
🔸 B. Contrastive Learning
- 더 나은 임베딩을 위해, positive/negative 쌍을 생성해 contrastive loss 적용
- Positive 쌍: 동일한 문장에서 일부 단어(dropout) 제거
- Negative 쌍: 다른 문장들
- Special token 위치에서 얻은 임베딩을 기준으로 비슷한 문장은 가깝게, 다른 문장은 멀게 훈련
📌 Contrastive Loss 예시:
| 문장 | Dropout 변형 | 관계 |
| "The cat is sleeping." | "cat sleeping" | Positive |
| "A car drives fast." | - | Negative |
4️⃣ Loss 조합: 두 가지 학습 목표 결합
- 최종 Loss:

- 초반에는 α=0 (언어 능력 유지)
- 이후 점점 contrastive 비중을 높여 embedding 성능 향상
🧠 직관적 이해를 위한 예시 (End-to-End 흐름)
🌟 목적: "This movie was absolutely fantastic!" → embedding 생성 + 생성도 가능
- 입력:
- "This movie was absolutely [E] fantastic!"
- attention mask 조정:
- [E]는 앞 문장(“This movie was absolutely”)만 보고 embedding 생성
- “fantastic!”은 [E]만 보고 다음 토큰 생성
- 훈련:
- 이 구조를 통해 [E]는 ‘이 영화가 아주 훌륭했다’는 의미를 압축하도록 강제됨
- 이후 [E] 위치의 hidden vector를 embedding으로 추출해 사용
- inference 시:
- RAG 등에서 embedding 추출: [E] 위치의 hidden vector
- generation 시: [E] 없이 입력하면 기존 decoder처럼 작동
📈 왜 이 방법이 유효한가?
| 이유 | 설명 |
| 구조 보존 | 기존 LLM 구조 변경 없이 mask만 바꿈 |
| 임베딩-생성 통합 | 하나의 모델로 두 역할 모두 가능 |
| 학습 효율성 | 32K row 수준의 self-supervised 학습만으로 성능 확보 |
| 추론 효율성 | input duplication(4×) 같은 부담 없음 (Echo 방식 대비) |
📌 요약 정리
| 구성 요소 | 내용 |
| 입력 변형 | 문장 내에 특수 토큰 삽입 |
| attention 조정 | 특수 토큰 이후는 prefix를 볼 수 없음 |
| 훈련 목적 | 특수 토큰에 의미 압축 + 생성 능력 유지 |
| loss 설계 | NTP + contrastive loss 조합 |
| 임베딩 추출 | 특수 토큰 위치의 마지막 layer output |
✅ 1. 실험 결과 요약 (Section 4 & 5)
| 평가 기준 | 결과 요약 |
| MTEB (임베딩 성능) | 기존 LLM 대비 대폭 향상 (예: LLaMA 1B: 18.29 → 54.35) → SoTA 수준 근접 → retrieval, clustering, STS 등 다양한 task에서 향상 |
| MMLU (언어 이해 성능) | 일부 모델에서 소폭 감소 (예: LLaMA 1B: 31.7 → 28.3) 하지만 대부분의 모델에서 생성/추론 능력 유지됨 |
| 비교 실험 | - LLM2Vec: MTEB 성능은 우수하지만 text generation capability 완전히 손실 - GritLM: 성능 우수하지만 많은 데이터와 구조 수정 필요 - GEM: 적은 데이터, 구조 변경 없음으로 유사한 성능 |
| 소규모 학습 데이터 | 단 32,000개의 학습 샘플만으로도 우수한 성능 확보 |
| Ablation | - Mixed NTP + Contrastive 조합이 가장 성능 좋음 - Special token 수 증가 시 embedding 성능 향상 - α 값 점진적 증가 전략 효과적 |
| 스케일링 | 1B, 3B, 8B 모두에서 적용 가능 → 다만 8B에서는 hyperparameter 재조정 필요 |
🧾 2. 결론 (Conclusion, Section 6)
GEM은 기존 decoder-only LLM에 간단한 수정만으로 고성능 임베딩 기능을 부여하면서도 텍스트 생성 능력을 유지하는 경량 self-supervised 방법론이다.
- 구조 변경 없이, attention mask와 loss 조절만으로 임베딩 능력 추가
- 1B~8B까지 다양한 LLM에 적용 가능
- 특히 RAG, 검색, 문서 유사도, 추천 등에 적합한 unified 모델 구현 가능
- LLM을 임베딩 + 생성 모두 가능한 하나의 범용 모델로 확장할 수 있는 기반 제시
⚠️ 3. 한계점 (Section 5.4 및 결론 중 언급)
| 한계 | 설명 |
| 대규모 모델에서 성능 저하 | LLaMA 3 8B에서는 오히려 3B보다 MTEB 성능 낮음 → scale이 커질수록 hyperparameter 튜닝 필요 |
| 길고 복잡한 입력에서 정보 손실 | 예: 특수 토큰 1개만 사용할 경우 30 tokens 초과 입력은 완전 복원이 어려움 |
| MMLU 소폭 성능 하락 | 임베딩 학습 중 일부 언어적 능력이 감소할 가능성 있음 |
| 특수 토큰 위치 무작위성 | training 시 삽입 위치 랜덤 → embedding consistency에 영향을 줄 수 있음 |
🎯 4. 기여 (Contribution)
| 🧠 임베딩 + 생성 통합 모델 제안 | 하나의 decoder-only LLM이 임베딩 생성과 텍스트 생성을 모두 수행 |
| ⚙️ 모델 구조 유지 | 구조 변경 없이 attention mask와 loss 조절만으로 embedding 능력 부여 |
| 🔬 Self-supervised 학습 | 라벨 없이도 embedding 학습 가능 → 확장성 우수 |
| 🧪 소량 데이터로 학습 가능 | 32K 문장으로도 높은 성능 확보 가능 (training efficiency 우수) |
| 📊 광범위 실험 검증 | 다양한 모델(LLaMA, Mistral)과 크기(1B~8B)에서 실험 검증 완료 |
| 💡 실용적 RAG 환경에 적합 | embedding과 생성 기능이 일치하므로 embedding-query gap 해소 가능 |
📌 핵심 요약
| 항목 | 요약 |
| 결과 | 임베딩 성능 대폭 향상, 언어 생성 성능 유지 |
| 결론 | 구조 변경 없이 통합 모델로 발전 가능 |
| 한계 | 대규모 모델에선 추가 튜닝 필요, 긴 입력에 압축 손실 발생 가능 |
| 기여 | LLM을 임베딩 + 생성 가능한 범용 모델로 변환하는 경량 self-supervised 방법 제시 |
좋은 지적입니다. 사실 매우 타당한 우려입니다. GEM은 성능 자체만 보면 GritLM이나 LLM2Vec보다 다소 떨어지는 결과를 보이는데, 과연 그게 연구적으로 충분히 의미 있는 기여인가? 라는 질문은 날카로운 비판이 될 수 있습니다.
그래서 이 논문의 실질적인 기여는 "절대적인 성능"보다는 "효율성, 간결성, 범용성"에 기반한 trade-off 설계라고 해석해야 합니다. 아래에서 더 구체적으로 비교해보겠습니다.
✅ GEM vs GritLM: 성능 중심 비교
| 항목 | GEM | GritLM |
| 임베딩 성능 (MTEB) | SoTA에 근접, 일부 항목에서 부족 | SoTA 수준 달성 |
| 언어 이해 성능 (MMLU) | 일부 모델에서 소폭 하락 | 더 안정적으로 유지 |
| 학습 데이터 요구량 | 단 32K rows | 수백 K~수 M 수준 필요 |
| 구조 복잡도 | 기존 LLM 구조 그대로 (decoder-only) | 구조 일부 변경 (bidirectional layer 도입 등) |
| 학습 비용 | 가볍고 빠름 | 비싼 fine-tuning 필요 |
| 적용 범용성 | post-training 방식으로 모든 LLM에 가능 | 사전 조건 있음 |
결론적으로 성능에서는 GritLM 우세, 하지만 GEM은 "간단하고, 저렴하게, 어디든 적용 가능한" 방법론입니다.
🧠 왜 GEM의 기여는 여전히 의미 있는가?
1. 범용 LLM 변환 전략으로서의 가치
- 구조 변경 없이 decoder-only LLM에 임베딩 기능을 추가할 수 있는 일반적인 템플릿을 제공
- 특히 사용자 정의 LLM, 기업 내 사내 LLM 등에 임베딩 기능을 붙일 때 매우 실용적
2. 학습 효율성 & 자원 최소화
- 학습 비용이 압도적으로 저렴
- Self-supervised 방식만으로 embedding 기능을 학습
- 이 점은 실제 운영 환경(예: edge AI, 사내 배포형 LLM 등)에서는 매우 중요함
3. 설계의 우아함과 재사용성
- 단순한 attention mask 조작으로 bottleneck을 만들고 embedding을 유도하는 방식은 아키텍처 레벨에서 매우 우아한 설계
- 다양한 downstream task (RAG, retrieval, summarization 등)에서 재사용 가능
4. 임베딩/생성 격차 문제 해결의 출발점
- 기존 RAG 시스템에서 embedding과 generation이 서로 다른 모델에서 나오는 문제(semantic misalignment)가 존재
- GEM은 하나의 LLM에서 embedding + generation을 수행해 이 문제를 근본적으로 해결할 수 있는 방향 제시
🧐 그래서, 정말 약한 기여인가?
논문이 SoTA 성능을 깨진 않았다는 점은 사실입니다.
→ 하지만 GEM의 기여는 “성능 향상”보다는 “설계 철학의 전환과 실제 활용 가능성”에 더 초점이 있습니다.
요약하자면:
"GritLM이 무겁고 강력한 전투기라면, GEM은 누구나 조립 가능한 소형 드론이다."
그래서 이 논문은 이론적 완성도나 경쟁력보다는, 실용성 중심의 모델 활용 연구라고 이해하면 좋습니다.