2025.03.17 - [인공지능/논문 리뷰 or 진행] - Embedding + Generation Model 사전 논문 조사5 - 데이터 셋 및 평가 데이터 정리
Embedding + Generation Model 사전 논문 조사5 - 데이터 셋 및 평가 데이터 정리
2024.12.23 - [인공지능/논문 리뷰 or 진행] - ChatQA: Surpassing GPT-4 on Conversational QA and RAG - 논문 리뷰 ChatQA: Surpassing GPT-4 on Conversational QA and RAG - 논문 리뷰https://arxiv.org/abs/2401.10225 ChatQA: Surpassing GPT-4 on
yoonschallenge.tistory.com
여기서 쭉 이어지는 데이터 조사입니다.
GRIT 생성과 Embedding을 동시에 Generative Representational Instruction Tuning - 논문 리뷰
https://arxiv.org/abs/2402.09906 기존 모델들은 생성만 잘하거나, Embedding만 잘 진행하였습니다.그리하여 둘 다 잘 하도록 두개 다 학습을 진행한 GRIT이 등장합니다.생성과 Representation 모두 진행하여 학
yoonschallenge.tistory.com

이 논문에서도 평가는 MTEB를 통해서 진행합니다.
생성 데이터 평가

평가 항목 | data set | 설명 | 평가 방법 |
📚 다지식 분야 문제 해결 | MMLU (Massive Multitask Language Understanding) | 인문학, 사회과학, 자연과학 등 다양한 분야의 지식 문제 풀이 | 정확한 답변을 Exact Match로 평가 |
➗ 수학 문제 해결 | GSM8K (Grade School Math 8K) | 여러 단계를 거쳐 해결해야 하는 초등~중등 수준의 수학 문제 풀이 | 8개 Few-shot 예제 제공, CoT (Chain-of-Thought) 사용, Exact Match 평가 |
🌍 다국어 질문 답변 | TyDi QA (Typologically Diverse QA) | 6개 언어로 주어진 질문에 대한 Closed-book QA 수행 | Gold Passage(정답 포함 문서) 제공, No-context 평가 |
💻 코드 생성 | HumanEvalSynthesize | Python 코드 생성 문제 해결 | pass@1 평가 (20개 샘플, temperature=0.2) |
🤔 논리적 추론 | BBH (BIG-Bench Hard) | 논리적 사고력 문제 (Boolean Expressions, Causal Judgment 등) | 3개 Few-shot CoT 예제 제공, Exact Match 평가 |
📝 자유 생성 및 요약 | AlpacaEval | 개방형 글쓰기, 요약, 롤플레잉 등을 포함한 다양한 생성 작업 평가 | GPT-4를 사용해 GPT-3 결과와 비교하여 승률(win rate) 측정 |
Embedding Data set
Dataset | 설명 | 특징 | 장점 | 단점 |
MEDI | 기존 멀티태스크 임베딩 데이터셋 | 모든 쿼리와 문서에 "Represent" 프리픽스 포함 (양방향 지시문) | 명확한 포맷 제공 | 제한된 네거티브 샘플 |
MEDI2 | MEDI의 개선 버전 | 더 나은 네거티브 샘플 추가 | 네거티브 샘플 강화 | 데이터 다양성이 상대적으로 낮음 |
E5 | 대규모 범용 임베딩 데이터셋 | 지시문 없이 사용 가능 (일부 데이터는 한쪽 지시문만 존재) | 높은 데이터 다양성, 강력한 네거티브 샘플 포함 | 문서 캐싱이 필요할 수 있음 |
Generative data set
Tülu 2 | UltraChat | OpenAssistant (OctoPack) | |
데이터 출처 | 다양한 지시문-응답 쌍 포함 | OpenAI API 기반 데이터 | OpenAssistant 프로젝트 기반 |
다양성 | ✅ 매우 높음 (여러 태스크 포함) | ⚠️ 중간 (GPT 기반 채팅 위주) | 중간 (오픈소스 사용자 데이터) |
튜닝 정도 | ✅ 생성 평가 데이터와 유사하게 튜닝됨 | ⚠️ 특정 도메인에 편중 가능 | ⚠️ 사용자 커뮤니티 주도 |
최종 성능 | 🏆 모든 생성 태스크에서 최고 성능 | 성능 보통 | 성능 보통 |
2025.02.26 - [인공지능/논문 리뷰 or 진행] - Embedding + Generation Model 사전 논문 조사1 Gecko, COCOM
Embedding + Generation Model 사전 논문 조사1 Gecko, COCOM
2025.02.25 - [인공지능/논문 리뷰 or 진행] - GRIT 생성과 Embedding을 동시에 Generative Representational Instruction Tuning - 논문 리뷰일단 시작은 이 논문이겠습니다.생성과 Embedding을 동시에 하는 모델이 있으면
yoonschallenge.tistory.com
학습 데이터 셋
훈련 단계 | 데이터 셋 | 설명 |
1️⃣ Pre-finetuning (사전 미세 조정) | Community QA Dataset (Ni et al., 2021) | 온라인 포럼 및 QA 웹사이트에서 수집된 질문-답변 쌍 |
Title-Body Text Pairs (웹 크롤링) | 웹사이트에서 수집된 제목-본문 쌍 | |
2️⃣ Fine-tuning (최종 미세 조정) | FRet (Few-shot Prompted Retrieval Dataset) | LLM Distillation을 활용하여 생성된 검색 최적화 데이터셋 |
다양한 학문적 데이터셋 | 다양한 과제(Task)를 포함하는 고품질 연구 데이터셋 |
📊 논문에서 사용한 데이터셋 정리
Gecko 모델은 Pre-finetuning → Fine-tuning 두 단계의 학습을 거칩니다. 각각의 단계에서 다양한 데이터셋이 사용되었으며, 특히 Fine-tuning 단계에서는 LLM을 활용한 FRet (Few-shot Prompted Retrieval dataset)이 핵심적인 역할을 합니다.
1️⃣ Pre-finetuning (사전 미세 조정)
자연어 임베딩 모델의 초기 성능을 향상시키기 위한 대규모 비지도 학습 단계
Community QA 데이터셋 | - 온라인 포럼 및 QA 웹사이트에서 수집된 질문-답변 쌍 |
웹 크롤링 데이터 | - 웹에서 추출한 제목(Title)-본문(Body) 쌍 |
✅ 이 단계의 역할:
- 다양한 도메인의 질문-답변 및 제목-본문 관계를 학습하여 임베딩의 일반화 성능 향상
- 자연스럽게 형성된 텍스트 쌍을 활용하여 모델의 초반 학습 데이터로 적합
2️⃣ Fine-tuning (본 학습)
LLM을 활용하여 생성된 FRet 데이터와 기존 학술 데이터 결합하여 학습
① FRet (Few-shot Prompted Retrieval dataset)
- 쿼리-문서 쌍을 LLM으로 생성
- 긍정(Positive) 및 강력한 부정(Hard Negative) 문서 자동 라벨링
- 총 6.6M 개의 데이터 포함
② 기존 학술 데이터셋과 결합 (Fine-tuning Mixture)
Natural Questions (NQ) | - 실제 사용자 검색 질문과 관련 문서 포함 |
HotpotQA | - 다중 문서 기반 질문 응답 데이터셋 |
FEVER | - 사실 검증(Fact-Checking) 데이터셋 |
MedMCQA | - 의학 분야 다중 선택 질문 데이터셋 |
SNLI & MNLI | - 자연어 추론(NLI) 데이터셋 |
Huggingface 분류 데이터셋 | - 다양한 문장 분류 태스크 포함 |
MIRACL (다국어 학습용) | - 다국어 검색 및 질문 응답 데이터 |
✅ 이 단계의 역할:
- FRet을 활용해 자동 생성된 대규모 학습 데이터 확보
- 기존 학술 데이터셋과 결합하여 모델의 범용성 강화
- 다국어 검색을 위한 MIRACL 데이터 추가
🔥 핵심 요약
1️⃣ Pre-finetuning: 비지도 학습 데이터 (커뮤니티 QA, 웹 크롤링 데이터)
2️⃣ Fine-tuning: LLM 기반 FRet + 다양한 학술 데이터셋
✅ 결과:
- 기존 모델보다 데이터 다양성을 확보하여 범용적인 텍스트 임베딩 학습
- FRet 데이터셋을 활용해 수작업 라벨링 없이 고품질 학습 가능
- 다국어 및 다양한 작업에 강한 모델 생성 가능
💡 이 표만 보면 Gecko가 어떤 데이터로 학습되었는지 바로 떠올릴 수 있습니다! 🚀

📌 FRet 데이터 생성 및 학습 활용 방법 상세 정리
Gecko 모델의 핵심 학습 데이터인 FRet (Few-shot Prompted Retrieval dataset)은 대형 언어 모델(LLM)을 활용한 자동 데이터 생성 및 라벨링 과정을 통해 만들어집니다. FRet 데이터는 다양한 쿼리-문서 쌍을 포함하며, 수작업 없이 높은 품질을 보장합니다.
1️⃣ FRet 데이터 생성 과정 (Two-Stage Distillation Process)
FRet 데이터셋은 "쿼리 생성"과 "문서 라벨링"의 두 단계로 구성됨
🔹 (1) LLM을 이용한 다양한 쿼리 생성
✅ 문제점:
- 기존 수작업 방식은 비용이 많이 들고, 편향(Bias) 발생 가능성이 높음.
- 특정 도메인에 과적합될 가능성이 있으며, 다양한 작업을 학습하기 어려움.
✅ 해결책:
- LLM을 활용하여 웹 문서를 바탕으로 다양한 질문(Query)과 작업(Task Description) 생성
- 다양한 형식의 쿼리를 포함하여 데이터 다양성을 증가시킴.
📌 단계별 진행 과정
📍 Step 1: 웹 문서 샘플링 (𝑝seed)
- 웹 코퍼스(Corpus C)에서 임의의 문서(𝑝seed)를 샘플링 (뉴스, 블로그, 위키피디아, 포럼 등)
📍 Step 2: LLM을 이용한 쿼리(Task & Query) 생성
- Few-shot Prompting을 사용하여 쿼리 및 작업(Task)을 생성
- Prompt(ℙQG)를 통해 LLM이 문서(𝑝seed)를 읽고, 해당 문서에서 생성 가능한 질문을 예측
- LLM이 문서의 주제에 맞는 "질문과 검색 작업(Task)"을 생성
✅ 예시:
- 웹 문서(𝑝seed): "The Eternals 영화에서 Phastos가 원자폭탄을 만들었다."
- 생성된 작업(Task): "주어진 질문에 답할 수 있는 문서를 찾는 검색 작업."
- 생성된 질문(Query): "누가 원자폭탄을 만들었나요?"
🔹 이렇게 생성된 (Task, Query) 쌍을 사용하여 FRet 데이터셋 구축
🔹 (2) LLM 기반 긍정/부정 문서 선택 (Positive & Hard Negative Mining)
✅ 문제점:
- 기존 방식에서는 문서(𝑝seed) 자체를 정답으로 간주하지만, 가장 적절한 답이 아닐 수도 있음.
- 더 관련성이 높은 문서를 찾고, 헷갈릴 만한 문서(Hard Negative)를 포함해야 모델이 정교하게 학습됨.
✅ 해결책:
1️⃣ 기존 임베딩 모델을 이용한 문서 검색
- 생성된 쿼리(𝑞)로부터 기존 임베딩 모델을 이용하여 최상위 𝑁개의 후보 문서(𝑃 = {𝑝1, 𝑝2, …, 𝑝𝑁}) 검색
2️⃣ LLM을 사용하여 문서 순위 결정 (Ranking & Labeling)
- LLM을 활용하여 각 문서의 적절성(관련도)를 평가하여 긍정 문서(Positive)와 부정 문서(Negative) 결정
📌 사용된 평가 방법:
- Query Likelihood (QL): 주어진 문서(𝑝)가 해당 쿼리(𝑞)를 생성할 가능성 측정
- Relevance Classification (RC): 문서(𝑝)와 쿼리(𝑞)의 관련성을 평가하여 점수 매김
3️⃣ 최종 문서 선택
- 긍정 문서(𝑝⁺): LLM이 가장 적절하다고 평가한 문서(𝑝1)
- 부정 문서(𝑝⁻): 가장 헷갈릴 가능성이 높은 문서(𝑝20 등 Hard Negative)
✅ 예시:
- 쿼리: "누가 원자폭탄을 만들었나요?"
- 문서 후보:
- (긍정 문서 𝑝⁺): "J. Robert Oppenheimer는 원자폭탄 개발을 이끌었다."
- (부정 문서 𝑝⁻): "핵무기의 위험성에 대한 국제 회의가 열렸다."
🔹 이렇게 최적의 문서 라벨링을 수행하여 FRet 데이터셋을 구축
2️⃣ FRet 데이터셋의 학습 활용 방식
FRet 데이터는 Fine-tuning 과정에서 주요 학습 데이터로 사용됨
🔹 (1) FRet 데이터셋 구성
- 총 6.6M 개의 (Task, Query, Positive, Negative) 쌍 포함
- 다양한 검색 유형을 포함 (문서 검색, 사실 검증, 질문 응답 등)
- 기존 수작업 라벨링 데이터셋과 결합하여 학습 진행
🔹 (2) 학습 방식
📍 Step 1: 대조 학습 (Contrastive Learning)
- 쿼리(𝑞), 긍정 문서(𝑝⁺), 부정 문서(𝑝⁻)를 사용하여 학습
- 손실 함수 (Contrastive Loss) 최적화:

📍 Step 2: 다목적 학습 (Multi-task Learning)
- FRet 데이터셋과 기존 학술 데이터셋을 결합하여 다양한 작업(Task)을 포함하는 범용 모델 학습
- 자연어 추론(NLI), 문장 분류, 문서 검색 등 다양한 다운스트림 작업을 동시에 학습
3️⃣ FRet 데이터셋의 효과
✅ 기존 방식보다 더 강력한 문서 검색 및 문장 유사도 성능 확보
✅ LLM을 활용한 자동 라벨링으로 인간 개입 없이 대규모 고품질 데이터셋 구축 가능
✅ Zero-shot 학습에도 강력한 성능 발휘 (수작업 데이터 없이도 높은 일반화 성능 달성)
🔥 최종 요약 (FRet 데이터 생성 및 활용)
단계 | 세부 과정 | 핵심 내용 |
1. 웹 문서 샘플링 | 웹에서 문서(𝑝seed) 수집 | 다양한 도메인의 텍스트 포함 |
2. LLM 기반 쿼리 생성 | Few-shot prompting 사용 | 쿼리(Task, Query) 자동 생성 |
3. 검색 후보 문서 생성 | 기존 임베딩 모델로 상위 N개 문서 검색 | 문서 후보군(𝑃) 확보 |
4. 긍정/부정 문서 선정 | LLM을 활용하여 문서 순위 매기기 | 최적의 긍정(𝑝⁺) / Hard Negative(𝑝⁻) 선택 |
5. 데이터셋 구축 | (Task, Query, 𝑝⁺, 𝑝⁻) 쌍으로 구성 | 총 6.6M 개 데이터 포함 |
6. 학습 적용 | 대조 학습(Contrastive Learning) + 다목적 학습(Multi-task Learning) | 문서 검색, 유사도, 분류 등 다양한 태스크 성능 향상 |
💡 이해하기 쉽게 핵심적인 내용을 정리했습니다! FRet 데이터셋은 LLM을 활용한 자동 생성 및 라벨링 과정을 거쳐, 높은 품질과 범용성을 가진 학습 데이터로 활용됩니다. 🚀

MTEB 그대로 사용한 것을 볼 수 있다.

Muracl
다국어 검색 성능을 위한 데이터 셋 - 학습을 통해 Multilingual 성능 확보 가능
MS-Marco
📌 MS-MARCO란?
MS-MARCO (Microsoft Machine Reading Comprehension)는 Microsoft에서 개발한 대규모 정보 검색 및 질문 응답 데이터셋입니다.
이 데이터셋은 웹 문서에서 실제 사용자 검색 질의(Query)와 그에 대한 답변을 포함하고 있으며, 정보 검색 및 문서 랭킹 학습을 위한 대표적인 벤치마크로 사용됩니다.
🔎 MS-MARCO의 특징
1️⃣ 웹 기반 데이터
- Bing 검색 로그에서 수집된 실제 사용자 검색 질의 및 응답 문서 포함
- 실제 정보 검색 환경과 유사한 데이터 구성
2️⃣ 정보 검색 및 질문 응답 태스크 포함
- Passage Ranking: 검색 질의에 대해 가장 관련성이 높은 문서(Paragraph)를 찾는 태스크
- Question Answering (QA): 검색 질의에 대한 정답을 문장에서 추출
3️⃣ 대규모 데이터셋
- 수백만 개의 문서-질의 쌍으로 구성
- 실제 검색 시스템에서 학습하는 데 널리 사용됨
📊 Table 3에서 MS-MARCO의 역할
이 테이블은 MS-MARCO와 FRet 데이터셋을 사용하여, 서로 다른 긍정(Positive) 및 부정(Hard Negative) 문서 선택 전략이 모델 성능에 미치는 영향을 비교하는 실험 결과입니다.
✅ MS-MARCO에서 수행한 실험:
- Positive 문서(𝑝⁺) 선택:
- 원본 문서(𝑝seed)를 그대로 사용할 것인가?
- LLM이 선택한 더 관련성이 높은 문서(𝑝1)를 사용할 것인가?
- Hard Negative 문서(𝑝⁻) 선택:
- 랜덤한 다른 문서(𝑝 ∼ 𝑃 \ {𝑝seed})
- LLM이 선택한 헷갈릴 가능성이 높은 문서(𝑝20)
✅ 결과 분석:
- LLM이 선택한 긍정 문서(𝑝1)를 사용할 때 BEIR 성능이 가장 높음 (52.29, FRet에서는 53.39)
- Hard Negative를 추가하면 검색 성능(BEIR)은 향상되지만, 문장 유사도(STS)는 다소 감소할 수도 있음.
🔍 결론
MS-MARCO는 정보 검색 모델 평가의 대표적인 데이터셋이며, 이 논문에서는 MS-MARCO를 사용하여 Gecko 모델의 검색 성능을 평가하고 FRet 데이터셋과 비교하는 실험을 수행하였습니다.
FRet이 영어 데이터만 포함하고 있음에도 불구하고 MS-MARCO보다 높은 성능을 기록하며, LLM을 활용한 데이터 생성 및 라벨링이 효과적임을 입증했습니다. 🚀
FRet - 합성 데이터 셋

BEIR - Re-ranking 성능, Few-shot, nDCG@10 metric
CoCOM
이건 압축 모델이었습니다.
pretrain - 원문 복구, 원문 앞쪽 보고 뒤쪽 복구
Wikipedia-KILT
fine-tuning - 질문에 대한 답변 진행
다양한 QA 셋
사용된 QA 데이터 셋 | 설명 |
Natural Questions (NQ) | Google이 구축한 대규모 개방형 QA 데이터셋 |
MS MARCO | 웹 문서 기반 QA 데이터셋 |
Adversarial QA | 모델을 속이도록 설계된 도전적인 질문 데이터 |
HotpotQA | 멀티 홉(Multi-hop) 추론이 필요한 QA |
WikiQA | 위키피디아 기반 질의응답 데이터셋 |
SCIQ | 과학 분야의 질의응답 데이터셋 |
ASQA | Factoid 질문에 대한 긴 형식 응답을 포함한 QA |
TriviaQA | 다양한 도메인의 문서를 활용한 QA |
Freebase QA | Freebase 기반의 구조적 데이터 QA |
SQuAD | 유명한 Stanford QA 데이터셋 |
평가 데이터 셋

Natural Questions (NQ) | 구글 웹 검색 기반의 질의응답 |
TriviaQA | 위키피디아 및 웹 문서 기반 질문과 답변 |
HotpotQA | 여러 문서를 연결해야 하는 다중 문서 QA |
ASQA | Factoid 질문에 대한 장문 응답 평가 |
PopQA | LLM의 지식 평가를 위한 개방형 질의응답 |
Metrics - EM, match
📊 COCOM의 학습 및 평가 데이터셋과 메트릭 정리
📚 1. 사용된 데이터셋
COCOM은 사전 학습(Pre-training)과 미세 조정(Fine-tuning)에 서로 다른 데이터셋을 사용하였으며, 질의응답(QA) 태스크를 기반으로 학습 및 평가가 진행되었습니다.
🔎 1.1. 사전 학습 (Pre-training) 데이터셋
- 데이터셋: Wikipedia-KILT
- 토큰화: Llama-2-7b 토크나이저 사용, 128 토큰 단위로 분할
- 샘플 수: 총 1,000만 개 문서 조각
- 학습 방식:
- Auto-Encoding (AE) 및 Language Modeling from Context Embeddings (LMCE) 태스크 수행
- 각 샘플을 균등 확률로 선택하여 학습
✅ 목적: 컨텍스트 임베딩이 원문을 복원하고, 추론할 수 있도록 학습
🔬 1.2. 미세 조정 (Fine-tuning) 데이터셋
- 다양한 QA 데이터셋을 조합하여 훈련
- 데이터 필터링:
- 쿼리 길이 128 토큰 이하
- 정답 길이 64 토큰 이하
Natural Questions (NQ) | Google이 구축한 대규모 개방형 QA 데이터셋 |
MS MARCO | 웹 문서 기반 QA 데이터셋 |
Adversarial QA | 모델을 속이도록 설계된 도전적인 질문 데이터 |
HotpotQA | 멀티 홉(Multi-hop) 추론이 필요한 QA |
WikiQA | 위키피디아 기반 질의응답 데이터셋 |
SCIQ | 과학 분야의 질의응답 데이터셋 |
ASQA | Factoid 질문에 대한 긴 형식 응답을 포함한 QA |
TriviaQA | 다양한 도메인의 문서를 활용한 QA |
Freebase QA | Freebase 기반의 구조적 데이터 QA |
SQuAD | 유명한 Stanford QA 데이터셋 |
✅ 목적: 다양한 질의응답 형식과 도메인을 학습하여 모델의 일반화 성능 강화
🏆 2. 평가(Evaluation) 데이터셋
COCOM은 평가 시 5개의 대표적인 QA 데이터셋을 사용하였습니다.
Natural Questions (NQ) | 구글 웹 검색 기반의 질의응답 |
TriviaQA | 위키피디아 및 웹 문서 기반 질문과 답변 |
HotpotQA | 여러 문서를 연결해야 하는 다중 문서 QA |
ASQA | Factoid 질문에 대한 장문 응답 평가 |
PopQA | LLM의 지식 평가를 위한 개방형 질의응답 |
✅ 목적:
- 단순 질의응답뿐만 아니라 다중 문서 추론, Factoid QA, LLM 내부 지식 평가까지 가능하도록 평가
📏 3. 사용된 평가 메트릭 (Metrics)
- Exact Match (EM)
- 모델이 정확히 정답과 동일한 답변을 생성했는지 평가
- 가장 표준적인 QA 성능 지표
- Match (M)
- 정답이 모델 출력의 일부로 포함되었는지 평가
- 기존 연구들과 비교 가능하도록 추가 사용
✅ 핵심 포인트:
- 기존 연구는 디코더를 튜닝하지 않고 평가하여 Match (M) 기준으로 성능이 높음
- COCOM은 디코더까지 튜닝하여 Exact Match (EM) 기준에서도 높은 성능을 보임
🔥 최종 요약 표
사전 학습 | Wikipedia-KILT | 128 토큰 단위로 분할하여 Auto-Encoding(AE) 및 LMCE 학습 |
미세 조정 | NQ, MS MARCO, HotpotQA, TriviaQA 등 총 10개 QA 데이터셋 | 질문-응답 쌍 학습, 다양한 도메인 및 질의응답 형식 포함 |
평가 | NQ, TriviaQA, HotpotQA, ASQA, PopQA | 단순 QA + 다중 문서 추론 + 모델 내부 지식 평가 |
평가 메트릭 | Exact Match (EM), Match (M) | 정확한 정답 생성 여부 평가 (EM), 부분 정답 포함 여부 평가 (M) |
✅ 핵심 결론
- COCOM은 QA 태스크 전반에 걸쳐 강한 일반화 성능을 갖도록 설계됨
- 기존 연구는 Match (M) 기준으로 성능이 높게 나왔으나,
- COCOM은 Exact Match (EM)에서도 강력한 성능을 달성하여 더 정밀한 질의응답 가능 🚀
Embedding + Generation Model 사전 논문 조사2 ICAE, GenEOL, Token Prepending
https://arxiv.org/abs/2307.06945 In-context Autoencoder for Context Compression in a Large Language ModelWe propose the In-context Autoencoder (ICAE), leveraging the power of a large language model (LLM) to compress a long context into short compact memor
yoonschallenge.tistory.com
ICAE
이것도 압축 논문입니다.
PwC라는 본인들이 구축한 데이터 셋을 사용합니다.
Prompt-with-Context (PWC) 데이터셋 정리
📌 PWC 데이터셋이란?
PWC (Prompt-with-Context) 데이터셋은 LLM의 컨텍스트 활용 능력을 향상시키기 위해 설계된 데이터셋이다. 각 샘플은 다음과 같은 3가지 요소로 구성된다.
- Context (텍스트 본문): 주어진 정보 (예: 뉴스 기사, 연구 논문 등)
- Prompt (질문 또는 요청): 텍스트와 관련된 질문 또는 명령
- Answer (정답 응답): 프롬프트에 대한 적절한 답변
📌 PWC 데이터셋 구성 방법
- 기본 데이터: Pile 데이터셋에서 20,000개의 텍스트 샘플을 선정.
- 프롬프트 생성: GPT-4를 사용하여 각 텍스트에 대해 15개 프롬프트(질문 및 명령형 포함) 생성.
- 10개는 특정 정보 추출 (예: "이 문장에서 기업명을 나열하시오.")
- 5개는 일반적 요청 (예: "이 문장을 요약하시오.", "이 텍스트의 제목을 작성하시오.")
- 최종 데이터 크기:
- 훈련 데이터: 240,000개 샘플
- 테스트 데이터: 18,000개 샘플
📌 데이터 생성 방식
- GPT-4에 다음과 같은 프롬프트를 입력하여 자동으로 생성:
- 텍스트의 주제, 장르, 구조, 스타일, 키워드 등을 고려한 다양한 질문 및 명령 작성
- 예시 일반 프롬프트:
- "이 텍스트를 요약하시오."
- "이 텍스트의 제목을 작성하시오."
- "이 텍스트에서 중요한 키워드를 추출하시오."
- "이 텍스트의 다음 단락을 작성하시오."
📌 PWC 데이터셋의 목적
- ICAE 모델이 긴 컨텍스트에서 중요한 정보를 압축하여 효과적으로 응답할 수 있도록 학습.
- LLM이 단순한 컨텍스트 기억이 아니라, 컨텍스트 내 정보를 정확히 이해하고 활용할 수 있도록 도움.
- Instruction Fine-tuning(명령 기반 미세 조정)에 사용하여 모델의 응답 품질 향상.
📌 예시 (Figure 9 참고)
Context (텍스트 본문):
- "Google, Amazon, Microsoft, Facebook, IBM이 AI 연구 그룹 Partnership on AI를 설립했다."
- "Dario Amodei는 OpenAI에서 근무했다."
- "AI가 백색 칼라 직업을 대체하고, 공공 신뢰를 손상시키는 문제 등이 있다."
Prompt-Answer 샘플:
Prompt | Answer |
Partnership on AI를 설립한 기업을 나열하시오. | Google, Amazon, Microsoft, Facebook, IBM |
AI 산업이 직면할 수 있는 문제는 무엇인가? | AI가 백색 칼라 직업을 대체하고, 공공 신뢰를 손상시킬 가능성이 있음. |
Dario Amodei는 이전에 어느 조직에서 근무했는가? | OpenAI |
📌 핵심 정리
- GPT-4를 활용하여 20,000개 텍스트에서 240,000개 질문-응답 데이터셋 생성.
- LLM이 긴 컨텍스트에서 중요한 정보를 정확히 추출하고 응답할 수 있도록 설계.
- Instruction Fine-tuning(명령 기반 미세 조정) 데이터로 활용되어 ICAE의 성능을 향상.
이 데이터셋은 ICAE의 문맥 압축 학습에 필수적인 역할을 하며, 모델이 문맥을 올바르게 요약하고 활용하는 능력을 극대화하는 데 기여한다. 🚀
GenEOL
기존 LLM에 여러 Transformed Sentences를 줘 Embedding 평균 뽑기


STS Benchmark

여기서도 STS와 MTEB Benchmark를 사용했네요
Token-Prepending
여기도 학습 없이 진행합니다.

📌 STS-B (Semantic Textual Similarity Benchmark)
🔹 항목 | 🔍 설명 |
이름 | STS-B (Semantic Textual Similarity Benchmark) |
출처 | Cer et al., 2017 |
목적 | 두 문장이 얼마나 의미적으로 유사한지 평가 |
데이터 구성 | 뉴스 기사, 질문-답변 쌍, 온라인 포럼 대화 등 다양한 도메인의 문장 쌍 포함 |
유사도 점수 | 0 (완전히 다름) ~ 5 (완전히 같음) |
평가 지표 | Spearman Correlation (모델이 예측한 유사도와 실제 유사도 간 상관 관계 측정) |
사용 예제 | 모델이 두 문장의 의미적 유사도를 얼마나 잘 예측하는지 평가 |
📌 예제 (STS-B 데이터)
문장 A | 문장 B | 실제 유사도 점수 (0~5) |
"A man is playing a guitar." | "A person is strumming a musical instrument." | 4.5 (의미적으로 거의 동일) |
"A woman is cooking in the kitchen." | "A child is playing outside." | 0.0 (완전히 다름) |
✅ STS-B는 다양한 문맥에서 문장 의미적 유사성을 평가하는 대표적인 벤치마크로 사용됨.
✅ 일반적인 문장 유사도 학습 및 평가에 많이 활용됨.
📌 SICK-R (Sentences Involving Compositional Knowledge - Relatedness)
🔹 항목 | 🔍 설명 |
이름 | SICK-R (Sentences Involving Compositional Knowledge - Relatedness) |
출처 | Marelli et al., 2014 |
목적 | 문장 간 의미적 관련성(relatedness) 평가 |
데이터 구성 | 기계적 변형(Paraphrasing, Negation, Syntax 변경 등)을 포함한 문장 쌍 |
유사도 점수 | 1 (완전히 다름) ~ 5 (완전히 같음) |
평가 지표 | Spearman Correlation |
사용 예제 | 문장이 의미적으로 어느 정도 관련이 있는지 평가 |
📌 예제 (SICK-R 데이터)
문장 A | 문장 B | 실제 유사도 점수 (1~5) |
"A man is sitting on a bench." | "A person is relaxing on a park bench." | 4.2 (유사하지만 약간 다름) |
"A girl is running in the park." | "A dog is chasing a frisbee." | 1.0 (거의 관련 없음) |
✅ SICK-R는 단순한 유사성(Similarity)뿐만 아니라 "문장 간 의미적 연관성(relatedness)"을 평가하는 데 초점을 맞춤.
✅ 구문 구조(Syntax)나 단어 조합(Composition) 차이가 있는 문장도 평가할 수 있도록 설계됨.
📌 STS-B vs. SICK-R 차이점
STS-B | SICK-R | |
평가 목적 | 문장 간 의미적 유사성(Similarity) | 문장 간 의미적 관련성(Relatedness) |
유사도 점수 범위 | 0 ~ 5 | 1 ~ 5 |
데이터 출처 | 뉴스 기사, 포럼 대화, 질문-응답 쌍 등 다양한 도메인 | 기계적 변형(Paraphrasing, Negation 등)을 포함한 데이터 |
주요 특징 | - 의미적으로 같은 문장인지 평가 - 다양한 문맥에서 사용 가능 |
- 의미적으로 연관이 있는 문장인지 평가 - 문장 구조와 단어 조합의 변형을 반영 |
✅ STS-B는 일반적인 "문장 유사도(Similarity)" 평가에 초점을 맞추고 있음.
✅ SICK-R는 "문장 간 의미적 관련성(Relatedness)"을 보다 정밀하게 평가하도록 설계됨.

Task | 설명 | 목표 | 데이터 규모 |
MR (Movie Review Sentiment Analysis) | 영화 리뷰가 긍정/부정인지 예측 | 문장의 감정(긍정/부정) 분류 | 10,662 문장 |
CR (Customer Review Sentiment Analysis) | 제품 리뷰가 긍정/부정인지 예측 | 문장의 감정(긍정/부정) 분류 | 3,775 문장 |
SUBJ (Subjectivity Analysis) | 문장이 주관적인지/객관적인지 예측 | 주관성(Subjectivity) 분류 | 10,000 문장 |
MPQA (Opinion Polarity Detection) | 문장이 긍정적인지/부정적인지 예측 | 감성 분석 (Polarity) | 10,606 문장 |
SST-2 (Stanford Sentiment Treebank - Binary Classification) | 문장이 긍정/부정인지 예측 | 감성 분석 (Sentiment Analysis) | 67,349 문장 |
TREC (Question Type Classification) | 질문이 어떤 유형인지 예측 | 질문 유형 분류 (예: 사람, 장소, 숫자 등) | 5,952 문장 |
MRPC (Microsoft Research Paraphrase Corpus) | 두 문장이 의미적으로 유사한지 판별 | 문장 유사도 평가 (Paraphrase Identification) | 5,801 문장 쌍 |
추가 평가 벤치마크
📌 Task 유형 | 📊 데이터셋 개수 | 🔍 세부 데이터셋 |
🔹 Classification (문장 분류) | 12개 | AmazonCounterfactual, AmazonPolarity, AmazonReviews, Banking77, Emotion, Imdb, MassiveIntent, MassiveScenario, MTOPDomain, MTOPIntent, ToxicConversations, TweetSentimentExtraction |
🔹 Pair Classification (문장 유사도 분류) | 3개 | SprintDuplicateQuestions, TwitterSemEval2015, TwitterURLCorpus |
🔹 Reranking (재정렬 태스크) | 4개 | AskUbuntuDupQuestions, MindSmallRerank, SciDocsRR, StackOverflowDupQuestions |
🔹 Clustering (문장 군집화) | 11개 | ArxivClusteringP2P, ArxivClusteringS2S, BiorxivClusteringP2P, BiorxivClusteringS2S, MedrxivClusteringP2P, MedrxivClusteringS2S, RedditClustering, RedditClusteringP2P, StackExchangeClustering, StackExchangeClusteringP2P, TwentyNewsgroupsClustering |
🔹 Summarization (요약 성능 평가) | 1개 | SummEval |
🔹 STS (Semantic Textual Similarity 추가 평가) | 1개 | BIOSSES |