인공지능/논문 리뷰 or 진행

Embedding + Generation Model 사전 논문 조사6 - 데이터 셋 및 평가 데이터 정리

이게될까 2025. 3. 18. 01:26
728x90
728x90

2025.03.17 - [인공지능/논문 리뷰 or 진행] - Embedding + Generation Model 사전 논문 조사5 - 데이터 셋 및 평가 데이터 정리

 

Embedding + Generation Model 사전 논문 조사5 - 데이터 셋 및 평가 데이터 정리

2024.12.23 - [인공지능/논문 리뷰 or 진행] - ChatQA: Surpassing GPT-4 on Conversational QA and RAG - 논문 리뷰 ChatQA: Surpassing GPT-4 on Conversational QA and RAG - 논문 리뷰https://arxiv.org/abs/2401.10225 ChatQA: Surpassing GPT-4 on

yoonschallenge.tistory.com

여기서 쭉 이어지는 데이터 조사입니다.

 

2025.02.25 - [인공지능/논문 리뷰 or 진행] - GRIT 생성과 Embedding을 동시에 Generative Representational Instruction Tuning - 논문 리뷰

 

GRIT 생성과 Embedding을 동시에 Generative Representational Instruction Tuning - 논문 리뷰

https://arxiv.org/abs/2402.09906 기존 모델들은 생성만 잘하거나, Embedding만 잘 진행하였습니다.그리하여 둘 다 잘 하도록 두개 다 학습을 진행한 GRIT이 등장합니다.생성과 Representation 모두 진행하여 학

yoonschallenge.tistory.com

 

이 논문에서도 평가는 MTEB를 통해서 진행합니다. 

 

생성 데이터 평가

생성형 평가

평가 항목 data set 설명 평가 방법
📚 다지식 분야 문제 해결 MMLU (Massive Multitask Language Understanding) 인문학, 사회과학, 자연과학 등 다양한 분야의 지식 문제 풀이 정확한 답변을 Exact Match로 평가
➗ 수학 문제 해결 GSM8K (Grade School Math 8K) 여러 단계를 거쳐 해결해야 하는 초등~중등 수준의 수학 문제 풀이 8개 Few-shot 예제 제공, CoT (Chain-of-Thought) 사용, Exact Match 평가
🌍 다국어 질문 답변 TyDi QA (Typologically Diverse QA) 6개 언어로 주어진 질문에 대한 Closed-book QA 수행 Gold Passage(정답 포함 문서) 제공, No-context 평가
💻 코드 생성 HumanEvalSynthesize Python 코드 생성 문제 해결 pass@1 평가 (20개 샘플, temperature=0.2)
🤔 논리적 추론 BBH (BIG-Bench Hard) 논리적 사고력 문제 (Boolean Expressions, Causal Judgment 등) 3개 Few-shot CoT 예제 제공, Exact Match 평가
📝 자유 생성 및 요약 AlpacaEval 개방형 글쓰기, 요약, 롤플레잉 등을 포함한 다양한 생성 작업 평가 GPT-4를 사용해 GPT-3 결과와 비교하여 승률(win rate) 측정

 

Embedding Data set

Dataset 설명 특징 장점 단점
MEDI 기존 멀티태스크 임베딩 데이터셋 모든 쿼리와 문서에 "Represent" 프리픽스 포함 (양방향 지시문) 명확한 포맷 제공 제한된 네거티브 샘플
MEDI2 MEDI의 개선 버전 더 나은 네거티브 샘플 추가 네거티브 샘플 강화 데이터 다양성이 상대적으로 낮음
E5 대규모 범용 임베딩 데이터셋 지시문 없이 사용 가능 (일부 데이터는 한쪽 지시문만 존재) 높은 데이터 다양성, 강력한 네거티브 샘플 포함 문서 캐싱이 필요할 수 있음

 

Generative data set

  Tülu 2 UltraChat OpenAssistant (OctoPack)
데이터 출처 다양한 지시문-응답 쌍 포함 OpenAI API 기반 데이터 OpenAssistant 프로젝트 기반
다양성 ✅ 매우 높음 (여러 태스크 포함) ⚠️ 중간 (GPT 기반 채팅 위주) 중간 (오픈소스 사용자 데이터)
튜닝 정도 ✅ 생성 평가 데이터와 유사하게 튜닝됨 ⚠️ 특정 도메인에 편중 가능 ⚠️ 사용자 커뮤니티 주도
최종 성능 🏆 모든 생성 태스크에서 최고 성능 성능 보통 성능 보통

 

 

2025.02.26 - [인공지능/논문 리뷰 or 진행] - Embedding + Generation Model 사전 논문 조사1 Gecko, COCOM

 

Embedding + Generation Model 사전 논문 조사1 Gecko, COCOM

2025.02.25 - [인공지능/논문 리뷰 or 진행] - GRIT 생성과 Embedding을 동시에 Generative Representational Instruction Tuning - 논문 리뷰일단 시작은 이 논문이겠습니다.생성과 Embedding을 동시에 하는 모델이 있으면

yoonschallenge.tistory.com

 

학습 데이터 셋

훈련 단계 데이터 셋 설명
1️⃣ Pre-finetuning (사전 미세 조정) Community QA Dataset (Ni et al., 2021) 온라인 포럼 및 QA 웹사이트에서 수집된 질문-답변 쌍
  Title-Body Text Pairs (웹 크롤링) 웹사이트에서 수집된 제목-본문 쌍
2️⃣ Fine-tuning (최종 미세 조정) FRet (Few-shot Prompted Retrieval Dataset) LLM Distillation을 활용하여 생성된 검색 최적화 데이터셋
  다양한 학문적 데이터셋 다양한 과제(Task)를 포함하는 고품질 연구 데이터셋
더보기

📊 논문에서 사용한 데이터셋 정리

Gecko 모델은 Pre-finetuning → Fine-tuning 두 단계의 학습을 거칩니다. 각각의 단계에서 다양한 데이터셋이 사용되었으며, 특히 Fine-tuning 단계에서는 LLM을 활용한 FRet (Few-shot Prompted Retrieval dataset)이 핵심적인 역할을 합니다.


1️⃣ Pre-finetuning (사전 미세 조정)

자연어 임베딩 모델의 초기 성능을 향상시키기 위한 대규모 비지도 학습 단계

Community QA 데이터셋 - 온라인 포럼 및 QA 웹사이트에서 수집된 질문-답변 쌍
웹 크롤링 데이터 - 웹에서 추출한 제목(Title)-본문(Body) 쌍

이 단계의 역할:

  • 다양한 도메인의 질문-답변 및 제목-본문 관계를 학습하여 임베딩의 일반화 성능 향상
  • 자연스럽게 형성된 텍스트 쌍을 활용하여 모델의 초반 학습 데이터로 적합

2️⃣ Fine-tuning (본 학습)

LLM을 활용하여 생성된 FRet 데이터와 기존 학술 데이터 결합하여 학습

① FRet (Few-shot Prompted Retrieval dataset)

  • 쿼리-문서 쌍을 LLM으로 생성
  • 긍정(Positive) 및 강력한 부정(Hard Negative) 문서 자동 라벨링
  • 총 6.6M 개의 데이터 포함

② 기존 학술 데이터셋과 결합 (Fine-tuning Mixture)

Natural Questions (NQ) - 실제 사용자 검색 질문과 관련 문서 포함
HotpotQA - 다중 문서 기반 질문 응답 데이터셋
FEVER - 사실 검증(Fact-Checking) 데이터셋
MedMCQA - 의학 분야 다중 선택 질문 데이터셋
SNLI & MNLI - 자연어 추론(NLI) 데이터셋
Huggingface 분류 데이터셋 - 다양한 문장 분류 태스크 포함
MIRACL (다국어 학습용) - 다국어 검색 및 질문 응답 데이터

이 단계의 역할:

  • FRet을 활용해 자동 생성된 대규모 학습 데이터 확보
  • 기존 학술 데이터셋과 결합하여 모델의 범용성 강화
  • 다국어 검색을 위한 MIRACL 데이터 추가

🔥 핵심 요약

1️⃣ Pre-finetuning: 비지도 학습 데이터 (커뮤니티 QA, 웹 크롤링 데이터)
2️⃣ Fine-tuning: LLM 기반 FRet + 다양한 학술 데이터셋

결과:

  • 기존 모델보다 데이터 다양성을 확보하여 범용적인 텍스트 임베딩 학습
  • FRet 데이터셋을 활용해 수작업 라벨링 없이 고품질 학습 가능
  • 다국어 및 다양한 작업에 강한 모델 생성 가능

💡 이 표만 보면 Gecko가 어떤 데이터로 학습되었는지 바로 떠올릴 수 있습니다! 🚀

📌 FRet 데이터 생성 및 학습 활용 방법 상세 정리

Gecko 모델의 핵심 학습 데이터인 FRet (Few-shot Prompted Retrieval dataset)대형 언어 모델(LLM)을 활용한 자동 데이터 생성 및 라벨링 과정을 통해 만들어집니다. FRet 데이터는 다양한 쿼리-문서 쌍을 포함하며, 수작업 없이 높은 품질을 보장합니다.


1️⃣ FRet 데이터 생성 과정 (Two-Stage Distillation Process)

FRet 데이터셋은 "쿼리 생성"과 "문서 라벨링"의 두 단계로 구성됨

🔹 (1) LLM을 이용한 다양한 쿼리 생성

✅ 문제점:

  • 기존 수작업 방식은 비용이 많이 들고, 편향(Bias) 발생 가능성이 높음.
  • 특정 도메인에 과적합될 가능성이 있으며, 다양한 작업을 학습하기 어려움.

✅ 해결책:

  • LLM을 활용하여 웹 문서를 바탕으로 다양한 질문(Query)과 작업(Task Description) 생성
  • 다양한 형식의 쿼리를 포함하여 데이터 다양성을 증가시킴.

📌 단계별 진행 과정

📍 Step 1: 웹 문서 샘플링 (𝑝seed)

  • 웹 코퍼스(Corpus C)에서 임의의 문서(𝑝seed)를 샘플링 (뉴스, 블로그, 위키피디아, 포럼 등)

📍 Step 2: LLM을 이용한 쿼리(Task & Query) 생성

  • Few-shot Prompting을 사용하여 쿼리 및 작업(Task)을 생성
  • Prompt(ℙQG)를 통해 LLM이 문서(𝑝seed)를 읽고, 해당 문서에서 생성 가능한 질문을 예측
  • LLM이 문서의 주제에 맞는 "질문과 검색 작업(Task)"을 생성

예시:

  • 웹 문서(𝑝seed): "The Eternals 영화에서 Phastos가 원자폭탄을 만들었다."
  • 생성된 작업(Task): "주어진 질문에 답할 수 있는 문서를 찾는 검색 작업."
  • 생성된 질문(Query): "누가 원자폭탄을 만들었나요?"

🔹 이렇게 생성된 (Task, Query) 쌍을 사용하여 FRet 데이터셋 구축


🔹 (2) LLM 기반 긍정/부정 문서 선택 (Positive & Hard Negative Mining)

✅ 문제점:

  • 기존 방식에서는 문서(𝑝seed) 자체를 정답으로 간주하지만, 가장 적절한 답이 아닐 수도 있음.
  • 더 관련성이 높은 문서를 찾고, 헷갈릴 만한 문서(Hard Negative)를 포함해야 모델이 정교하게 학습됨.

✅ 해결책:
1️⃣ 기존 임베딩 모델을 이용한 문서 검색

  • 생성된 쿼리(𝑞)로부터 기존 임베딩 모델을 이용하여 최상위 𝑁개의 후보 문서(𝑃 = {𝑝1, 𝑝2, …, 𝑝𝑁}) 검색

2️⃣ LLM을 사용하여 문서 순위 결정 (Ranking & Labeling)

  • LLM을 활용하여 각 문서의 적절성(관련도)를 평가하여 긍정 문서(Positive)와 부정 문서(Negative) 결정

📌 사용된 평가 방법:

  • Query Likelihood (QL): 주어진 문서(𝑝)가 해당 쿼리(𝑞)를 생성할 가능성 측정
  • Relevance Classification (RC): 문서(𝑝)와 쿼리(𝑞)의 관련성을 평가하여 점수 매김

3️⃣ 최종 문서 선택

  • 긍정 문서(𝑝⁺): LLM이 가장 적절하다고 평가한 문서(𝑝1)
  • 부정 문서(𝑝⁻): 가장 헷갈릴 가능성이 높은 문서(𝑝20 등 Hard Negative)

예시:

  • 쿼리: "누가 원자폭탄을 만들었나요?"
  • 문서 후보:
    • (긍정 문서 𝑝⁺): "J. Robert Oppenheimer는 원자폭탄 개발을 이끌었다."
    • (부정 문서 𝑝⁻): "핵무기의 위험성에 대한 국제 회의가 열렸다."

🔹 이렇게 최적의 문서 라벨링을 수행하여 FRet 데이터셋을 구축


2️⃣ FRet 데이터셋의 학습 활용 방식

FRet 데이터는 Fine-tuning 과정에서 주요 학습 데이터로 사용됨

🔹 (1) FRet 데이터셋 구성

  • 6.6M 개의 (Task, Query, Positive, Negative) 쌍 포함
  • 다양한 검색 유형을 포함 (문서 검색, 사실 검증, 질문 응답 등)
  • 기존 수작업 라벨링 데이터셋과 결합하여 학습 진행

🔹 (2) 학습 방식

📍 Step 1: 대조 학습 (Contrastive Learning)

  • 쿼리(𝑞), 긍정 문서(𝑝⁺), 부정 문서(𝑝⁻)를 사용하여 학습
  • 손실 함수 (Contrastive Loss) 최적화:

📍 Step 2: 다목적 학습 (Multi-task Learning)

  • FRet 데이터셋과 기존 학술 데이터셋을 결합하여 다양한 작업(Task)을 포함하는 범용 모델 학습
  • 자연어 추론(NLI), 문장 분류, 문서 검색 등 다양한 다운스트림 작업을 동시에 학습

3️⃣ FRet 데이터셋의 효과

기존 방식보다 더 강력한 문서 검색 및 문장 유사도 성능 확보
LLM을 활용한 자동 라벨링으로 인간 개입 없이 대규모 고품질 데이터셋 구축 가능
Zero-shot 학습에도 강력한 성능 발휘 (수작업 데이터 없이도 높은 일반화 성능 달성)


🔥 최종 요약 (FRet 데이터 생성 및 활용)

단계 세부 과정 핵심 내용
1. 웹 문서 샘플링 웹에서 문서(𝑝seed) 수집 다양한 도메인의 텍스트 포함
2. LLM 기반 쿼리 생성 Few-shot prompting 사용 쿼리(Task, Query) 자동 생성
3. 검색 후보 문서 생성 기존 임베딩 모델로 상위 N개 문서 검색 문서 후보군(𝑃) 확보
4. 긍정/부정 문서 선정 LLM을 활용하여 문서 순위 매기기 최적의 긍정(𝑝⁺) / Hard Negative(𝑝⁻) 선택
5. 데이터셋 구축 (Task, Query, 𝑝⁺, 𝑝⁻) 쌍으로 구성 총 6.6M 개 데이터 포함
6. 학습 적용 대조 학습(Contrastive Learning) + 다목적 학습(Multi-task Learning) 문서 검색, 유사도, 분류 등 다양한 태스크 성능 향상

💡 이해하기 쉽게 핵심적인 내용을 정리했습니다! FRet 데이터셋은 LLM을 활용한 자동 생성 및 라벨링 과정을 거쳐, 높은 품질과 범용성을 가진 학습 데이터로 활용됩니다. 🚀

 

 

 

MTEB 그대로 사용한 것을 볼 수 있다.

 

Muracl

다국어 검색 성능을 위한 데이터 셋 - 학습을 통해 Multilingual 성능 확보 가능 

 

MS-Marco

더보기

📌 MS-MARCO란?

MS-MARCO (Microsoft Machine Reading Comprehension)Microsoft에서 개발한 대규모 정보 검색 및 질문 응답 데이터셋입니다.
이 데이터셋은 웹 문서에서 실제 사용자 검색 질의(Query)와 그에 대한 답변을 포함하고 있으며, 정보 검색 및 문서 랭킹 학습을 위한 대표적인 벤치마크로 사용됩니다.


🔎 MS-MARCO의 특징

1️⃣ 웹 기반 데이터

  • Bing 검색 로그에서 수집된 실제 사용자 검색 질의 및 응답 문서 포함
  • 실제 정보 검색 환경과 유사한 데이터 구성

2️⃣ 정보 검색 및 질문 응답 태스크 포함

  • Passage Ranking: 검색 질의에 대해 가장 관련성이 높은 문서(Paragraph)를 찾는 태스크
  • Question Answering (QA): 검색 질의에 대한 정답을 문장에서 추출

3️⃣ 대규모 데이터셋

  • 수백만 개의 문서-질의 쌍으로 구성
  • 실제 검색 시스템에서 학습하는 데 널리 사용됨

📊 Table 3에서 MS-MARCO의 역할

이 테이블은 MS-MARCO와 FRet 데이터셋을 사용하여, 서로 다른 긍정(Positive) 및 부정(Hard Negative) 문서 선택 전략이 모델 성능에 미치는 영향을 비교하는 실험 결과입니다.

MS-MARCO에서 수행한 실험:

  • Positive 문서(𝑝⁺) 선택:
    • 원본 문서(𝑝seed)를 그대로 사용할 것인가?
    • LLM이 선택한 더 관련성이 높은 문서(𝑝1)를 사용할 것인가?
  • Hard Negative 문서(𝑝⁻) 선택:
    • 랜덤한 다른 문서(𝑝 ∼ 𝑃 \ {𝑝seed})
    • LLM이 선택한 헷갈릴 가능성이 높은 문서(𝑝20)

결과 분석:

  • LLM이 선택한 긍정 문서(𝑝1)를 사용할 때 BEIR 성능이 가장 높음 (52.29, FRet에서는 53.39)
  • Hard Negative를 추가하면 검색 성능(BEIR)은 향상되지만, 문장 유사도(STS)는 다소 감소할 수도 있음.

🔍 결론

MS-MARCO는 정보 검색 모델 평가의 대표적인 데이터셋이며, 이 논문에서는 MS-MARCO를 사용하여 Gecko 모델의 검색 성능을 평가하고 FRet 데이터셋과 비교하는 실험을 수행하였습니다.

FRet이 영어 데이터만 포함하고 있음에도 불구하고 MS-MARCO보다 높은 성능을 기록하며, LLM을 활용한 데이터 생성 및 라벨링이 효과적임을 입증했습니다. 🚀

FRet - 합성 데이터 셋 

 

BEIR - Re-ranking 성능, Few-shot, nDCG@10 metric 

 

CoCOM

이건 압축 모델이었습니다.

 

pretrain - 원문 복구, 원문 앞쪽 보고 뒤쪽 복구

Wikipedia-KILT

 

fine-tuning - 질문에 대한 답변 진행 

다양한 QA 셋 

  •  
사용된 QA 데이터 셋  설명
Natural Questions (NQ) Google이 구축한 대규모 개방형 QA 데이터셋
MS MARCO 웹 문서 기반 QA 데이터셋
Adversarial QA 모델을 속이도록 설계된 도전적인 질문 데이터
HotpotQA 멀티 홉(Multi-hop) 추론이 필요한 QA
WikiQA 위키피디아 기반 질의응답 데이터셋
SCIQ 과학 분야의 질의응답 데이터셋
ASQA Factoid 질문에 대한 긴 형식 응답을 포함한 QA
TriviaQA 다양한 도메인의 문서를 활용한 QA
Freebase QA Freebase 기반의 구조적 데이터 QA
SQuAD 유명한 Stanford QA 데이터셋

 

평가 데이터 셋 

EM, 5 context

Natural Questions (NQ) 구글 웹 검색 기반의 질의응답
TriviaQA 위키피디아 및 웹 문서 기반 질문과 답변
HotpotQA 여러 문서를 연결해야 하는 다중 문서 QA
ASQA Factoid 질문에 대한 장문 응답 평가
PopQA LLM의 지식 평가를 위한 개방형 질의응답

Metrics - EM, match 

더보기

📊 COCOM의 학습 및 평가 데이터셋과 메트릭 정리


📚 1. 사용된 데이터셋

COCOM은 사전 학습(Pre-training)미세 조정(Fine-tuning)에 서로 다른 데이터셋을 사용하였으며, 질의응답(QA) 태스크를 기반으로 학습 및 평가가 진행되었습니다.


🔎 1.1. 사전 학습 (Pre-training) 데이터셋

  • 데이터셋: Wikipedia-KILT
  • 토큰화: Llama-2-7b 토크나이저 사용, 128 토큰 단위로 분할
  • 샘플 수: 총 1,000만 개 문서 조각
  • 학습 방식:
    • Auto-Encoding (AE)Language Modeling from Context Embeddings (LMCE) 태스크 수행
    • 각 샘플을 균등 확률로 선택하여 학습

목적: 컨텍스트 임베딩이 원문을 복원하고, 추론할 수 있도록 학습


🔬 1.2. 미세 조정 (Fine-tuning) 데이터셋

  • 다양한 QA 데이터셋을 조합하여 훈련
  • 데이터 필터링:
    • 쿼리 길이 128 토큰 이하
    • 정답 길이 64 토큰 이하
Natural Questions (NQ) Google이 구축한 대규모 개방형 QA 데이터셋
MS MARCO 웹 문서 기반 QA 데이터셋
Adversarial QA 모델을 속이도록 설계된 도전적인 질문 데이터
HotpotQA 멀티 홉(Multi-hop) 추론이 필요한 QA
WikiQA 위키피디아 기반 질의응답 데이터셋
SCIQ 과학 분야의 질의응답 데이터셋
ASQA Factoid 질문에 대한 긴 형식 응답을 포함한 QA
TriviaQA 다양한 도메인의 문서를 활용한 QA
Freebase QA Freebase 기반의 구조적 데이터 QA
SQuAD 유명한 Stanford QA 데이터셋

목적: 다양한 질의응답 형식과 도메인을 학습하여 모델의 일반화 성능 강화


🏆 2. 평가(Evaluation) 데이터셋

COCOM은 평가 시 5개의 대표적인 QA 데이터셋을 사용하였습니다.

Natural Questions (NQ) 구글 웹 검색 기반의 질의응답
TriviaQA 위키피디아 및 웹 문서 기반 질문과 답변
HotpotQA 여러 문서를 연결해야 하는 다중 문서 QA
ASQA Factoid 질문에 대한 장문 응답 평가
PopQA LLM의 지식 평가를 위한 개방형 질의응답

목적:

  • 단순 질의응답뿐만 아니라 다중 문서 추론, Factoid QA, LLM 내부 지식 평가까지 가능하도록 평가

📏 3. 사용된 평가 메트릭 (Metrics)

  1. Exact Match (EM)
    • 모델이 정확히 정답과 동일한 답변을 생성했는지 평가
    • 가장 표준적인 QA 성능 지표
  2. Match (M)
    • 정답이 모델 출력의 일부로 포함되었는지 평가
    • 기존 연구들과 비교 가능하도록 추가 사용

핵심 포인트:

  • 기존 연구는 디코더를 튜닝하지 않고 평가하여 Match (M) 기준으로 성능이 높음
  • COCOM은 디코더까지 튜닝하여 Exact Match (EM) 기준에서도 높은 성능을 보임

🔥 최종 요약 표

사전 학습 Wikipedia-KILT 128 토큰 단위로 분할하여 Auto-Encoding(AE) 및 LMCE 학습
미세 조정 NQ, MS MARCO, HotpotQA, TriviaQA 등 총 10개 QA 데이터셋 질문-응답 쌍 학습, 다양한 도메인 및 질의응답 형식 포함
평가 NQ, TriviaQA, HotpotQA, ASQA, PopQA 단순 QA + 다중 문서 추론 + 모델 내부 지식 평가
평가 메트릭 Exact Match (EM), Match (M) 정확한 정답 생성 여부 평가 (EM), 부분 정답 포함 여부 평가 (M)

핵심 결론

  • COCOM은 QA 태스크 전반에 걸쳐 강한 일반화 성능을 갖도록 설계됨
  • 기존 연구는 Match (M) 기준으로 성능이 높게 나왔으나,
    • COCOM은 Exact Match (EM)에서도 강력한 성능을 달성하여 더 정밀한 질의응답 가능 🚀

 

 

 

 

 

2025.02.27 - [인공지능/논문 리뷰 or 진행] - Embedding + Generation Model 사전 논문 조사2 ICAE, GenEOL, Token Prepending

 

Embedding + Generation Model 사전 논문 조사2 ICAE, GenEOL, Token Prepending

https://arxiv.org/abs/2307.06945 In-context Autoencoder for Context Compression in a Large Language ModelWe propose the In-context Autoencoder (ICAE), leveraging the power of a large language model (LLM) to compress a long context into short compact memor

yoonschallenge.tistory.com

 

ICAE

이것도 압축 논문입니다.

PwC라는 본인들이 구축한 데이터 셋을 사용합니다.

더보기

Prompt-with-Context (PWC) 데이터셋 정리

📌 PWC 데이터셋이란?
PWC (Prompt-with-Context) 데이터셋은 LLM의 컨텍스트 활용 능력을 향상시키기 위해 설계된 데이터셋이다. 각 샘플은 다음과 같은 3가지 요소로 구성된다.

  1. Context (텍스트 본문): 주어진 정보 (예: 뉴스 기사, 연구 논문 등)
  2. Prompt (질문 또는 요청): 텍스트와 관련된 질문 또는 명령
  3. Answer (정답 응답): 프롬프트에 대한 적절한 답변

📌 PWC 데이터셋 구성 방법

  • 기본 데이터: Pile 데이터셋에서 20,000개의 텍스트 샘플을 선정.
  • 프롬프트 생성: GPT-4를 사용하여 각 텍스트에 대해 15개 프롬프트(질문 및 명령형 포함) 생성.
    • 10개는 특정 정보 추출 (예: "이 문장에서 기업명을 나열하시오.")
    • 5개는 일반적 요청 (예: "이 문장을 요약하시오.", "이 텍스트의 제목을 작성하시오.")
  • 최종 데이터 크기:
    • 훈련 데이터: 240,000개 샘플
    • 테스트 데이터: 18,000개 샘플

📌 데이터 생성 방식

  • GPT-4에 다음과 같은 프롬프트를 입력하여 자동으로 생성:
    • 텍스트의 주제, 장르, 구조, 스타일, 키워드 등을 고려한 다양한 질문 및 명령 작성
    • 예시 일반 프롬프트:
      • "이 텍스트를 요약하시오."
      • "이 텍스트의 제목을 작성하시오."
      • "이 텍스트에서 중요한 키워드를 추출하시오."
      • "이 텍스트의 다음 단락을 작성하시오."

📌 PWC 데이터셋의 목적

  • ICAE 모델이 긴 컨텍스트에서 중요한 정보를 압축하여 효과적으로 응답할 수 있도록 학습.
  • LLM이 단순한 컨텍스트 기억이 아니라, 컨텍스트 내 정보를 정확히 이해하고 활용할 수 있도록 도움.
  • Instruction Fine-tuning(명령 기반 미세 조정)에 사용하여 모델의 응답 품질 향상.

📌 예시 (Figure 9 참고)

Context (텍스트 본문):

  • "Google, Amazon, Microsoft, Facebook, IBM이 AI 연구 그룹 Partnership on AI를 설립했다."
  • "Dario Amodei는 OpenAI에서 근무했다."
  • "AI가 백색 칼라 직업을 대체하고, 공공 신뢰를 손상시키는 문제 등이 있다."

Prompt-Answer 샘플:

Prompt Answer
Partnership on AI를 설립한 기업을 나열하시오. Google, Amazon, Microsoft, Facebook, IBM
AI 산업이 직면할 수 있는 문제는 무엇인가? AI가 백색 칼라 직업을 대체하고, 공공 신뢰를 손상시킬 가능성이 있음.
Dario Amodei는 이전에 어느 조직에서 근무했는가? OpenAI

📌 핵심 정리

  • GPT-4를 활용하여 20,000개 텍스트에서 240,000개 질문-응답 데이터셋 생성.
  • LLM이 긴 컨텍스트에서 중요한 정보를 정확히 추출하고 응답할 수 있도록 설계.
  • Instruction Fine-tuning(명령 기반 미세 조정) 데이터로 활용되어 ICAE의 성능을 향상.

이 데이터셋은 ICAE의 문맥 압축 학습에 필수적인 역할을 하며, 모델이 문맥을 올바르게 요약하고 활용하는 능력을 극대화하는 데 기여한다. 🚀

 

GenEOL

기존 LLM에 여러 Transformed Sentences를 줘 Embedding 평균 뽑기

 

STS Benchmark

 

여기서도 STS와 MTEB Benchmark를 사용했네요

 

Token-Prepending

여기도 학습 없이 진행합니다.

 

 

📌 STS-B (Semantic Textual Similarity Benchmark)


🔹 항목 🔍 설명
이름 STS-B (Semantic Textual Similarity Benchmark)
출처 Cer et al., 2017
목적 두 문장이 얼마나 의미적으로 유사한지 평가
데이터 구성 뉴스 기사, 질문-답변 쌍, 온라인 포럼 대화 등 다양한 도메인의 문장 쌍 포함
유사도 점수 0 (완전히 다름) ~ 5 (완전히 같음)
평가 지표 Spearman Correlation (모델이 예측한 유사도와 실제 유사도 간 상관 관계 측정)
사용 예제 모델이 두 문장의 의미적 유사도를 얼마나 잘 예측하는지 평가

📌 예제 (STS-B 데이터)

문장 A 문장 B 실제 유사도 점수 (0~5)
"A man is playing a guitar." "A person is strumming a musical instrument." 4.5 (의미적으로 거의 동일)
"A woman is cooking in the kitchen." "A child is playing outside." 0.0 (완전히 다름)

STS-B는 다양한 문맥에서 문장 의미적 유사성을 평가하는 대표적인 벤치마크로 사용됨.
일반적인 문장 유사도 학습 및 평가에 많이 활용됨.

📌 SICK-R (Sentences Involving Compositional Knowledge - Relatedness)

🔹 항목 🔍 설명
이름 SICK-R (Sentences Involving Compositional Knowledge - Relatedness)
출처 Marelli et al., 2014
목적 문장 간 의미적 관련성(relatedness) 평가
데이터 구성 기계적 변형(Paraphrasing, Negation, Syntax 변경 등)을 포함한 문장 쌍
유사도 점수 1 (완전히 다름) ~ 5 (완전히 같음)
평가 지표 Spearman Correlation
사용 예제 문장이 의미적으로 어느 정도 관련이 있는지 평가

📌 예제 (SICK-R 데이터)

문장 A 문장 B 실제 유사도 점수 (1~5)
"A man is sitting on a bench." "A person is relaxing on a park bench." 4.2 (유사하지만 약간 다름)
"A girl is running in the park." "A dog is chasing a frisbee." 1.0 (거의 관련 없음)

SICK-R는 단순한 유사성(Similarity)뿐만 아니라 "문장 간 의미적 연관성(relatedness)"을 평가하는 데 초점을 맞춤.
구문 구조(Syntax)나 단어 조합(Composition) 차이가 있는 문장도 평가할 수 있도록 설계됨.


📌 STS-B vs. SICK-R 차이점

  STS-B SICK-R
평가 목적 문장 간 의미적 유사성(Similarity) 문장 간 의미적 관련성(Relatedness)
유사도 점수 범위 0 ~ 5 1 ~ 5
데이터 출처 뉴스 기사, 포럼 대화, 질문-응답 쌍 등 다양한 도메인 기계적 변형(Paraphrasing, Negation 등)을 포함한 데이터
주요 특징 - 의미적으로 같은 문장인지 평가
- 다양한 문맥에서 사용 가능
- 의미적으로 연관이 있는 문장인지 평가
- 문장 구조와 단어 조합의 변형을 반영

STS-B는 일반적인 "문장 유사도(Similarity)" 평가에 초점을 맞추고 있음.
SICK-R는 "문장 간 의미적 관련성(Relatedness)"을 보다 정밀하게 평가하도록 설계됨.

 

Task 설명 목표 데이터 규모
MR (Movie Review Sentiment Analysis) 영화 리뷰가 긍정/부정인지 예측 문장의 감정(긍정/부정) 분류 10,662 문장
CR (Customer Review Sentiment Analysis) 제품 리뷰가 긍정/부정인지 예측 문장의 감정(긍정/부정) 분류 3,775 문장
SUBJ (Subjectivity Analysis) 문장이 주관적인지/객관적인지 예측 주관성(Subjectivity) 분류 10,000 문장
MPQA (Opinion Polarity Detection) 문장이 긍정적인지/부정적인지 예측 감성 분석 (Polarity) 10,606 문장
SST-2 (Stanford Sentiment Treebank - Binary Classification) 문장이 긍정/부정인지 예측 감성 분석 (Sentiment Analysis) 67,349 문장
TREC (Question Type Classification) 질문이 어떤 유형인지 예측 질문 유형 분류 (예: 사람, 장소, 숫자 등) 5,952 문장
MRPC (Microsoft Research Paraphrase Corpus) 두 문장이 의미적으로 유사한지 판별 문장 유사도 평가 (Paraphrase Identification) 5,801 문장 쌍

 

추가 평가 벤치마크

📌 Task 유형 📊 데이터셋 개수 🔍 세부 데이터셋
🔹 Classification (문장 분류) 12개 AmazonCounterfactual, AmazonPolarity, AmazonReviews, Banking77, Emotion, Imdb, MassiveIntent, MassiveScenario, MTOPDomain, MTOPIntent, ToxicConversations, TweetSentimentExtraction
🔹 Pair Classification (문장 유사도 분류) 3개 SprintDuplicateQuestions, TwitterSemEval2015, TwitterURLCorpus
🔹 Reranking (재정렬 태스크) 4개 AskUbuntuDupQuestions, MindSmallRerank, SciDocsRR, StackOverflowDupQuestions
🔹 Clustering (문장 군집화) 11개 ArxivClusteringP2P, ArxivClusteringS2S, BiorxivClusteringP2P, BiorxivClusteringS2S, MedrxivClusteringP2P, MedrxivClusteringS2S, RedditClustering, RedditClusteringP2P, StackExchangeClustering, StackExchangeClusteringP2P, TwentyNewsgroupsClustering
🔹 Summarization (요약 성능 평가) 1개 SummEval
🔹 STS (Semantic Textual Similarity 추가 평가) 1개 BIOSSES

 

728x90