2024.12.23 - [인공지능/논문 리뷰 or 진행] - ChatQA: Surpassing GPT-4 on Conversational QA and RAG - 논문 리뷰
ChatQA: Surpassing GPT-4 on Conversational QA and RAG - 논문 리뷰
https://arxiv.org/abs/2401.10225 ChatQA: Surpassing GPT-4 on Conversational QA and RAGIn this work, we introduce ChatQA, a suite of models that outperform GPT-4 on retrieval-augmented generation (RAG) and conversational question answering (QA). To enhance
yoonschallenge.tistory.com
Retriever 평가 - 멀티턴 QA , top 1,5의 Recall 측정 (Topi와 INSCIT는 TOP 5, 20 - 데이터 셋 길이가 짧음 )
Doc2Dial - 사용자와 가상 상담사 간 대화
4,639개 대화와 31,477 발화
QuAC(Question Answering in Context) - 정보성 대화에서의 질문 응답, 특정 주제에 대해 연속적인 질문
14,000 정보성 대화, 98,000 질문
QReCC(Question Rewriting in Conversational Context) - 불완전한 질문을 독립적인 형태로 재작성, 문서 제공
14,000 대화, 81,000 질문 답변 쌍
TopiOCQA(Topic-Oriented Conversational Question Answering) - 주제 지향적 대화 질문 응답, 깊이 있는 탐구
3,000 대화, 14,000 질문 - 답변 쌍
INSCIT(Interactive Summarization and Citation Recommendation) - 대화형 요약 및 인용 추천
다음은 Retriever 평가에 사용된 각 데이터셋의 특성, 크기, 길이, 평가 방식, 사용 이유를 정리한 것입니다:
1. Doc2Dial
- 데이터 특성: 사용자와 가상 상담사 간의 대화 데이터로, 상담사는 문서(예: 정책 문서)를 기반으로 사용자 질문에 답변합니다.
- 데이터 크기와 길이: 총 4,639개의 대화와 31,477개의 발화로 구성되어 있으며, 평균적으로 대화당 약 6.8개의 발화가 있습니다.
- 평가 방식: 모델이 문서에서 관련 정보를 검색하고 이를 기반으로 사용자 질문에 답변하는 능력을 평가합니다.
- 사용되는 이유: 문서 기반 대화 시스템의 성능을 평가하기 위해 사용됩니다.
2. QuAC (Question Answering in Context)
- 데이터 특성: 정보성 대화에서의 질문 응답을 다루며, 사용자는 특정 주제에 대해 연속적인 질문을 하고, 모델은 해당 주제에 대한 문서를 기반으로 답변합니다.
- 데이터 크기와 길이: 14,000개 이상의 정보성 대화와 98,000개 이상의 질문으로 구성되어 있습니다.
- 평가 방식: 모델이 문서에서 관련 정보를 검색하고, 연속적인 질문에 대해 문맥을 유지하며 정확하게 답변하는 능력을 평가합니다.
- 사용되는 이유: 대화형 정보 검색 및 문맥 유지 능력을 평가하기 위해 사용됩니다.
3. QReCC (Question Rewriting in Conversational Context)
- 데이터 특성: 대화 문맥에서 불완전한 질문을 독립적인 형태로 재작성하는 것을 목표로 하며, 각 질문에 대해 관련 문서를 제공합니다.
- 데이터 크기와 길이: 14,000개 이상의 대화와 81,000개 이상의 질문-답변 쌍으로 구성되어 있습니다.
- 평가 방식: 모델이 불완전한 질문을 문맥에 맞게 재작성하고, 관련 문서를 검색하여 정확하게 답변하는 능력을 평가합니다.
- 사용되는 이유: 대화형 검색 시스템에서의 질문 재작성 및 정보 검색 능력을 평가하기 위해 사용됩니다.
4. TopiOCQA (Topic-Oriented Conversational Question Answering)
- 데이터 특성: 주제 지향적인 대화형 질문 응답을 다루며, 각 대화는 특정 주제에 대해 깊이 있는 탐구를 목표로 합니다.
- 데이터 크기와 길이: 약 3,000개의 대화와 14,000개 이상의 질문-답변 쌍으로 구성되어 있습니다.
- 평가 방식: 모델이 주제에 맞는 정보를 검색하고, 연속적인 질문에 대해 일관성 있고 정확하게 답변하는 능력을 평가합니다.
- 사용되는 이유: 특정 주제에 대한 심층적인 대화형 질문 응답 능력을 평가하기 위해 사용됩니다.
5. INSCIT (Interactive Summarization and Citation Recommendation)
- 데이터 특성: 과학 논문 작성자를 위한 대화형 요약 및 인용 추천을 다루며, 사용자의 요청에 따라 관련 연구를 요약하고 인용을 추천합니다.
- 데이터 크기와 길이: 구체적인 크기와 길이는 공개된 정보가 제한적입니다.
- 평가 방식: 모델이 사용자의 요청에 따라 관련 연구를 정확하게 요약하고 적절한 인용을 추천하는 능력을 평가합니다.
- 사용되는 이유: 과학적 글쓰기 지원 시스템의 성능을 평가하기 위해 사용됩니다.
이러한 데이터셋들은 각각의 특성과 평가 방식을 통해 다양한 대화형 정보 검색 및 질문 응답 시스템의 성능을 종합적으로 평가하는 데 사용됩니다.
QA 성능 평가 - 너무 긴 문서들은 300단어러 청킹하여 사용하네요
ConvFinQA만 EM을 사용하고, 나머지들은 F1을 사용합니다.
인간 평가도 진행하는데 이건 뭐....
분류 | 데이터 셋 | 특징 | 문서 길이 | 검색 방식 |
긴 문서 기반 | Doc2Dial | 문서 기반 행정 상담 | 101K 단어 | Top-5 청크 검색 |
QuAC | Wikipedia 문서 검색 QA | 15K 단어 | Top-5 청크 검색 | |
QReCC | 오픈 도메인 대화 QA | 5K 단어 (최대 20K 단어) | Top-5 청크 검색 | |
TopiOCQA | 주제 전환이 있는 대화형 QA | 전체 Wikipedia | Top-20 청크 검색 | |
INSCIT | 질문 명확화 및 추가 정보 검색 | 전체 Wikipedia | Top-20 청크 검색 | |
짧은 문서 기반 | CoQA | 다양한 도메인의 QA | 1.5K 단어 이하 | 전체 문서 사용 |
DoQA | Stack Exchange QA (요리, 여행, 영화) | 1.5K 단어 이하 | 전체 문서 사용 | |
ConvFinQA | 금융 보고서 기반 QA (테이블 포함) | 1.5K 단어 이하 | 전체 문서 사용 | |
SQA | 단순 테이블 기반 QA | 1.5K 단어 이하 | 전체 문서 사용 | |
HybriDial | 테이블 + 텍스트 기반 QA | 1.5K 단어 이하 | 전체 문서 사용 |
QuAC와 DoQA 데이터 셋엔 답변 불가능이 있다.
단일 질문에 대해서도 테스트를 진행
Natural Questions (NQ): Google 검색 기반 질문-응답 데이터셋.
TriviaQA: 일반 상식 및 백과사전 기반 질문-응답.
HotpotQA: 다중 문서를 활용한 복합적인 질의응답.
Retriever 평가에 사용된 데이터셋 정리
논문에서 사용된 데이터셋들은 긴 문서 기반(long document)과 짧은 문서 기반(short document) 두 가지 유형으로 나뉩니다. 각 데이터셋의 특성과 사용 이유를 정리하겠습니다.
1. Long Document Datasets (긴 문서 기반 데이터셋)
이 데이터셋들은 문서의 길이가 매우 길어, LLM의 입력 한계(4K~8K 토큰)를 초과하기 때문에 Retriever를 활용하여 필요한 부분을 검색해야 합니다. 따라서 검색 성능을 평가하는 데 적합합니다.
데이터셋 | 특성 | 평균 문서 길이 | 평가 방식 | 사용 이유 |
Doc2Dial (D2D) | 문서 기반 대화형 QA | 101K 단어 | 대화 문맥을 유지하며 문서에서 적절한 정보를 검색하여 응답 생성 | 사용자의 행정/정부 문서 이해를 돕기 위해 개발됨 |
QuAC | Wikipedia 기반 대화형 QA | 15K 단어 | Wikipedia 링크에서 가져온 추가 문서 정보를 활용하여 문맥 속에서 응답 생성 | 정보 검색 및 대화형 질의응답에서 문맥 유지 능력을 평가 |
QReCC | 오픈 도메인 대화형 QA | 5K 단어 (최대 20K 단어) | 사용자가 제시한 URL을 통해 관련 문서를 구성하여 정답을 검색 | 다양한 도메인에서의 대화형 검색 능력을 평가 |
TopiOCQA (TCQA) | Wikipedia 기반 주제 전환 QA | 전체 Wikipedia | 전체 Wikipedia를 검색하여 관련 정보를 찾아 응답 | 주제 전환(topic switching)과 복잡한 검색을 평가 |
INSCIT | Wikipedia 기반 정보 보강 QA | 전체 Wikipedia | 질문이 불완전한 경우, 추가적인 정보를 검색하여 명확한 답변을 생성 | 질문의 부족한 정보를 보완하는 능력을 평가 |
Retrieval 방식
- Doc2Dial, QuAC, QReCC:
- 문서를 300단어 단위 청크로 분할.
- Top-5 청크를 검색하여 컨텍스트로 활용.
- TopiOCQA, INSCIT:
- 원래 데이터셋에서 사용한 방식 그대로 더 작은 청크로 유지.
- Top-20 청크를 검색하여 컨텍스트 길이를 맞춤.
2. Short Document Datasets (짧은 문서 기반 데이터셋)
이 데이터셋들은 문서 길이가 짧아 전체 문서를 직접 LLM의 입력으로 제공할 수 있음. Retriever의 검색 성능뿐만 아니라, QA 모델의 직접적인 응답 생성 능력을 평가하는 데 유용합니다.
데이터 셋 | 특성 | 평균 문서 길이 | 평가 방식 | 사용 여부 |
CoQA | 짧은 문서를 기반으로 한 대화형 QA | 1.5K 단어 이하 | 대화형 질의응답을 수행하며, 짧고 명확한 답변을 생성 | 다양한 도메인(문학, 뉴스, 위키 등)에서 QA 성능 평가 |
DoQA | Stack Exchange 기반 QA | 1.5K 단어 이하 | 영화, 요리, 여행 도메인에서 사용자 질문에 대한 응답 생성 | 실제 사용자 커뮤니티에서 나오는 질문을 학습하여 QA 시스템을 평가 |
ConvFinQA (CFQA) | 금융 문서 기반 QA | 1.5K 단어 이하 | 금융 보고서의 표 데이터를 포함한 질의응답 수행 | 수치 연산과 복잡한 금융 질의응답 평가 |
SQA | Wikipedia 테이블 기반 QA | 1.5K 단어 이하 | 단순한 표 기반 문서에서 필요한 정보를 추출하여 답변 생성 | 테이블 데이터 이해 능력을 평가 |
HybriDial (HDial) | Wikipedia 테이블 + 텍스트 QA | 1.5K 단어 이하 | Wikipedia의 텍스트와 표 데이터를 함께 분석하여 QA 수행 | 테이블과 텍스트를 결합한 복합 질의응답 평가 |
특이점
- ConvFinQA, SQA, HybriDial:
- 문서에 테이블 데이터가 포함됨.
- 단순한 QA가 아니라 수치 연산 및 복잡한 데이터 해석 능력이 요구됨.
- CoQA, DoQA:
- 텍스트 기반 질의응답이 주가 됨.
3. 데이터셋 정리
분류 | 데이터 셋 | 특징 | 문서 길이 | 검색 방식 |
긴 문서 기반 | Doc2Dial | 문서 기반 행정 상담 | 101K 단어 | Top-5 청크 검색 |
QuAC | Wikipedia 문서 검색 QA | 15K 단어 | Top-5 청크 검색 | |
QReCC | 오픈 도메인 대화 QA | 5K 단어 (최대 20K 단어) | Top-5 청크 검색 | |
TopiOCQA | 주제 전환이 있는 대화형 QA | 전체 Wikipedia | Top-20 청크 검색 | |
INSCIT | 질문 명확화 및 추가 정보 검색 | 전체 Wikipedia | Top-20 청크 검색 | |
짧은 문서 기반 | CoQA | 다양한 도메인의 QA | 1.5K 단어 이하 | 전체 문서 사용 |
DoQA | Stack Exchange QA (요리, 여행, 영화) | 1.5K 단어 이하 | 전체 문서 사용 | |
ConvFinQA | 금융 보고서 기반 QA (테이블 포함) | 1.5K 단어 이하 | 전체 문서 사용 | |
SQA | 단순 테이블 기반 QA | 1.5K 단어 이하 | 전체 문서 사용 | |
HybriDial | 테이블 + 텍스트 기반 QA | 1.5K 단어 이하 | 전체 문서 사용 |
4. 활용 목적
- 긴 문서 기반 데이터셋:
- Retriever의 검색 성능을 평가하기 위해 사용.
- LLM이 직접 처리할 수 없는 긴 문서를 효율적으로 검색하여 적절한 정보를 제공하는 능력을 평가.
- 짧은 문서 기반 데이터셋:
- QA 모델의 직접적인 응답 생성 능력을 평가하기 위해 사용.
- LLM이 문서 전체를 입력받아 직접 답변을 생성할 수 있도록 설계됨.
5. 결론
이 논문에서는 Retriever가 긴 문서를 처리하는 능력과 QA 모델이 짧은 문서를 직접 이해하는 능력을 종합적으로 평가하기 위해 두 가지 유형의 데이터셋(긴 문서 & 짧은 문서)를 모두 활용하였습니다.
- 긴 문서 (Doc2Dial, QuAC, QReCC, TopiOCQA, INSCIT):
- 검색 성능 평가가 핵심.
- Retriever가 적절한 문맥을 찾아낼 수 있는 능력을 측정.
- 짧은 문서 (CoQA, DoQA, ConvFinQA, SQA, HybriDial):
- QA 모델의 직접적인 응답 생성 능력을 평가.
- 테이블, 수치 연산, 복합 문서 해석 등 다양한 유형의 질의응답을 포함.
이를 통해 Retriever의 검색 성능과 QA 모델의 생성 능력을 종합적으로 분석할 수 있었으며, 특히 멀티턴 대화에서의 검색 성능을 평가하는 데 적합한 실험 환경을 구축하였습니다.
추가로 더 알고 싶은 점이 있으면 말씀해주세요!
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities - 논문 리뷰
https://arxiv.org/abs/2407.14482 ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG CapabilitiesIn this work, we introduce ChatQA 2, an Llama 3.0-based model with a 128K context window, designed to bridge the gap between open-source LL
yoonschallenge.tistory.com
Ultra-Long-Context QA (100k+) - InfiniteBench에서 4개의 tesk (장문 요약, 장문 QA, 장문 객관식, 장문 대화 )
task | 설명 | metric |
En.Sum (Longbook Summarization) | 소설의 핵심 내용을 간결하게 요약 | ROUGE-L-Sum |
En.QA (Longbook QA) | 긴 문맥 의존성이 높은 질의응답 | F1 Score |
En.MC (Longbook Multiple Choice) | QA와 동일하지만, 4개의 선택지를 제공 | Exact Matching Score |
En.Dia (Longbook Dialogue) | 영화/드라마 대본 기반 다중 역할 대화 이해 | Exact Matching Score |
Long-Context QA (~32k) - LongBench와 SCROLLS에서 6개의 데이터셋
데이터 셋 | 출처 | 설명 | 평가 지표 |
QMSum (QM) | SCROLLS | 긴 문서 요약 | ROUGE (1/2/L) Geometric Mean |
Qasper (QASP) | SCROLLS | 논문 QA | F1 Score |
QuALITY (QLTY) | SCROLLS | 장문 이해 능력 평가 | Exact Matching Score |
HotpotQA (HQA) | LongBench | 다중 문서 기반 질의응답 | F1 Score |
MuSiQue (MSQ) | LongBench | 다중 단계 추론 질의응답 | F1 Score |
MultiFieldQA-en (MFQA) | LongBench | 다양한 도메인 기반 질의응답 | F1 Score |
Short-Context QA(~4k) - ChatRAG Bench
데이터 셋 | 설명 | 평가 방식 |
Doc2Dial (D2D) | 문서 기반 대화 QA | F1 Score |
QuAC | 대화형 질의응답 | F1 Score |
QReCC | 대화 맥락을 반영한 질의응답 | F1 Score |
TopiOCQA | 주제 중심 QA | Top-20 청크 검색 |
INSCIT | 과학 논문 기반 질의응답 | Top-20 청크 검색 |
CoQA | 대화형 QA | F1 Score |
DoQA | 도메인 특화 QA (예: Wikipedia) | F1 Score |
ConvFinQA (CFQA) | 금융 데이터 기반 QA | F1 Score |
SQA | 표 기반 질의응답 | F1 Score |
NEEDLE IN A HAYSTACK - NIAH
이건 굳이 필요한가...?
Chat QA 2는 여기서 끝 이네요
DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering - 논문 리뷰
https://arxiv.org/abs/2406.07348 DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-AnsweringRetrieval-Augmented Generation (RAG) has recently demonstrated the performance of Large Language Models (LLMs) in the know
yoonschallenge.tistory.com
Multi-Hop QA dataset을 사용
Datasets | 설명 | 질문 유형 | 규모 |
HotpotQA | 다단계 추론을 요구하는 질의응답 데이터셋 | 비교 질의, 추론 질의 | 113,000+ 질의 |
2Wiki | 2개 이상의 문서를 기반으로 추론해야 하는 QA 데이터셋 | 정보 연결형 질의 | 200,000+ 질의 |
MuSiQue | 기존 Multi-hop QA의 편향 문제를 해결한 데이터셋 | 고난이도 질의 | 25,000+ 질의 |
평가 지표 | 설명 |
EM (Exact Match) | 모델의 예측이 정답과 완전히 일치하는 비율 (%) |
F1 Score | 정밀도(Precision)와 재현율(Recall)의 조화 평균, 부분적으로 정답을 맞힌 경우도 반영 |
Recall (문서 검색 정확도) | 검색된 문서가 실제 정답 문서와 일치하는 비율 (%) |
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks - 논문 요약
https://arxiv.org/abs/1908.10084 Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksBERT (Devlin et al., 2018) and RoBERTa (Liu et al., 2019) has set a new state-of-the-art performance on sentence-pair regression tasks like semantic textual sim
yoonschallenge.tistory.com
이 부분은 SBERT(Sentence-BERT)의 성능을 다양한 평가 기준에서 검증하는 실험을 설명하고 있습니다. 주어진 내용에서는 네 가지 실험이 수행되었습니다:
- Unsupervised STS (비지도 학습 STS 평가)
- Supervised STS (지도 학습 STS 평가)
- Argument Facet Similarity (논증 유사성 평가)
- Wikipedia Sections Distinction (위키백과 섹션 구별 평가)
각 실험에서 사용된 데이터셋, 평가 방법, 그리고 SBERT의 성능을 상세하게 분석하겠습니다.
1. Unsupervised STS (비지도 학습 STS 평가)
실험 목적
- STS (Semantic Textual Similarity, 의미적 문장 유사성) 평가를 수행.
- SBERT를 STS 전용 데이터 없이 평가하여 사전 학습된 문장 임베딩 성능을 검증.
- 기존 BERT 기반 문장 임베딩 방법과 비교.
사용된 데이터셋
- STS 2012 - 2016 (SemEval STS Datasets)
- STS Benchmark (STSb)
- SICK-Relatedness (SICK-R)
→ 문장 쌍을 제공하며, 각 쌍의 유사성을 0~5 점수로 정량화.
평가 방법
- 문장 임베딩을 추출한 후, 코사인 유사도(Cosine Similarity)를 계산.
- 스피어만 순위 상관계수(Spearman’s rank correlation) 사용.
- 기존 연구에서 피어슨 상관계수(Pearson correlation)가 STS 평가에 적절하지 않음을 발견했기 때문.
결과 및 분석
- 기존 BERT의 한계:
- BERT의 출력 벡터를 직접 사용하면 매우 낮은 성능.
- BERT 임베딩 평균값 사용 → 평균 상관계수 54.81% (낮은 성능).
- BERT의 CLS 토큰만 사용 → 평균 상관계수 29.19% (더 낮은 성능).
- 이는 기존 GloVe 임베딩 평균보다도 낮은 성능.
- SBERT의 성능:
- Siamese 네트워크 구조 및 파인튜닝을 통해 크게 향상.
- SBERT는 InferSent 및 Universal Sentence Encoder(USE)보다 높은 성능을 달성.
- SICK-R 데이터셋에서만 Universal Sentence Encoder보다 낮은 성능을 기록.
- 이는 USE가 뉴스, QA 페이지, 토론 포럼 등 다양한 데이터로 사전 훈련된 것과 관련.
- RoBERTa와 비교:
- RoBERTa가 일부 지도 학습(supervised learning)에서 성능 향상을 보였지만,
SBERT vs SRoBERTa의 문장 임베딩 성능 차이는 크지 않음.
- RoBERTa가 일부 지도 학습(supervised learning)에서 성능 향상을 보였지만,
2. Supervised STS (지도 학습 STS 평가)
실험 목적
- 지도 학습된 STS 모델의 성능 검증.
- SBERT를 STS Benchmark(STSb) 데이터셋을 사용하여 미세 조정(fine-tuning).
사용된 데이터셋
- STS Benchmark (STSb) (Cer et al., 2017)
- 총 8,628 문장 쌍 포함.
- 세 가지 카테고리: 캡션(Captions), 뉴스(News), 포럼(Forums).
- Train: 5,749 / Dev: 1,500 / Test: 1,379 개 샘플.
평가 방법
- SBERT를 회귀 모델(regression model)로 훈련.
- 훈련된 모델을 사용해 문장 임베딩을 생성하고 코사인 유사도를 계산.
- F1-score, Spearman’s correlation을 사용해 평가.
- 랜덤 시드 10개(random seeds 10)를 사용해 평균값 산출 → 결과의 일관성 검증.
결과 및 분석
- SBERT 성능 향상:
- 기존 BERT 기반 모델보다 더 높은 STS 성능을 달성.
- STSb 데이터셋만으로 훈련할 때보다, NLI(Natural Language Inference) 데이터로 사전 훈련 후 STSb로 파인튜닝하면 성능 향상.
- 특히 BERT Cross-Encoder 모델은 3-4점 더 높은 성능을 보임.
- BERT vs RoBERTa:
- SBERT와 SRoBERTa(Sentence RoBERTa) 간에 큰 성능 차이는 없음.
3. Argument Facet Similarity (논증 유사성 평가)
실험 목적
- 논증 유사성(Argument Similarity) 평가.
- 기존 STS 데이터와 다른 사회적 논쟁(Social Debates) 데이터에서 SBERT 성능을 검증.
사용된 데이터셋
- AFS(Argument Facet Similarity) Corpus (Misra et al., 2016)
- 6,000개의 문장 쌍 포함.
- 총 3가지 논쟁 주제:
- 총기 규제(Gun Control)
- 동성 결혼(Gay Marriage)
- 사형(Death Penalty)
- 유사성 점수: 0 (완전히 다른 주제) ~ 5 (완전히 동일한 논증).
평가 방법
- 10-Fold Cross Validation (10겹 교차 검증)
- Cross-Topic Evaluation (교차 주제 평가):
- 두 개의 주제를 학습하고, 남은 한 주제로 평가.
결과 및 분석
- STS 데이터와의 차이점:
- STS 데이터는 설명적인(descriptive) 문장 위주지만,
AFS 데이터는 논증적인(argumentative) 문장으로 이루어짐. - 단순히 유사한 단어가 아니라 논증 방식이 유사해야 함 → 텍스트 간 어휘 격차(Lexical Gap) 큼.
- STS 데이터는 설명적인(descriptive) 문장 위주지만,
- SBERT의 성능:
- 10-Fold Cross Validation에서는 BERT 수준의 성능을 기록.
- 하지만 Cross-Topic Evaluation에서는 성능이 7포인트(Spearman Correlation) 하락.
- 이는 SBERT가 새로운 주제를 잘 일반화하지 못하기 때문.
- BERT 대비 약점:
- BERT는 직접적인 문장 비교(Word-by-Word Attention) 가능.
- SBERT는 문장을 벡터 공간에 매핑하여 비교해야 함.
- 이로 인해 미지의 주제에서는 일반화가 어려움.
4. Wikipedia Sections Distinction (위키백과 섹션 구별 평가)
실험 목적
- SBERT의 문장 임베딩이 주제적으로 관련된 문장을 잘 구별할 수 있는지 평가.
사용된 데이터셋
- Dor et al. (2018) Wikipedia 데이터셋
- 약 1.8백만 개의 학습용 문장 삼중(triplet) 데이터.
- 약 222,957개의 테스트 데이터.
- 동일 섹션의 문장은 유사도가 높아야 함.
평가 방법
- Triplet Loss를 사용해 훈련.
- 평가 지표: Accuracy
- "Anchor 문장과 Positive 문장이 Negative 문장보다 더 가까운가?"로 평가.
결과 및 분석
- SBERT vs. 기존 BiLSTM 모델:
- 기존 BiLSTM 모델보다 SBERT가 훨씬 높은 정확도를 기록.
- SBERT의 문장 임베딩이 위키백과 문서의 섹션 구별 성능이 뛰어남.
결론
이 실험을 통해 SBERT는 문장 의미를 잘 파악할 수 있지만, 주제 일반화(Generalization to Unseen Topics)에는 한계가 있음을 확인했습니다.
특히 지도 학습된 STS 및 논증 유사성 평가에서는 높은 성능을 기록했지만, 새로운 주제나 도메인에서는 성능이 감소하는 특징을 보였습니다.
논문에서 사용된 데이터셋 정리 (SentEval 평가 및 문장 임베딩 성능 비교)
이 논문에서는 SentEval을 사용하여 SBERT의 문장 임베딩 성능을 평가하였습니다. SentEval은 다양한 전이 학습(transfer learning) 태스크에서 문장 임베딩의 품질을 측정하는 프레임워크입니다.
평가는 로지스틱 회귀(Logistic Regression) 모델을 사용한 10-Fold Cross Validation(10겹 교차 검증) 방식으로 진행되었으며, 7가지 전이 학습 태스크에서 SBERT가 기존 방법들과 비교되었습니다.
1. SentEval 프레임워크 개요
- SentEval (Conneau & Kiela, 2018)
- 문장 임베딩의 품질을 평가하는 표준 도구.
- 문장 임베딩을 로지스틱 회귀 모델의 입력 특징(feature)으로 사용.
- 다양한 NLP 태스크에서 문장 임베딩이 얼마나 일반화(Generalization)될 수 있는지 평가.
- 평가 방식:
- 10-Fold Cross Validation 방식 사용.
- 문장 임베딩을 특징 벡터로 활용하여 로지스틱 회귀 모델을 학습.
- 각 태스크에서의 예측 정확도(Accuracy)를 성능 지표로 측정.
2. 사용된 7가지 SentEval 전이 학습 태스크
논문에서는 SBERT의 문장 임베딩 성능을 평가하기 위해 SentEval의 7개 대표적인 NLP 태스크를 활용했습니다.
Task | 설명 | 평가 목표 |
MR (Movie Reviews Sentiment Prediction) | 영화 리뷰 문장의 감성(긍정/부정) 예측 | 감성 분석 |
CR (Customer Reviews Sentiment Prediction) | 고객 상품 리뷰 문장의 감성 예측 | 감성 분석 |
SUBJ (Subjectivity Prediction) | 문장이 주관적인지 객관적인지 판별 | 문장 주관성 분석 |
MPQA (Opinion Polarity Classification) | 뉴스 문장에서 긍정/부정 감정 판단 | 감정 극성 분석 |
SST (Stanford Sentiment Treebank) | Stanford Sentiment Treebank의 이진 감성 분석 태스크 | 감성 분석 |
TREC (Question Type Classification) | 질문이 어떤 유형인지 분류 (예: 장소, 사람, 숫자 등) | 질문 유형 분류 |
MRPC (Microsoft Research Paraphrase Corpus) | 뉴스 기사에서 문장 간 패러프레이징(동의어 여부) 판별 | 문장 유사성 판단 |
3. 평가 결과 및 분석
논문에서는 SBERT의 문장 임베딩을 기존 문장 임베딩 방법들과 비교하였습니다.
- 기존 모델들과 비교:
- Mean-Vectors (단순 평균 벡터)
- Skip-Thought Vectors
- Dor et al. 모델 (Wikipedia Section Embedding)
- SBERT (기본 및 대형 모델)
- SRoBERTa (기본 및 대형 모델)
Wikipedia Section Triplets 데이터셋 성능 (Dor et al., 2018)
모델 | 정확도 |
Mean-Vectors | 0.65 |
Skip-Thoughts-CS | 0.62 |
Dor et al. | 0.74 |
SBERT-WikiSec-base | 0.8042 |
SBERT-WikiSec-large | 0.8078 |
SRoBERTa-WikiSec-base | 0.7945 |
SRoBERTa-WikiSec-large | 0.7973 |
SentEval 전이 학습 태스크에서의 성능
- SBERT가 7개 태스크 중 5개에서 최고 성능을 기록.
- 기존 InferSent 및 Universal Sentence Encoder보다 평균 2% 높은 성능을 보임.
SBERT vs. BERT 및 RoBERTa
- SBERT가 기존 BERT 및 RoBERTa보다 뛰어난 성능을 기록.
- 하지만 SBERT는 전이 학습(transfer learning)에 최적화된 모델이 아니므로, 특정 태스크에서는 BERT 미세 조정(Fine-Tuning)이 더 적합할 수도 있음.
4. 결론
- SBERT의 문장 임베딩은 다양한 NLP 태스크에서 높은 성능을 보임.
- 특히 문장 의미를 보존하는 전이 학습 태스크에서 뛰어난 성능을 보였음.
- 감성 분석, 질문 유형 분류, 문장 유사성 판단 등에서 기존 방법 대비 2% 향상된 성능.
- Wikipedia Section Triplets 데이터셋에서 기존 BiLSTM보다 높은 정확도 기록.
- SBERT의 트리플렛 학습 방식이 문장 간 유사성 평가에 효과적임을 증명.
- 전이 학습(Transfer Learning) 목적이 아닌 경우, SBERT가 가장 적합한 선택이 될 수 있음.
- 전이 학습이 필요하다면 BERT 미세 조정(Fine-Tuning)이 더 적절할 수도 있음.
5. 최종 요약
논문에서는 SBERT의 성능을 SentEval 프레임워크를 통해 검증하였으며, SBERT가 기존 문장 임베딩 방법보다 우수한 성능을 달성하였음을 확인하였습니다. 특히, 다양한 감성 분석, 주관성 판단, 질문 분류 태스크에서 SBERT가 최고 성능을 보이며, 기존 InferSent 및 Universal Sentence Encoder보다 2% 이상 높은 정확도를 기록했습니다.
STS - 프롬프트 단위에서도 중요함! Query 유사도에서도 사용 됨
data set | 규모 | 유형 | 평가 목표 |
STS12 | 3,100 쌍 | 뉴스, MSR 비슷한 의미 | 문장 의미 유사성 |
STS13 | 1,500 쌍 | 뉴스, 파라프레이즈 | 문장 의미 유사성 |
STS14 | 3,750 쌍 | 뉴스, 이미지 캡션, 학생 답변 | 문장 의미 유사성 |
STS15 | 8,500 쌍 | 뉴스, 이미지 캡션 | 문장 의미 유사성 |
STS16 | 1,200 쌍 | 뉴스, 질문-답변, 트윗 | 문장 의미 유사성 |
STS Benchmark (STSb) | 8,628 쌍 | 뉴스, 캡션, 포럼 | 문장 의미 유사성 (Supervised) |
SICK-R | 10,000 쌍 | 인공 생성 문장 | 의미적 관련성 |
SentEval - 임베딩 성능 평가
Task | 설명 | 평가 목표 |
MR (Movie Reviews Sentiment Prediction) | 영화 리뷰 문장의 감성(긍정/부정) 예측 | 감성 분석 |
CR (Customer Reviews Sentiment Prediction) | 고객 상품 리뷰 문장의 감성 예측 | 감성 분석 |
SUBJ (Subjectivity Prediction) | 문장이 주관적인지 객관적인지 판별 | 문장 주관성 분석 |
MPQA (Opinion Polarity Classification) | 뉴스 문장에서 긍정/부정 감정 판단 | 감정 극성 분석 |
SST (Stanford Sentiment Treebank) | Stanford Sentiment Treebank의 이진 감성 분석 태스크 | 감성 분석 |
TREC (Question Type Classification) | 질문이 어떤 유형인지 분류 (예: 장소, 사람, 숫자 등) | 질문 유형 분류 |
MRPC (Microsoft Research Paraphrase Corpus) | 뉴스 기사에서 문장 간 패러프레이징(동의어 여부) 판별 | 문장 유사성 판단 |
비교 항목 | SentEval | Semantic Textual Similarity (STS) |
목적 | 문장 임베딩의 전이 학습(Transfer Learning) 성능 평가 | 문장 간 의미적 유사도를 직접 평가 |
평가 방법 | 여러 NLP 태스크에서 문장 임베딩이 얼마나 잘 동작하는지 측정 | 문장 쌍 간 의미적 유사도를 직접 계산 |
사용 데이터 | SentEval 벤치마크 (MR, CR, SUBJ, MPQA, SST, TREC, MRPC) | STS 2012-2016, STS-Benchmark (STSb), SICK-Relatedness |
주요 평가 지표 | 정확도(Accuracy) | Spearman’s Rank Correlation, Pearson Correlation |
임베딩 활용 방식 | 문장 임베딩을 로지스틱 회귀 분류기에 입력 | 문장 임베딩 간 코사인 유사도를 측정 |
결과 해석 | 문장 임베딩이 NLP 태스크에서 얼마나 유용한지 평가 | 문장 임베딩이 의미적으로 얼마나 비슷한지 평가 |
Multi-Hop QA Data set - 여러 문서에서 정보를 조합하여 복잡한 질문에 답변하는 시스템 성능 평가
데이터 셋 | 설명 | 샘플 수 | Metric |
HotpotQA | 여러 문서를 참조하여 답변을 생성하는 데이터셋 | 약 113,000 | EM (Exact Match), F1-score |
2Wiki | 위키백과 기반의 Multi-hop QA 데이터셋 | 약 200,000 | EM, F1-score |
MuSiQue | 더 복잡한 Multi-hop 질문을 포함하는 데이터셋 | 약 40,000 | EM, F1-score |
Retrieval-augmented generation for large language models: A survey. - 논문 리뷰
https://arxiv.org/abs/2312.10997 Retrieval-Augmented Generation for Large Language Models: A SurveyLarge Language Models (LLMs) showcase impressive capabilities but encounter challenges like hallucination, outdated knowledge, and non-transparent, untracea
yoonschallenge.tistory.com
1. 질의 응답 (QA)
질의 응답(QA)은 단일 홉(Single-hop), 다중 홉(Multi-hop), 장문(Long-form), 도메인 특화(Domain QA), 다지선다형(Multi-choice QA), 그래프 기반 QA(Graph QA)로 나뉩니다.
QA 유형 | 데이터 셋 | 설명 |
Single-hop QA | Natural Questions (NQ) [111] | Google 검색 기반 자연어 질문 응답 데이터셋 |
TriviaQA (TQA) [113] | 위키백과 및 웹 문서 기반 트리비아 질문 응답 | |
SQuAD [114] | 위키백과 문서를 기반으로 한 문맥 내 QA | |
Web Questions (WebQ) [115] | Freebase 기반 자연어 질의 응답 | |
PopQA [116] | 대중적인 상식 질문 QA 데이터셋 | |
MS MARCO [117] | Bing 검색 로그에서 생성된 QA 데이터셋 | |
Multi-hop QA | HotpotQA [118] | 다중 문서를 활용한 다중 홉 QA |
2WikiMultiHopQA [119] | 위키백과 문서를 연결하여 다중 홉 질의를 해결 | |
MuSiQue [120] | 다단계 추론을 요구하는 복잡한 QA | |
Long-form QA | ELI5 [121] | Reddit 기반 장문 질문 응답 |
NarrativeQA (NQA) [122] | 서사적 질의응답을 다루는 데이터셋 | |
ASQA [124] | 복잡한 질의를 위한 데이터셋 | |
QMSum (QM) [125] | 질의 기반 요약 (Query-based Summarization) | |
Domain QA | Qasper [126] | 과학 논문 기반 QA |
COVID-QA [127] | COVID-19 관련 QA | |
CMB, MMCU Medical [128, 129] | 의학 도메인 QA | |
Multi-choice QA | QuALITY [130] | 복잡한 다지선다형 QA |
ARC [131] | 과학 및 일반 지식 기반 다지선다형 QA | |
CommonsenseQA [132] | 상식 기반 QA | |
Graph QA | GraphQA [84] | 지식 그래프를 활용한 QA |
2. 대화 (Dialog)
RAG가 대화 시스템에 적용되는 사례.
대화 유형 | 데이터 셋 | 설명 |
일반 대화(Dialog Generation) | Wizard of Wikipedia (WoW) [133] | 위키 기반 오픈 도메인 대화 데이터셋 |
개인화 대화(Personal Dialog) | KBP [134] | 인물 중심의 지식 기반 대화 |
DuleMon [136] | 멀티 턴 대화 데이터셋 | |
목적 지향 대화(Task-oriented Dialog) | CamRest [137] | 레스토랑 예약 시스템을 위한 목적 지향 대화 |
3. 추천 시스템 (Recommendation)
추천 시스템에서 RAG가 사용되는 데이터셋.
유형 | 데이터 셋 | 설명 |
상품 추천 | Amazon (Toys, Sport, Beauty) [138] | 아마존 상품 추천 데이터 |
4. 정보 추출 (Information Extraction, IE)
RAG가 정보 추출 작업에서 활용되는 사례.
정보 추출 유형 | 데이터 셋 | 설명 |
이벤트 인수 추출(Event Argument Extraction) | WikiEvent [139] | 위키 기반 이벤트 정보 추출 |
RAMS [140] | 복잡한 이벤트 관계 추출 | |
관계 추출(Relation Extraction) | T-REx [141] | 위키 기반 엔터티 관계 추출 |
ZsRE [142] | 제로샷 관계 추출 |
5. 추론 (Reasoning)
상식 및 복잡한 논리 추론을 다루는 데이터셋.
추론 유형 | 데이터 셋 | 설명 |
상식 추론 (Commonsense Reasoning) | HellaSwag [143] | 상식적 문맥 이해를 평가 |
CoT (Chain-of-Thought) Reasoning | CoT Reasoning [144] | 체인 오브 톳(Chain-of-Thought) 기반 추론 |
복잡한 추론 (Complex Reasoning) | CSQA [145] | 복잡한 질문과 추론을 요구하는 데이터셋 |
6. 기타 (Other Tasks)
RAG가 적용되는 다양한 NLP 태스크.
Task 유형 | 데이터 셋 | 설명 |
언어 이해 (Language Understanding) | MMLU [146] | 다중 태스크 언어 이해 평가 |
언어 모델링 (Language Modeling) | WikiText-103 [147] | 위키 기반 언어 모델링 데이터셋 |
전략적 QA (StrategyQA) | StrategyQA [148] | 논리적 전략이 필요한 QA |
사실 검증 / Fact-checking | FEVER [149] | 위키 기반 사실 검증 데이터셋 |
PubHealth [150] | 의료 및 공중보건 사실 검증 | |
텍스트 생성 (Text Generation) | Biography [151] | 인물 전기 기반 텍스트 생성 |
요약 (Summarization) | WikiASP [152] | 위키 기반 요약 데이터셋 |
XSum [153] | 뉴스 기사 요약 | |
텍스트 분류 (Text Classification) | VioLens [154] | 폭력성 감지 데이터셋 |
TREC [155] | 질문 분류 데이터셋 | |
감성 분석 (Sentiment Analysis) | SST-2 [156] | 감성 분석 데이터셋 |
코드 검색 (Code Search) | CodeSearchNet [157] | 코드 검색 및 언어 모델링 |
강건성 평가 (Robustness Evaluation) | NoMIRACL [56] | 강건한 검색 및 QA 성능 평가 |
수학 (Math Reasoning) | GSM8K [158] | 수학 문제 해결 데이터셋 |
기계 번역 (Machine Translation) | JRC-Acquis [159] | 법률 문서 기반 다국어 번역 |
1. 평가 기준 (Evaluation Aspects)
평가 기준 | 설명 |
Context Relevance (문맥 적합성) | 검색된 문서 또는 생성된 답변이 질의와 얼마나 관련성이 있는지. |
Faithfulness (사실성) | 모델이 사실적으로 정확한 답변을 생성하는지 여부. 환각(Hallucination) 방지. |
Answer Relevance (답변 적합성) | 생성된 답변이 질의에 대해 직접적으로 유의미한 정보를 제공하는지. |
Noise Robustness (잡음 강건성) | 입력 데이터에 포함된 잡음(irrelevant information)에 대해 모델이 얼마나 강건한지. |
Negative Rejection (부정 응답 필터링) | 모델이 부적절하거나 부정확한 정보를 배제할 수 있는지. |
Information Integration (정보 통합) | 다중 소스에서 검색한 정보를 효과적으로 통합하여 답변을 생성하는 능력. |
Counterfactual Robustness (반사실적 강건성) | 반사실적(counterfactual) 정보에 대해 모델이 얼마나 일관된 반응을 보이는지. |
2. 평가 메트릭 (Metrics)
메트릭 설명 관련 평가 기준
Metrics | 설명 | 관련 평가 기준 |
Accuracy | 모델의 전반적인 정확도를 측정. | Context Relevance, Faithfulness, Answer Relevance, Noise Robustness, Negative Rejection, Information Integration, Counterfactual Robustness |
EM (Exact Match) | 모델이 정답을 정확하게 예측했는지 확인. | Context Relevance, Faithfulness, Answer Relevance |
Recall | 모델이 실제 정답을 검색했는지를 평가. | Context Relevance |
Precision | 검색된 정보 중 관련성이 높은 문서의 비율을 평가. | Context Relevance, Noise Robustness |
R-Rate | 생성된 응답이 실제 문서에서 제공된 정보와 얼마나 일치하는지. | Faithfulness |
Cosine Similarity | 검색된 문서 또는 생성된 답변과 정답 간의 의미적 유사도를 측정. | Answer Relevance |
Hit Rate | 정답을 포함하는 검색 결과가 반환되었는지 평가. | Context Relevance |
MRR (Mean Reciprocal Rank) | 정답이 검색된 결과에서 얼마나 높은 순위에 있는지 평가. | Context Relevance |
NDCG (Normalized Discounted Cumulative Gain) | 검색된 문서의 정렬이 얼마나 효과적인지를 평가. | Context Relevance |
BLEU | 생성된 답변과 정답의 문장 유사성을 평가 (기계 번역, 요약에서 자주 사용). | Faithfulness, Answer Relevance |
ROUGE/ROUGE-L | 생성된 답변이 원본 텍스트와 얼마나 유사한지를 측정 (요약에서 주로 사용). | Faithfulness, Answer Relevance |
3. 테이블 해석 및 핵심 요점
- Accuracy, EM, Recall, Precision 등의 전통적인 메트릭은 Context Relevance와 Faithfulness를 평가하는 데 중요하지만, RAG 모델에서는 이를 보완하는 추가적인 평가 기준이 필요합니다.
- Noise Robustness 및 Negative Rejection을 평가하는 메트릭이 제한적이므로, RAG 모델이 잡음에 대해 얼마나 강건한지 분석하려면 추가적인 실험이 필요할 수 있습니다.
- Answer Relevance는 BLEU, ROUGE, Cosine Similarity와 같은 자연어 처리(NLP) 기반 메트릭을 활용하여 평가하며, 단순 정답 매칭이 아닌 의미적 유사성을 고려해야 합니다.
- Counterfactual Robustness를 평가하는 명확한 메트릭이 부족, 기존의 Accuracy 기반 평가를 변형하여 적용할 필요가 있음.
- Information Integration을 평가하는 지표가 명확하지 않음, 향후 다중 문서 기반 답변 생성의 평가를 위한 새로운 메트릭 개발이 필요.
(1) RGB (Benchmark)
- 평가 대상:
- 검색 품질 (Retrieval Quality)
- 생성 품질 (Generation Quality)
- 평가 기준:
- Noise Robustness (잡음 강건성): 관련 없는 정보가 포함된 경우에도 정확한 응답을 생성할 수 있는가.
- Negative Rejection (부정 응답 필터링): 검색된 문서가 부적절한 경우, 잘못된 답변을 회피할 수 있는가.
- Information Integration (정보 통합): 다중 문서에서 정보를 종합하는 능력.
- Counterfactual Robustness (반사실적 강건성): 문서 내 잘못된 정보를 걸러낼 수 있는가.
- 평가 메트릭:
- Accuracy, EM (Exact Match).
(2) RECALL (Benchmark)
- 평가 대상:
- 생성 품질 (Generation Quality)
- 평가 기준:
- Counterfactual Robustness (반사실적 강건성): 모델이 가짜 정보 또는 반사실적 정보에 대한 인식을 유지할 수 있는가.
- 평가 메트릭:
- R-Rate (Reappearance Rate): 검색된 정보가 다시 사용될 가능성을 측정하는 지표.
(3) RAGAS (Tool)
- 평가 대상:
- 검색 품질 (Retrieval Quality)
- 생성 품질 (Generation Quality)
- 평가 기준:
- Context Relevance (문맥 적합성): 검색된 문서가 질의와 얼마나 관련이 있는가.
- Faithfulness (사실성): 생성된 답변이 검색된 문서와 일치하는가.
- Answer Relevance (답변 적합성): 생성된 답변이 질의의 핵심 내용을 다루는가.
- 평가 메트릭:
- Cosine Similarity, 사용자 정의(Custom) 메트릭 ( 표시).*
(4) ARES (Tool)
- 평가 대상:
- 검색 품질 (Retrieval Quality)
- 생성 품질 (Generation Quality)
- 평가 기준:
- Context Relevance (문맥 적합성)
- Faithfulness (사실성)
- Answer Relevance (답변 적합성)
- 평가 메트릭:
- Accuracy 기반 평가.
(5) TruLens (Tool)
- 평가 대상:
- 검색 품질 (Retrieval Quality)
- 생성 품질 (Generation Quality)
- 평가 기준:
- Context Relevance (문맥 적합성)
- Faithfulness (사실성)
- Answer Relevance (답변 적합성)
- 평가 메트릭:
- 사용자 정의(Custom) 메트릭 ( 표시).*
(6) CRUD (Benchmark)
- 평가 대상:
- 검색 품질 (Retrieval Quality)
- 생성 품질 (Generation Quality)
- 평가 기준:
- Creative Generation (창의적 생성): 새로운 정보와 창의적인 내용을 포함하는 능력.
- Knowledge-intensive QA (지식 기반 QA): 도메인 특화 정보가 필요한 질문에 대한 정확도.
- Error Correction (오류 수정): 잘못된 정보를 수정하는 능력.
- Summarization (요약): 긴 문서를 요약하는 능력.
- 평가 메트릭:
- BLEU, ROUGE-L, BertScore, RAGQuestEval.
VI. TASK AND EVALUATION (태스크 및 평가)
이 장에서는 Retrieval-Augmented Generation (RAG) 모델의 평가 방법과 적용 태스크를 다룹니다.
주요 내용은 ① 다운스트림 태스크(Downstream Tasks), ② 평가 대상(Evaluation Targets), ③ 평가 기준(Evaluation Aspects), ④ 평가 벤치마크 및 도구(Evaluation Benchmarks and Tools)로 나뉩니다.
1. 다운스트림 태스크 (Downstream Tasks)
RAG의 주요 응용 분야는 질의 응답(Question Answering, QA)이며, 이 외에도 정보 추출(Information Extraction, IE), 대화(Dialog Generation), 코드 검색(Code Search) 등 다양한 NLP 태스크에 적용됩니다.
(1) QA (Question Answering)
- 단일 홉 QA (Single-hop QA): 한 개의 문서에서 정답을 찾는 방식.
- 다중 홉 QA (Multi-hop QA): 여러 개의 문서를 검색하여 결합해야 정답을 도출 가능.
- 장문 QA (Long-form QA): 짧은 정답이 아닌 긴 형식의 설명을 요구하는 QA.
- 도메인 QA (Domain-specific QA): 과학, 의료, 법률 등 특정 분야의 QA.
- 다지선다형 QA (Multiple-choice QA): 선택지가 있는 QA.
- 그래프 기반 QA (Graph QA): 지식 그래프를 활용한 QA.
(2) 기타 RAG 응용 분야
- 정보 추출 (Information Extraction, IE): 텍스트에서 이벤트, 관계 등을 추출.
- 대화 생성 (Dialog Generation): 오픈 도메인 및 목적 지향형 대화.
- 코드 검색 (Code Search): 프로그래밍 코드 검색.
→ 자세한 데이터셋 및 적용 연구는 Table II에서 정리됨.
2. 평가 대상 (Evaluation Targets)
RAG의 평가는 크게 검색 품질(Retrieval Quality)과 생성 품질(Generation Quality)로 나뉩니다.
(1) 검색 품질 (Retrieval Quality)
- 검색기의 성능을 평가하며, 정보 검색 시스템과 추천 시스템에서 사용되는 메트릭을 적용.
- 주요 메트릭:
- Hit Rate (정답이 검색 결과 내에 포함되는 비율)
- MRR (Mean Reciprocal Rank) (정답이 검색 결과에서 얼마나 상위에 위치하는지)
- NDCG (Normalized Discounted Cumulative Gain) (검색된 문서의 순서가 정답에 얼마나 적합한지)
(2) 생성 품질 (Generation Quality)
- 검색된 정보를 바탕으로 생성된 답변의 품질을 평가.
- 평가 방식:
- 라벨이 없는(Unlabeled) 경우:
- 사실성(Faithfulness), 적합성(Relevance), 해로움 방지(Non-harmfulness) 평가.
- 라벨이 있는(Labeled) 경우:
- 생성된 정보의 정확성(Accuracy) 평가.
- 라벨이 없는(Unlabeled) 경우:
- 주요 메트릭:
- EM (Exact Match), F1 Score (QA 평가)
- Accuracy (Fact-checking 평가)
- BLEU, ROUGE (요약 및 생성된 답변의 질 평가)
- 평가 방식:
- 자동 평가(Auto Evaluation): RALLE 등의 도구를 활용하여 평가.
- 수동 평가(Manual Evaluation): 사람이 직접 평가하여 모델의 응답 품질 분석.
3. 평가 기준 (Evaluation Aspects)
RAG 모델의 평가 기준은 세 가지 품질 점수(Quality Scores)와 네 가지 필수 능력(Required Abilities)으로 나뉩니다.
(1) 품질 점수 (Quality Scores)
- Context Relevance (문맥 적합성):
- 검색된 문서가 질문과 얼마나 관련 있는지 평가.
- 정확한 문맥을 검색하여 불필요한 정보 처리 비용을 줄이는 것이 목표.
- Answer Faithfulness (답변의 사실성):
- 생성된 답변이 검색된 정보와 일치하는지 평가.
- 환각(Hallucination) 발생 여부 확인.
- Answer Relevance (답변의 적합성):
- 답변이 질의에 대한 적절한 응답인지 평가.
- 답변이 직접적이고 유의미한 정보를 제공해야 함.
(2) 필수 능력 (Required Abilities)
- Noise Robustness (잡음 강건성):
- 질의와 연관성이 낮은 검색 결과(잡음 데이터)를 얼마나 효과적으로 처리하는가.
- Negative Rejection (부정 응답 필터링):
- 검색된 문서에 정답이 없을 때, 잘못된 답변을 생성하지 않고 거절할 수 있는 능력.
- Information Integration (정보 통합):
- 여러 개의 검색된 문서를 결합하여 일관된 답변을 생성하는 능력.
- Counterfactual Robustness (반사실적 강건성):
- 문서 내 오류나 잘못된 정보를 인식하고 무시할 수 있는 능력.
📌 → 검색 품질을 평가하는 주요 요소: Context Relevance, Noise Robustness
📌 → 생성 품질을 평가하는 주요 요소: Answer Faithfulness, Answer Relevance, Negative Rejection, Information Integration, Counterfactual Robustness
📌 → 각 평가 기준에 대한 세부 메트릭은 Table III에서 정리됨.
4. 평가 벤치마크 및 도구 (Evaluation Benchmarks and Tools)
RAG 평가를 위해 여러 벤치마크와 도구가 개발됨.
(1) 평가 벤치마크 (Benchmarks)
- RGB:
- RAG 모델의 강건성(Robustness), 정보 통합(Information Integration) 등의 성능을 평가.
- RECALL:
- 검색된 정보의 품질과 검색된 내용의 재현성(Reappearance Rate) 평가.
- CRUD:
- 창의적 생성, 오류 수정, 요약 능력을 평가.
(2) 자동 평가 도구 (Evaluation Tools)
- RAGAS:
- RAG 모델의 검색 및 생성 품질을 LLM 기반으로 평가.
- ARES:
- 모델의 문맥 적합성(Context Relevance), 사실성(Faithfulness) 등을 평가하는 자동 도구.
- TruLens:
- 검색과 생성 과정을 동시에 평가하는 도구.
📌 → 각 벤치마크 및 도구에 대한 상세 내용은 Table IV에서 정리됨.
결론
RAG 평가 체계는 크게 ① 다운스트림 태스크, ② 평가 대상, ③ 평가 기준, ④ 평가 벤치마크 및 도구로 정리할 수 있습니다.
- RAG는 질의 응답(QA)을 핵심 태스크로 하며, 정보 추출, 대화, 코드 검색 등으로 확장됨.
- 검색 품질(Hit Rate, MRR, NDCG)과 생성 품질(EM, F1, BLEU, ROUGE 등)로 나누어 평가됨.
- RAG 평가의 핵심 요소는 문맥 적합성, 답변의 사실성, 잡음 강건성, 정보 통합 능력 등.
- RGB, RECALL, CRUD 같은 벤치마크와 RAGAS, ARES, TruLens 등의 평가 도구가 활용됨.
- 현재까지의 평가 메트릭은 기존 NLP 평가 방법을 기반으로 하지만, RAG 특화된 새로운 평가 기준이 필요.
이 장에서는 RAG의 평가를 위한 종합적인 프레임워크를 제시하며, 향후 연구에서는 RAG 모델의 특성을 고려한 맞춤형 평가 방법이 더욱 발전할 필요가 있음을 강조합니다.
2025.03.05 - [인공지능/논문 리뷰 or 진행] - GeAR: Generation Augmented Retrieval - 논문리뷰
GeAR: Generation Augmented Retrieval - 논문리뷰
https://arxiv.org/abs/2501.02772 GeAR: Generation Augmented RetrievalDocument retrieval techniques form the foundation for the development of large-scale information systems. The prevailing methodology is to construct a bi-encoder and compute the semantic
yoonschallenge.tistory.com
검색 유형 | 데이터셋 | 설명 | 데이터 수 |
질문-응답 검색 (QAR) | PAQ | ✅ 대규모 Question Answering (QA) 데이터셋. ✅ LLM(대형 언어 모델)이 생성한 30M 개의 질문-답변 쌍 포함. |
Train: 30M Test: 1M 문서, 20K 쿼리 |
SQuAD | ✅ 문서에서 질문에 대한 정답 문장을 찾는 데이터셋. ✅ 검색 및 질문 응답 모델 평가에 자주 사용. |
Test only | |
NQ (Natural Questions) | ✅ Google에서 수집한 대규모 QA 데이터셋. ✅ 질문에 대한 정답이 문서 내에 존재하는지 확인. |
Test only | |
TriviaQA | ✅ 위키피디아와 뉴스 문서를 기반으로 만든 질문-응답 데이터셋. ✅ 검색된 문서에서 정답 문장을 찾는 것이 핵심. |
Test only | |
관련 정보 검색 (RIR) | 5.8M 합성 데이터 (위키피디아 기반) | ✅ 위키피디아에서 수집한 문서를 기반으로 대형 언어 모델(LLM)을 활용해 생성된 5.8M 개의 검색 데이터. ✅ 키워드 기반의 정보 검색을 평가하는 데 사용. |
Train: 95% (5.5M) Test: 5% (290K) |
모델 유형 | 모델 명 | 설명 |
사전 학습된 검색 모델 | SBERT (Reimers & Gurevych, 2019) | ✅ Sentence-BERT 기반 검색 모델. |
E5 (Wang et al., 2022) | ✅ 약한 지도 학습(Weakly-Supervised Learning)으로 학습된 검색 모델. | |
BGE (Xiao et al., 2024) | ✅ 대규모 텍스트 검색을 위한 최신 벡터 임베딩 모델. | |
GTE (Li et al., 2023) | ✅ 여러 검색 태스크에서 높은 성능을 보이는 최신 검색 모델. | |
GeAR 학습 데이터와 동일하게 재학습된 모델 | SBERTRT (Retrained SBERT) | ✅ GeAR와 동일한 데이터셋을 사용하여 재학습된 SBERT 모델. |
BGERT (Retrained BGE) | ✅ GeAR와 동일한 데이터셋을 사용하여 재학습된 BGE 모델. |
📌 GeAR 논문의 Dataset & Benchmark 정리
논문의 실험에서 사용된 Dataset(데이터셋)과 Benchmark(비교 모델)을 한눈에 볼 수 있도록 정리했습니다.
1. Dataset (데이터셋 정리)
GeAR의 실험에서는 두 가지 주요 검색 시나리오에 맞춰 총 5개의 데이터셋을 사용했습니다.
검색 유형 | 데이터셋 | 설명 | 데이터 수 |
질문-응답 검색 (QAR) | PAQ | ✅ 대규모 Question Answering (QA) 데이터셋. ✅ LLM(대형 언어 모델)이 생성한 30M 개의 질문-답변 쌍 포함. |
Train: 30M Test: 1M 문서, 20K 쿼리 |
SQuAD | ✅ 문서에서 질문에 대한 정답 문장을 찾는 데이터셋. ✅ 검색 및 질문 응답 모델 평가에 자주 사용. |
Test only | |
NQ (Natural Questions) | ✅ Google에서 수집한 대규모 QA 데이터셋. ✅ 질문에 대한 정답이 문서 내에 존재하는지 확인. |
Test only | |
TriviaQA | ✅ 위키피디아와 뉴스 문서를 기반으로 만든 질문-응답 데이터셋. ✅ 검색된 문서에서 정답 문장을 찾는 것이 핵심. |
Test only | |
관련 정보 검색 (RIR) | 5.8M 합성 데이터 (위키피디아 기반) | ✅ 위키피디아에서 수집한 문서를 기반으로 대형 언어 모델(LLM)을 활용해 생성된 5.8M 개의 검색 데이터. ✅ 키워드 기반의 정보 검색을 평가하는 데 사용. |
Train: 95% (5.5M) Test: 5% (290K) |
📌 PAQ는 GeAR의 주요 학습 데이터셋이고, 나머지 데이터셋은 성능 평가(Benchmark) 목적으로 사용됨
📌 RIR 데이터셋은 위키피디아 기반으로 생성되었으며, 키워드 기반 검색 성능을 측정하는 데 활용됨
2. Benchmark (비교 모델 및 실험 환경 정리)
📌 2.1 비교 모델 (Baseline Models)
GeAR의 성능을 비교하기 위해 두 가지 유형의 모델과 비교하였습니다.
모델 유형 | 모델 명 | 설명 |
사전 학습된 검색 모델 | SBERT (Reimers & Gurevych, 2019) | ✅ Sentence-BERT 기반 검색 모델. |
E5 (Wang et al., 2022) | ✅ 약한 지도 학습(Weakly-Supervised Learning)으로 학습된 검색 모델. | |
BGE (Xiao et al., 2024) | ✅ 대규모 텍스트 검색을 위한 최신 벡터 임베딩 모델. | |
GTE (Li et al., 2023) | ✅ 여러 검색 태스크에서 높은 성능을 보이는 최신 검색 모델. | |
GeAR 학습 데이터와 동일하게 재학습된 모델 | SBERTRT (Retrained SBERT) | ✅ GeAR와 동일한 데이터셋을 사용하여 재학습된 SBERT 모델. |
BGERT (Retrained BGE) | ✅ GeAR와 동일한 데이터셋을 사용하여 재학습된 BGE 모델. |
📌 두 가지 비교 그룹을 설정하여 실험 수행:
✅ 기존 사전 학습된 검색 모델 (Pre-trained Retrieval Models) 과 비교.
✅ GeAR와 동일한 데이터셋을 사용하여 재학습된 SBERT, BGE와도 비교.
📌 2.2 실험 환경 및 학습 설정
논문에서는 GeAR 모델을 훈련하기 위해 BERT-base-uncased 모델을 기본으로 사용하였으며, 다음과 같은 실험 환경을 설정함.
기본 모델 | BERT-base-uncased (Devlin et al., 2019) |
훈련 Epochs | 10 Epochs |
Batch Size | 48 (QAR), 16 (RIR) |
GPU 환경 | 16 AMD MI200 GPUs (64GB 메모리) |
Optimizer | AdamW (Loshchilov, 2017) |
Weight Decay | 0.05 |
📌 BERT-base-uncased를 활용하여 GeAR의 모든 모듈을 학습
📌 Contrastive Learning (대조 학습)과 Language Modeling Loss를 결합하여 최적화
📌 3. 전체 요약
✅ Dataset 구성
- GeAR는 30M 개의 QA 데이터(PAQ)와 5.8M 개의 위키피디아 기반 검색 데이터(RIR)를 학습.
- 평가(Benchmark) 데이터셋으로 SQuAD, NQ, TriviaQA를 사용.
✅ Benchmark 구성
- 기존 검색 모델 (SBERT, E5, BGE, GTE)과 비교하여 성능 평가.
- GeAR와 동일한 데이터셋으로 학습한 SBERTRT, BGERT 모델과 비교하여 공정한 실험 수행.
✅ 실험 환경
- BERT-base-uncased를 기본 모델로 사용.
- Contrastive Learning + Language Modeling Loss 최적화.
- 16개 AMD MI200 GPU에서 10 Epoch 동안 학습 진행.
📌 GeAR는 기존 검색 모델보다 문서 검색 성능, 세밀한 정보 탐색, 생성 성능이 우수한 것을 입증함! 🚀
LLM을 검색에? LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders - 논문 리뷰
https://arxiv.org/abs/2404.05961 LLM2Vec: Large Language Models Are Secretly Powerful Text EncodersLarge decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly ado
yoonschallenge.tistory.com
학습 데이터
항목 | 내용 |
사용된 데이터 | - 위키피디아 (Wikipedia) - Wikitext-103 데이터셋 - MTEB 벤치마크 데이터 |
이유 | - 위키피디아 데이터는 모든 실험 모델의 사전 훈련 데이터에 포함되었을 가능성이 높음. - 새로운 지식 학습이 아닌, 모델의 구조적 조정을 목표로 하기 때문에 위키 데이터를 활용. |
MNTP (마스킹된 다음 토큰 예측) 학습 데이터 | - Wikitext-103 사용. - 모델이 양방향 어텐션을 활용하도록 적응시키는 것이 목표. |
SimCSE (비지도 대조 학습) 학습 데이터 | - 위키피디아 데이터의 문장 샘플 사용. - Gao et al. (2021)에서 제공한 SimCSE용 위키 데이터 활용. |
훈련 데이터 크기 | - 전체 위키피디아에서 일부 샘플링하여 사용. - 라벨이 없는 비지도 학습 방식이므로, 추가적인 데이터 가공 불필요. |
특이사항 | - 기존 LLM 사전학습 데이터와 겹칠 가능성이 있지만, 논문에서는 새로운 지식 학습보다는 문맥 정보 활용 방식 개선을 목적으로 함. |
다음은 논문의 학습 데이터에 대한 정리입니다.
사용된 데이터셋 | - Wikitext-103 (Merity et al., 2017): MNTP(마스킹된 다음 토큰 예측) 훈련에 사용. - Wikipedia Subset (Gao et al., 2021): 비지도 대조 학습(SimCSE) 훈련에 사용. |
학습 데이터 선정 이유 | 실험 대상 모델들이 사전 학습(pre-training) 시점에서 Wikipedia 데이터를 포함했을 가능성이 높음 → 모델이 새로운 지식을 학습하는 것이 아니라, 기존 모델의 활용성을 극대화하기 위함. |
Masked Next Token Prediction (MNTP) 학습 | - 입력 시퀀스에서 일부 토큰을 무작위로 마스킹하고, 해당 토큰을 예측하는 방식으로 훈련. - 모델에 마스킹 토큰이 없으므로 언더스코어(_)를 마스킹 토큰으로 사용. - LoRA(Hu et al., 2022)로 파라미터 효율적인 미세 조정 진행. - 1000 스텝 동안 학습. - 배치 크기: 32 / GPU: 80GB A100 (1개 사용) - 7B/8B 모델 기준, 훈련 시간: 약 100분. |
비지도 대조 학습 (SimCSE) 학습 | - 같은 문장을 두 번 입력하여 다른 드롭아웃 마스크를 적용하고, 두 결과의 유사도를 높이는 방식으로 학습. - 모델이 문장 수준에서 강한 의미적 임베딩을 생성하도록 유도. - MNTP 훈련 후, LoRA 가중치를 기본 모델에 병합한 뒤 새로운 LoRA 파라미터를 학습. - 1000 스텝 동안 학습. - 배치 크기: 128 / GPU: 80GB A100 (1개 사용) - 7B/8B 모델 기준, 훈련 시간: 약 3시간. |
이 표를 보면 LLM2Vec의 학습 데이터와 훈련 과정을 한눈에 파악할 수 있습니다. Wikipedia 기반 데이터를 사용하며, MNTP + SimCSE 학습을 거쳐 모델의 임베딩 성능을 강화한다는 점이 핵심입니다.
LLM2Vec의 시퀀스 수준 (Sequence-Level) 평가 및 결과 정리
논문에서는 LLM2Vec의 텍스트 임베딩 성능을 검증하기 위해 Massive Text Embedding Benchmark (MTEB)를 활용하여 평가를 진행하였습니다. 평가의 세부적인 설정, 데이터, 비교 모델, 결과를 표로 정리하였습니다.
1. 평가 설정 및 데이터
항목 | 설명 |
평가 목적 | LLM2Vec가 디코더 전용 LLM을 강력한 문장 임베딩 모델로 변환하는지 검증. |
평가 데이터 | Massive Text Embedding Benchmark (MTEB) (Muennighoff et al., 2023) |
MTEB 구성 | - 총 7가지 카테고리, 56개 데이터셋 포함. - 다양한 NLP 임베딩 작업(정보 검색, 분류, 클러스터링, 의미적 유사성 평가 등) 포함. |
MTEB 평가 방식 | - 전체 MTEB 데이터셋(56개) 평가. - 15개 대표 작업 서브셋에서 모델의 성능을 사전 분석 후, 최적의 평가 방식 선택. - 다양한 Pooling 방법(EOS, Mean, Weighted Mean)을 비교 평가. |
평가 형식 | - 문장 임베딩 모델의 성능을 평가하기 위해 task-specific instructions(Su et al., 2023; Wang et al., 2023) 사용. - Echo embeddings(Springer et al., 2024)와 동일한 인스트럭션 세트 사용하여 공정한 비교 수행. |
비교 모델 | 1. Baseline (기본 디코더 모델): 기존 디코더 모델(인과적 어텐션)을 사용한 경우. 2. Echo embeddings (Springer et al., 2024): 동일한 입력을 반복하여 문맥을 확장하는 방식. 3. LLM2Vec 모델: MNTP 및 SimCSE 적용한 모델. |
평가 지표 | - 텍스트 검색 (Retrieval) - 순위 재배열 (Reranking) - 문장 분류 (Classification) - 문장 유사성 (STS, Sentence Similarity) - 클러스터링 (Clustering) |
2. 평가 결과
Pooling 방법 비교 | - 기존 EOS pooling 방식은 디코더 모델에서 비효율적. - Weighted Mean Pooling이 가장 우수한 성능을 보임. |
Bidirectional Attention | - 양방향 어텐션을 적용했을 때 S-LLaMA-1.3B와 LLaMA-2-7B에서는 성능 하락. - 그러나 Mistral-7B에서는 오히려 성능이 향상됨. |
LLM2Vec 효과 | - MNTP 학습 적용 후 모든 모델의 성능 향상. - SimCSE 적용 시, 성능 추가 향상: - S-LLaMA-1.3B: +49.8% - LLaMA-2-7B: +23.2% - Mistral-7B: +37.5% (MTEB 서브셋 기준). |
Full MTEB 성능 | - LLM2Vec 적용 시 모든 모델 성능 향상. - Mistral-7B: 16.4% 성능 향상. - LLM2Vec 적용한 Mistral-7B 모델이 비지도 학습 부문에서 SOTA(56.80점) 기록. |
Echo Embeddings와 비교 | - LLM2Vec는 Echo embeddings보다 더 효율적. - Echo embeddings는 입력을 반복하여 문맥을 확장하지만, 추론 시간이 2배 증가. - LLM2Vec는 입력 길이를 늘리지 않고 성능 향상 가능. |
3. 주요 결론 및 의미
LLM2Vec의 강점 | - 기존 디코더 모델보다 뛰어난 문장 임베딩 성능을 보임. - 비지도 학습(SimCSE)만으로도 높은 성능을 달성. - 연산량 증가 없이 효율적인 학습 가능(Echo embeddings 대비 장점). |
LLM2Vec의 한계 | - 일부 모델(S-LLaMA-1.3B, LLaMA-2-7B)에서 양방향 어텐션 적용 시 성능 하락. - SimCSE가 문장 임베딩에 효과적이지만, 단어 수준 작업에서는 오히려 성능이 하락할 수 있음. |
향후 연구 방향 | - 다른 NLP 작업에서도 LLM2Vec가 효과적인지 추가 연구 필요. - 다양한 데이터셋과 도메인에 적용 가능성 탐색. - SimCSE 대체 방법 연구 가능성 (단어 수준 성능 최적화). |
결론
- LLM2Vec는 기존 디코더 모델을 효과적인 문장 임베딩 모델로 변환할 수 있음.
- 양방향 어텐션과 MNTP 적용 시 대부분의 모델에서 성능 향상.
- SimCSE 추가 적용 시, 문장 수준 임베딩 성능이 크게 향상되며, 비지도 학습에서 새로운 SOTA 기록.
- Echo embeddings 대비 효율적이며, 동일한 계산량으로 더 높은 성능을 제공.
- 일부 모델에서는 양방향 어텐션 적용이 성능 저하를 유발할 수 있어, 모델별 세밀한 조정이 필요.
이 표를 통해 LLM2Vec의 평가 방식, 데이터, 결과 및 주요 결론을 한눈에 파악할 수 있습니다.
카테고리 | 설명 | Metric | 평가 의미 |
Retrieval (Retr.) | 사용자가 입력한 질문/쿼리에 대해 관련 문서를 검색하는 작업 | MRR (Mean Reciprocal Rank) nDCG (Normalized Discounted Cumulative Gain) |
- 검색 시스템에서 텍스트 임베딩 모델이 얼마나 효과적으로 관련 문서를 찾는지 평가 |
Reranking (Rerank.) | 이미 검색된 문서들 중에서 가장 관련성이 높은 순서로 다시 정렬 | MAP (Mean Average Precision) MRR |
- 검색 후 문서의 순위를 얼마나 잘 조정하는지 평가 |
Clustering (Clust.) | 문서나 문장들을 자동으로 그룹화하는 작업 | NMI (Normalized Mutual Information) ARI (Adjusted Rand Index) |
- 텍스트 임베딩 모델이 비슷한 의미의 문장을 잘 그룹화하는지 평가 |
Pairwise Classification (PairClass.) | 두 문장이 주어졌을 때, 의미적으로 같은지 여부를 분류하는 작업 | Accuracy F1-score |
- 모델이 두 개의 문장이 같은 의미인지 구별하는 능력 평가 |
Text Classification (Class.) | 문장을 보고 카테고리(Label)로 분류하는 작업 | Accuracy F1-score |
- 모델이 주어진 문장의 의미를 이해하고 적절한 레이블을 예측하는지 평가 |
Semantic Text Similarity (STS) | 두 문장의 의미적 유사도를 0~1 범위로 점수화하는 작업 | Spearman’s Rank Correlation | - 모델이 두 문장이 같은 의미인지 수치적으로 평가하는 능력 측정 |
Summarization (Summ.) | 긴 문서를 읽고 요약문을 생성하는 작업 | ROUGE Score | - 모델이 긴 문서의 핵심 내용을 얼마나 잘 요약하는지 평가 |
Echo embedding과도 비교를 진행함
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models - 논문 리
https://arxiv.org/abs/2405.17428 NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding ModelsDecoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose
yoonschallenge.tistory.com
이 논문도 LLM을 Embedding 모델로 변환해서 사용한 논문입니다.
학습 데이터 셋
1. 검색 데이터셋 (Retrieval Datasets)
MS MARCO | 대규모 웹 문서 검색 데이터셋. 웹 검색 쿼리와 관련 문서를 포함 (Bajaj et al., 2016). |
HotpotQA | 다중 홉(hop) 검색을 포함하는 QA 데이터셋. 장문의 정보를 필요로 하는 검색 문제 해결 (Yang et al., 2018). |
Natural Questions | 구글 검색 결과를 기반으로 한 질의응답 데이터셋 (Kwiatkowski et al., 2019). |
PAQ | 65M개의 질문-문서 쌍을 포함한 대규모 질의응답 데이터셋 (Lewis et al., 2021). |
Stack Exchange | Stack Exchange 커뮤니티에서 수집한 질의응답 데이터셋 (StackExchange-Community, 2023). |
SQuAD | 문서 내에서 특정 질문에 대한 답변을 찾는 데이터셋 (Rajpurkar et al., 2016). |
ArguAna | 반대 주장을 검색하는 데이터셋. 토론 기반 검색 평가 (Wachsmuth et al., 2018). |
BioASQ | 생의학 논문에서 질문에 대한 답변을 검색하는 데이터셋 (Tsatsaronis et al., 2015). |
FiQA | 금융 및 경제 관련 질의응답 데이터셋 (Maia et al., 2018). |
FEVER | 팩트 체크를 위한 검색 데이터셋. 주어진 주장에 대한 증거 문서를 검색 (Thorne et al., 2018). |
HoVer | 복잡한 사실 검증을 위한 데이터셋 (Jiang et al., 2020). |
SciFact | 과학 논문에서 사실 검증을 위한 검색 데이터셋 (Wadden et al., 2022). |
NFCorpus | 뉴스 및 온라인 기사에서 정보 검색을 위한 데이터셋. |
MIRACL | 다국어 정보 검색을 포함하는 데이터셋 (Zhang et al., 2023). |
Mr.TyDi | 다국어 검색 성능 평가를 위한 데이터셋 (Zhang et al., 2021). |
2. 비검색 데이터셋 (Non-Retrieval Datasets)
NV-Embed 모델은 검색 이외의 분류(classification), 클러스터링(clustering), 문서 유사도(semantic textual similarity, STS) 작업도 포함하여 학습되었습니다.
2.1 분류 데이터셋 (Classification Datasets)
Amazon Reviews | 아마존 고객 리뷰를 긍정/부정으로 분류하는 데이터셋 (McAuley & Leskovec, 2013a). |
Amazon Counterfactual | 제품 리뷰에서 반사실적(counterfactual) 표현을 탐지하는 데이터셋 (O’Neill et al., 2021). |
Banking77 | 온라인 뱅킹 관련 질의의 의도를 분류하는 데이터셋 (Casanueva et al., 2020). |
Emotion | 감정을 분류하는 트위터 기반 데이터셋 (Saravia et al., 2018). |
IMDb | 영화 리뷰를 긍정/부정으로 분류하는 데이터셋 (Maas et al., 2011). |
MTOP Domain/Intent | 대화형 AI에서 사용자의 의도를 분류하는 데이터셋 (Li et al., 2021). |
Toxic Conversations | 댓글의 독성 여부를 분류하는 데이터셋 (Adams et al., 2019). |
Tweet Sentiment Extraction | 트윗의 감정을 분석하는 데이터셋 (Maggie, 2020). |
Amazon Polarity | 아마존 리뷰를 긍정/부정으로 분류하는 데이터셋 (McAuley & Leskovec, 2013b). |
Massive Scenario/Intent | 대화형 AI에서 사용자 시나리오 및 의도를 분류하는 데이터셋 (FitzGerald et al., 2022). |
2.2 클러스터링 데이터셋 (Clustering Datasets)
Arxiv (raw_arxiv) | Arxiv 논문을 주제별로 클러스터링하는 데이터셋. |
Biorxiv (raw_biorxiv) | Biorxiv 논문의 주요 주제 클러스터링 데이터셋. |
Medrxiv (raw_medrxiv) | Medrxiv 논문의 주요 주제 클러스터링 데이터셋. |
TwentyNewsgroups | 뉴스 기사를 주제별로 클러스터링하는 데이터셋 (Lang, 1995). |
Reddit 게시물을 주제별로 클러스터링하는 데이터셋 (Geigle et al., 2021). | |
Stack Exchange | Stack Exchange 게시물을 주제별로 클러스터링하는 데이터셋 (Geigle et al., 2021). |
Reddit P2P | Reddit의 질문-답변 데이터를 기반으로 클러스터링 (Reimers, 2021b). |
StackExchange P2P | Stack Exchange의 질문-답변 데이터를 기반으로 클러스터링 (Reimers, 2021a). |
2.3 문서 유사도 데이터셋 (Semantic Textual Similarity, STS Datasets)
STS12 | 문장 간 의미적 유사도를 평가하는 데이터셋 (Agirre et al., 2012). |
STS22 | STS12의 확장 버전으로, 더 다양한 문장 쌍을 포함 (Chen et al., 2022). |
STS-Benchmark | 일반적인 문장 유사도 평가를 위한 데이터셋 (Cer et al., 2017). |
3. 합성 데이터셋 (Synthetic Tasks Dataset)
Mixtral-8x22B-Instruct-v0.1 | 명령어 기반 합성 데이터를 생성하여 훈련 데이터의 다양성을 증가시킴. |
생성된 데이터 수량 | 120,000개 샘플, 60,000개 작업 예시 생성. |
생성 방식 | E5-Mistral-7B-Instruct의 프롬프트 방식을 조정하여 데이터 생성. |
포함된 예제 유형 | 단문-장문(short-long), 장문-단문(long-short), 단문-단문(short-short) 생성. |
MTEB Score입니다!
Retrieval (검색) | 쿼리에 대한 문서 검색 성능 측정 | 62.65 |
Rerank (재순위) | 검색된 문서의 순위 최적화 | 60.65 |
Clustering (군집화) | 텍스트 데이터를 유사한 그룹으로 분류 | 58.46 |
Pair Classification | 문서 쌍이 같은 클래스에 속하는지 예측 | 88.67 |
Classification (분류) | 개별 문서를 미리 정의된 클래스에 할당 | 90.37 |
STS (Semantic Textual Similarity) | 문장 간 의미적 유사성 측정 | 84.31 |
Summarization (요약) | 문서의 핵심 내용을 요약하는 성능 평가 | 30.7 |
Beir (Benchmarking Information Retrieval) 도 진행했습니다.
정보 검색 모델 성능을 평가하는 벤치마크
Air-Bench (Advanced Information Retrieval Benchmark) 도 진행
특정 도메인의 검색 성능 평가
벤치 마크 | 평가 항목 | NV-Embed-v2 성능 |
MTEB | 56개 임베딩 작업 평균 | 72.31 (1위) |
BEIR | 정보 검색 성능 | 62.65 |
AIR-Bench | 긴 문서 검색 (Recall@10) | 74.78 (1위) |
AIR-Bench | QA 성능 (nDCG@10) | 52.28 (2위) |
토큰 별로 임베딩도 진행 했네요
Instruction도 공개되어 있습니다.