인공지능/논문 리뷰 or 진행

Expand, Highlight, Generate: RL-driven Document Generation for Passage Reranking

이게될까 2025. 7. 6. 16:47
728x90
728x90

https://aclanthology.org/2023.emnlp-main.623/

 

Expand, Highlight, Generate: RL-driven Document Generation for Passage Reranking

Arian Askari, Mohammad Aliannejadi, Chuan Meng, Evangelos Kanoulas, Suzan Verberne. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023.

aclanthology.org

 

IR 데이터 증강을 위해 나온 논문이네요 

타겟하는 연구와 조금은 거리가 있지만 Doc를 생성 어떻게 하는지 위주로 한번 보고 넘어가겠습니다. 

 

DocGen의 구조를 잘 표현해 줬습니다. 

쿼리를 통해 Doc를 만들고, 불일치하거나 이상한 것들 걸러내고, Reranker를 학습시킨다!

 

original 쿼리에서 어떻게 확장시키는지, 그에 대한 Doc는 어떻게 나오는지를 보여주고 있습니다.

Highlighting을 통해 정당화를 하려는 듯한 느낌을 받네요 

 

사람이 만든 데이터에 비해선 성능이 떨어지지만 그래도 높은 성능을 내는 것을 볼 수 있습니다.

 

 

근데 Hallucination과 bias에 대한 대책은 좀 아쉽긴 하네요 ㅎㅎ.. 


📌 문제 상황 기존 IR 데이터 증강 방식은 대부분 문서 → 쿼리 생성 방식
→ 실제 사용자 정보 탐색 방식(쿼리 → 문서)과 다르고, 복잡한 쿼리 학습에 비효율적
🧠 제안 방법론 DocGen: 쿼리 기반 문서 생성 3단계 파이프라인 제안
1️⃣ Query Expansion
2️⃣ Query Highlighting
3️⃣ Document Generation + Filtering

DocGen-RL: Query Highlighting 단계를 강화학습(PPO)으로 최적화
⚙️ 주요 기법 - LLM(BLOOM-560M) 사용하여 few-shot prompting 기반 생성
- 하이라이팅에 [ ] 사용해 LLM memory 유도
- Consistency Filtering으로 low-quality 제거
- MonoT5 reranker로 최종 fine-tuning
📊 주요 결과 - DocGen-RL이 기존 SOTA (InPars, GenRead 등) 대비 nDCG@10 최대 +0.18 향상
- Supervised (MS MARCO) 모델 성능에 근접
- Highlighting + RL 조합이 가장 효과적 (Ablation으로 확인)
- 문서 길이, 중복률 등도 인간 데이터에 더 유사
✨ 주요 기여 ① 기존 문서→쿼리 패러다임을 쿼리→문서 생성으로 전환
② 하이라이팅을 통해 LLM 제어 및 품질 개선
③ 강화학습(PPO)을 통해 LLM 하이라이팅 전략 자동 최적화
④ 공개 LLM(BLOOM)을 활용한 재현 가능한 파이프라인 제공
⑤ 다양한 IR 벤치마크에서 SOTA 성능 달성
⚠️ 한계 - LLM의 편향성과 hallucination 문제 미분석
- RL 학습 비용 및 안정성 이슈 존재
- 멀티도큐먼트 IR, 멀티링구얼 IR 등 다른 설정에 확장 미검증
- Closed-source LLM과 비교/활용 안 함
🧾 활용 가능성 - IR, QA, RAG 등에서 학습 데이터 자동 생성기로 활용 가능
- 도메인 특화 검색 시스템에서의 low-resource 대응 수단으로 적합

 

 

https://arxiv.org/abs/2212.10496

 

Precise Zero-Shot Dense Retrieval without Relevance Labels

While dense retrieval has been shown effective and efficient across tasks and languages, it remains difficult to create effective fully zero-shot dense retrieval systems when no relevance label is available. In this paper, we recognize the difficulty of ze

arxiv.org

이 논문에서도 Doc를 만들 긴 했습니다.

그러나 Doc를 Retriever에 넣어 Query 대신에 활용한 것이 차이점이긴 하네요

📌 문제 상황 - Relevance label 없이도 효과적인 dense retrieval을 수행해야 함
- 기존 unsupervised dense retrievers (예: Contriever)는 성능이 낮음
- 학습된 retriever는 대규모 라벨링 데이터(MS-MARCO 등)에 의존
💡 제안 방법 (HyDE) - LLM으로 query 기반 가상 문서(hypothetical doc) 생성
- 이 문서를 contrastive encoder로 임베딩하여 실제 문서들과 similarity 기반 검색 수행
- 즉, query → 문서 생성 → 문서 임베딩 → 검색
⚙️ 구성 요소 - InstructGPT: query에 대해 instruction 기반 문서 생성
- Contriever: 생성 문서를 임베딩하여 corpus와 비교
- Instruction 예: “Please write a passage to answer the question” 등 task별로 다름
🧪 주요 결과 - Web Search, BEIR, Multilingual 등 다양한 benchmark에서 BM25, Contriever 대비 월등한 성능
- 일부 task에서는 MS-MARCO fine-tuned 모델(ContrieverFT)과 비슷한 수준
✅ 기여 - relevance label 없이도 zero-shot DR 성능 극대화
- query → doc로 의미를 명시화함으로써 모호성 해소
- generation + retrieval을 결합한 새로운 retrieval paradigm 제시
- 학습 없이도 강력한 retrieval 수행 가능
⚠️ 한계 - LLM 추론 비용: 생성 시간 및 latency 증가
- Retriever 학습 불가: query에 직접 대응되는 임베딩 학습 어려움
- 다국어 확장성 제한: low-resource 언어에서는 LLM과 encoder 모두 성능 저하
- end-to-end 최적화 불가: 생성과 retrieval이 분리되어 있음

 

더보기

좋은 질문이에요!
IR (Information Retrieval, 정보 검색) 데이터 증강이란, 검색 시스템(예: Google, 네이버, ChatGPT-RAG)이 학습에 사용할 수 있는 훈련 데이터를 인위적으로 생성하거나 확장하는 것을 의미합니다.


🔍 IR 데이터 증강이 왜 필요한가?

정보 검색 모델(특히 딥러닝 기반 모델)을 훈련하려면 다음 같은 형태의 데이터가 많이 필요해요:

  • 쿼리 (Query): 사용자가 입력하는 질문 또는 검색어
    예: “임신 중 카페인 섭취량은?”
  • 문서 (Document): 쿼리에 대해 관련된 정보가 포함된 텍스트
    예: “의사들은 임신 중 하루 200mg 이하의 카페인 섭취를 권장합니다.”
  • 라벨 (Relevance Label): 문서가 쿼리와 얼마나 관련 있는지 표시
    예: 0점 (무관) ~ 2점 (매우 관련)

→ 이런 쿼리-문서-라벨 삼종세트를 수동으로 만드는 건 시간도 오래 걸리고 비용도 큼.


💡 그래서 필요한 게 IR 데이터 증강

✅ 정의:

기존의 소수 데이터 또는 무라벨 데이터에서 LLM 같은 생성 모델을 이용해 추가적인 (synthetic) 학습 데이터를 만들어내는 기법


🧠 어떻게 증강할까?

접근법 설명 예시
문서 → 쿼리 생성 기존 문서에서 질문(쿼리)을 생성 “카페인 섭취량 200mg” → “임신 중 하루 카페인은 얼마나 먹어야 해?”
쿼리 → 문서 생성 (DocGen) 쿼리에서 그에 맞는 문서를 생성 “임신 중 카페인 양?” → “전문가들은 임신 중 하루 카페인 섭취를 200mg 이하로 제한해야 한다고 권장한다.”
질문 확장 / 하이라이팅 짧은 쿼리를 더 구체화하거나, 중요한 단어 강조 “임신 카페인” → “What is the [recommended] amount of [caffeine] during [pregnancy]?”
패러프레이즈 / 유사 쿼리 생성 같은 의미의 다른 표현 쿼리 생성 “카페인 제한량?” ↔ “하루 카페인 섭취 기준은?”

🎯 왜 중요한가?

  • 라벨링 비용 절감
  • 다양한 질의에 대한 일반화 향상
  • 제로샷/소수 샷 학습에도 성능 향상
  • ✅ 특히 ChatGPT + RAG 시스템 학습에도 매우 유용

📌 IR 데이터 증강은 어디에 활용될까?

  • 검색 엔진 (구글, Bing)
  • QA 시스템 (ChatGPT-RAG)
  • 전자상거래 검색 (쿠팡, 아마존)
  • 법률/의료 문서 검색 시스템
  • 논문 검색 (Semantic Scholar, arXiv AI Search)

 


🔍 1. 배경: 정보 검색(IR)에서의 데이터 증강

정보 검색(Information Retrieval, IR) 시스템은 사용자 쿼리와 관련된 문서를 정확히 찾아주는 시스템입니다.
이러한 시스템을 잘 학습시키기 위해선 대량의 쿼리-문서-정답(관련도) 데이터가 필요합니다.

하지만 현실적으로:

  • 모든 도메인에 대해 레이블된 데이터를 구축하기 어렵고
  • 특히 zero-shot 또는 low-resource 환경에서 성능이 저하됩니다.

그래서 최근에는 LLM (대형 언어 모델)을 활용한 데이터 증강 방식이 주목을 받고 있습니다.


🧠 2. 관련된 주요 기존 연구

  핵심 아이디어 한계점
InPars 🔹 문서 → 쿼리 생성
🔹 LLM으로 문서에서 쿼리를 생성해 synthetic query-document 쌍 생성
❌ 생성된 쿼리가 실제 사용자 쿼리와 다름 (lexical overlap 과다)
❌ 복잡한 쿼리에 잘 대응 못함
Promptagator 🔹 문서 기반 쿼리 생성 + filtering
🔹 문서마다 커스텀 프롬프트 사용
❌ 다양한 도메인이나 쿼리 복잡성에 따라 일반화 어려움
GenRead 🔹 쿼리 → 문서 생성, open-domain QA 목적
🔹 문서를 생성 후 그 위에서 QA 수행
❌ 문서 생성은 목적이지만 IR 데이터 증강 목적은 아님
❌ reranker 학습에 최적화되지 않음
Query2Doc (Q2D)  🔹 쿼리 → 문서 생성으로 쿼리 확장 (expansion 목적)
🔹 기존 검색 모델과 병렬 사용
❌ 생성된 문서를 IR 모델 학습에 직접 사용하지 않음

📌 3. 기존 연구의 한계점 요약

  1. 문서 → 쿼리 방식의 구조적 한계
    → 실제 검색 시나리오는 쿼리를 기반으로 관련 문서를 찾는 것인데, 거꾸로 학습
  2. 쿼리 다양성과 복잡도 미반영
    → 기존 방식은 간단한 쿼리에만 잘 동작하며, 멀티호프/복합 정보 요구를 반영하지 못함
  3. 생성 쿼리-문서 간의 과도한 단어 중복 (lexical overlap)
    → 이는 실제 사용자의 검색 방식과 다른 인위적인 쿼리 형태를 만들어냄
  4. 문서 생성은 QA나 Expansion 목적으로만 사용됨
    문서 생성 결과를 IR 모델 학습 데이터로 활용한 사례는 거의 없음

🌟 4. 그래서 나온 논문: DocGen & DocGen-RL

이 논문은 위 한계를 극복하고자 다음과 같은 새로운 관점을 제시합니다:

✅ 핵심 제안

“문서에서 쿼리를 생성하는 게 아니라, 쿼리에서 문서를 생성하자.”

📌 구체적 기여

구성 요소 역할 기존 연구와의 차이점
DocGen 쿼리를 확장하고 강조해서 synthetic 문서 생성 🔄 기존은 문서 기반 쿼리 생성(InPars)
📈 실제 사용자 검색 시나리오 반영
Highlighting LLM의 memory를 유도하여 더 좋은 문서 생성 🧠 기존에는 단순 텍스트 입력만 사용
📌 square brackets 등으로 attention 유도
DocGen-RL 강화학습으로 하이라이팅 전략을 최적화 🧪 이전 연구는 하이라이팅 전략 수동
🏆 DocGen은 PPO로 자동 최적화
Consistency Filtering 생성된 쿼리–문서 쌍의 품질을 자동 필터링 ✔️ Promptagator 방식과 유사하지만, DocGen은 생성 문서 기준

📈 5. 실험 결과로 보는 유의미한 차이

모델  nDCG@10 (NQ 기준)
InPars 0.337
GenRead 0.368
Q2D 0.309
DocGen 0.467
DocGen-RL 0.517
Human supervised (MSMARCO) 0.567

DocGen은 기존 SOTA보다 0.13~0.20 이상 성능 우수
→ RL을 적용한 DocGen-RL은 human-supervised 모델에 근접


✨ 결론: 이 논문이 중요한 이유

💡 새로운 방향 제시 기존 “문서→쿼리”의 한계를 지적하고, “쿼리→문서” 패러다임으로 전환
🛠 LLM 능력 최적 활용 few-shot + 하이라이팅 + RL을 통한 LLM의 생성 능력 극대화
🧪 실험적 효과 검증 여러 데이터셋에서 SOTA 성능 달성, 실제 인간 쿼리와 유사한 분포 보장
🔁 재사용 가능성 오픈소스로 코드/데이터 모두 공개 → 재현성과 확장성 우수

 

 

✅ 목적 재정의

기존 IR 데이터 증강은 대부분 문서 → 쿼리 방식이었으나,
이 논문은 “쿼리 → 문서” 방향으로 전환해 synthetic 문서를 생성하여 passage reranker 학습용 데이터로 활용하는 것이 핵심입니다.


🔧 전체 구조 개요

        사용자 쿼리
             ↓
      [1] Query Expansion
             ↓
     [2] Query Highlighting
             ↓
 [3] Synthetic Document Generation
             ↓
     [4] Consistency Filtering
             ↓
 [5] MonoT5 Reranker Fine-tuning
  • 강화학습을 통해 ② Query Highlighting 단계를 최적화하는 것이 DocGen-RL입니다.

1️⃣ Query Expansion

역할: 짧거나 불완전한 쿼리를 LLM이 이해할 수 있도록 자연어로 확장하여 명확하게 만듦

🔹 예시

  • 원본 쿼리:
    “caffeine during pregnancy”
  • 확장 쿼리 (by DocGen):
    "What is the recommended amount of caffeine intake during pregnancy, and are there any potential risks?"

🔹 구현 방식

  • few-shot prompting 사용
  • 3개의 쿼리-확장 쌍을 포함한 프롬프트로 BLOOM-560M 같은 LLM에 입력

2️⃣ Query Highlighting

역할: 확장된 쿼리에서 핵심 개념어를 강조해 LLM의 attention을 유도

🔹 예시

확장 쿼리:
What is the recommended amount of caffeine intake during pregnancy...?

하이라이팅 결과:
What is the recommended amount of [caffeine] intake during [pregnancy]...?

🔹 핵심 기법

  • 문장 내 핵심 단어를 square brackets [ ]로 감쌈
  • 이유: BLOOM 사전학습 데이터에서 [ ] 안의 단어는 중요 단서로 작용하는 경향 (Weller et al., 2023의 실험 기반)

3️⃣ Synthetic Document Generation

역할: 확장+하이라이트된 쿼리를 기반으로 relevant synthetic document 생성

🔹 예시

쿼리:
What is the [recommended] amount of [caffeine] intake during [pregnancy]?

생성 문서 (예시):

"Health experts recommend limiting caffeine intake during pregnancy to less than 200 milligrams per day. Excessive caffeine may increase risks of miscarriage or low birth weight..."

🔹 구현

  • few-shot prompting 기반 (3개 예시 포함)
  • 쿼리 + 문서 쌍을 예시로 제공
  • BLOOM-560M 사용

4️⃣ Consistency Filtering

역할: LLM이 생성한 문서 중 쿼리와 관련성이 낮은 것 제거

🔹 방법

  1. 앞서 생성된 쿼리-문서 쌍으로 MonoT5-CF를 학습
  2. 각 쿼리에 대해 top-1으로 선택되는 문서만 retention
  3. 나머지는 버림

→ DocGen의 품질 확보 핵심


5️⃣ MonoT5 Reranker Fine-tuning

역할: 필터링된 synthetic 쿼리–문서 쌍으로 MonoT5 reranker 모델 학습

🔹 모델 세팅

  • MonoT5-base (220M)
  • Batch size 64, learning rate 1e-3
  • MS MARCO, NQ 등 다양한 데이터셋에 적용

🎮 DocGen-RL: RL 기반 하이라이팅 최적화

문제점:
기존의 하이라이팅은 few-shot에만 의존 →
중요하지 않은 단어 (예: “is”, “the”)를 강조하거나, 누락된 키워드 발생

👉 해결: Query Highlighting 단계에 강화학습 적용 (PPO)


🔸 강화학습 구성요소

Agent 하이라이팅하는 LLM (Policy LM)
Action 어떤 단어에 하이라이팅할지 결정
State 현재까지 하이라이팅된 쿼리
Reward 하이라이팅된 쿼리 → 문서 생성 → DocGen Reranker가 예측한 relevance score

🔹 학습 목적 수식

RL 최적화 목표:

  • x: 쿼리
  • z: 하이라이팅된 쿼리
  • y: 생성된 문서
  • R(x,y): DocGen Reranker가 예측한 relevance 점수

🔹 RL 하이라이팅 예시

입력 쿼리:
“how does bluetooth work?”

RL Agent의 Output (하이라이팅):
“how does [bluetooth] [work]?”

문서 생성 결과 → DocGen Reranker가 높게 평가 → 보상 ↑


🧪 실험적 검증: Ablation 결과

실험 조건 nDCG@10 (NQ)
DocGen (전체 적용) 0.467
w/o Expansion 0.370
w/o Highlighting 0.363
w/o 둘 다 0.351
DocGen + RL 하이라이팅 0.517
RL on Expansion 0.473
RL on Generation 0.448

Highlighting + RL 조합이 가장 중요하고 효과적


📌 요약

단계 기술 설명
① 쿼리 확장 Few-shot prompting LLM이 더 잘 이해하도록 자연어화
② 중요 단어 강조 [ ] 강조 + RL 최적화 attention 유도 + RL로 자동화
③ 문서 생성 LLM 활용 (BLOOM) 쿼리에 대한 관련 문서 생성
④ 품질 필터링 MonoT5-CF low-relevance 제거
⑤ 학습 MonoT5 Fine-tune reranker 최종 학습

이 방식은 기존 데이터가 부족한 도메인에서도 풍부한 학습 데이터를 자동으로 생성할 수 있고, 생성된 데이터는 실제 사용자 검색과 더 유사한 구조를 가지므로 일반화 성능이 우수합니다.

 


✅ 1. 결과 (Experimental Results)

논문에서는 다양한 IR 벤치마크에서 DocGenDocGen-RL의 성능을 기존 데이터 증강 기법들과 비교했습니다.

📊 핵심 결과 표 (nDCG@10 기준)

모델  NQ  MS MARCO TREC-DL’20 HotpotQA Fever
BM25 (1st stage) 0.329 0.187 0.286 0.480 0.651
InPars (SOTA) 0.337 0.223 0.357 0.569 0.653
GenRead 0.368 0.230 0.354 0.570 0.668
DocGen 0.467 0.275 0.398 0.580 0.693
DocGen-RL 0.517 0.332 0.421 0.618 0.720
Human supervised (MSMARCO) 0.567 0.381 0.491 0.714 0.802

🔍 추가 분석 결과

  • DocGen-RL은 기존 SOTA 대비 최대 0.18점 이상 성능 향상 (NQ 기준)
  • Scaling 효과: LLM (BLOOM-3B) 또는 MonoT5 (T5-large) 크기를 키우면 성능 향상
  • Highlighting + RL 조합이 가장 효과적임 (Ablation Study로 확인)
  • 생성 데이터와 실제 인간 데이터의 질적 유사성↑, 중복도↓
  • Supervised 모델과의 간극도 작음 (DocGen-RL은 supervised MonoT5-MS MARCO에 거의 근접)

🧠 2. 결론 (Conclusion)

핵심 결론 요약:

  1. 쿼리 기반 문서 생성 (Query → Document)은 IR 데이터 증강에서 효율적이고 실제적인 대안이 될 수 있다.
  2. LLM의 few-shot + 하이라이팅 + 강화학습을 조합하면 고품질 synthetic 문서를 생성 가능하다.
  3. DocGen 및 DocGen-RL은 MS MARCO, BEIR, TREC-DL 등 다양한 데이터셋에서 기존 SOTA보다 우수한 reranking 성능을 달성한다.
  4. 적절한 filtering과 reward 설계를 통해 RL을 LLM 기반 데이터 생성에 안정적으로 적용할 수 있음을 보였다.

✨ 3. 기여 (Contributions)

기존의 문서→쿼리 방식이 아닌, 쿼리→문서 생성 방식이라는 새로운 패러다임 제시
쿼리 확장 + 하이라이팅 + 문서 생성을 연결한 DocGen 파이프라인 제안
하이라이팅 과정을 강화학습(PPO)로 최적화한 DocGen-RL을 제안
다양한 벤치마크(IR, QA, Reranking)에서 SOTA 성능을 달성
오픈소스 제공: 코드, 데이터셋, 프롬프트 공개 (https://github.com/arian-askari/docgen)

⚠️ 4. 한계 (Limitations)

📌 LLM의 편향성 LLM이 가진 사회적/문화적 편향이 synthetic 문서에 그대로 반영될 가능성 있음
📌 Factual Hallucination 생성 문서가 사실과 다를 수 있음. IR에서는 큰 문제가 아닐 수도 있으나, QA나 실제 응답 생성에는 위험함
📌 RL 안정성 & 비용 PPO 기반 RL 학습은 상대적으로 비용이 크고 튜닝이 복잡
📌 확장성 미검증 Multi-hop retrieval, cross-lingual IR, multilingual IR 등 다양한 IR setting에서 검증 부족
📌 Closed-source LLM 미포함 GPT-4 등 상업 모델과의 비교나 활용은 피함 (공정성 고려)

📌 정리: 이 논문의 의미

이론적 기여 IR 데이터 증강에서의 문서 생성 기반 접근 가능성을 체계적으로 증명
기술적 기여 LLM의 컨트롤(하이라이팅)과 강화학습 결합을 통해 질 높은 생성 문서 자동화
실용적 기여 Human-annotated dataset 없이도 SOTA 수준의 reranker 학습 가능성 제시
재현성 & 활용도 프롬프트, 데이터, 코드까지 공개 → 타 연구자들도 쉽게 실험/확장 가능

DocGen과 DocGen-RL은 LLM 기반 IR 학습 데이터 생성의 새로운 기준이 될 수 있으며, 향후 QA 시스템, RAG 구조, 도메인 특화 IR 등에서 기초 기술로 활용될 수 있습니다.

 

맞습니다. 현재로서는 LLM이 생성하는 문서의 편향(bias)이나 hallucination(환각, 사실왜곡)완전히 제거하기 어렵고, 어느 정도 “어쩔 수 없는 한계”로 받아들여지고 있습니다.
하지만, 이걸 그대로 방치하자는 의미는 아닙니다. 아래에서 구체적으로 설명드릴게요.


📌 왜 LLM은 편향과 hallucination을 유발할까?

Pretraining corpus 편향 LLM은 인터넷 기반 대규모 데이터로 학습됨 → 특정 문화, 성별, 지역, 이데올로기, 언어 사용 등에 편향 내재
확률적 생성 특성 LLM은 확률적으로 다음 단어를 예측 → “그럴듯하지만 사실과 다른” 문장을 만들어내기 쉬움
정보 연결의 맥락 손실 특히 multi-hop이나 오래된 주제일 경우, 사실 관계가 왜곡되거나 누락될 수 있음
지식 최신성 문제 Pretraining 시점 이후의 정보는 반영되지 않음 → 오래된 정보 or 부정확한 추정 사용

🧪 이 논문에서의 현실적인 접근

논문에서도 이 문제를 인식하고 있습니다:

“LLM의 hallucination이 IR에서는 치명적이지 않을 수 있다.”
왜냐하면: 실제로는 retriever가 문서를 걸러주기 때문에, hallucinated 문서가 랭킹 상위에 올라오지 않을 수도 있음

하지만,

  • 생성된 문서로 학습된 reranker는 잘못된 정보에 기반해 편향된 판단 기준을 학습할 수 있음
  • 특히 RAG, QA, 또는 법률/의료 분야에서는 hallucinated 문장이 직접 사용자 응답으로 이어질 수 있어 위험

🔍 현재 가능한 대책 (불완전하지만 유효한 방향들)

Consistency Filtering 논문처럼 retriever 기반 필터링으로 불일치하는 문서 제거
RL-based Reward Design DocGen-RL처럼 정확도 기반 reward 설계 → factual score, entailment score 등 도입 가능
Fact-checking 모델 연계 생성된 문서를 사후 검증(fact-checking)하거나, external verifier 도입
Instruction tuning LLM에게 “사실에 근거해서만 생성하라”는 명시적 프롬프트 or 데이터로 학습시킴
Human-in-the-loop 민감한 도메인에서는 반드시 사람의 검토가 필요한 데이터로 구분해야 함

📌 결론적으로

LLM의 편향과 hallucination은 완전히 막을 수는 없지만, "제어"하고 "감지"하고 "완화"할 수는 있습니다.
특히 IR처럼 모델이 직접 답을 주는 게 아니라, “문서의 관련성”을 판단하는 구조라면 그 영향은 비교적 덜 치명적이지만,
훈련된 모델이 잘못된 기준을 학습할 가능성은 늘 존재하므로 주의가 필요합니다.


🔧 당신이 할 수 있는 조치 예시 (연구자로서)

  • 생성 문서에 대해 Named Entity Consistency 평가 추가
  • reward로 semantic consistency classifier를 사용한 DocGen-RL 변형 실험
  • hallucination-prone query 유형을 별도로 추출하고 분석
  • open-source LLM 간의 편향 차이를 비교하는 실험 설계
728x90