Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts?
https://arxiv.org/abs/2401.11911
Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts?
While auxiliary information has become a key to enhancing Large Language Models (LLMs), relatively little is known about how LLMs merge these contexts, specifically contexts generated by LLMs and those retrieved from external sources. To investigate this,
arxiv.org
LLM기반 QA 시스템은 검색된 문서를 활용하거나, 생성한 문서를 활용해 Question을 해결하지만 두 문맥이 서로 상충할 때 어떤 문맥을 기반으로 답변핳는지에 대한 연구는 부족했다!
=> 상반된 문맥을 주고 LLM이 어느 쪽을 따르는지 실험을 진행!
QA를 해결하는 방법 2가지와 그 2가지를 합친 하이브리드 방식!
검색문서냐 생성 문서냐에 따라서 답변 생성이 다르다.
데이터셋을 만드는 과정을 보여준다
생성된 답이 검색한 문서나, 생성한 문서에 있는지 확인하는 과정을 거쳐 내부 파라미터로 답변한 것이 아닌지 확인하는 과정도 거친다.
이제 정답이 오직 한 문맥에만 포함되어있는 상황을 구성하여 LLM이 어떤 문맥을 선택하는지 명확히 평가가 가능하다.
데이터 셋 설명 표
결국 모든 모델들이 생성 Doc를 고른다는 것을 알 수 있고, 검색 문서에 답이 있으면 제대로 찾지 못하고 답을 틀리는 것을 알 수 있다.
🔎 문제 상황 (Problem) | LLM 기반 QA에서 검색된 문맥과 생성된 문맥이 상충(conflict)할 경우, LLM이 어떤 정보를 더 신뢰해 답변을 생성하는가? |
🎯 연구 질문 | ① LLM은 생성 문맥을 더 신뢰하는가? ② 어떤 요인이 이 편향을 유발하는가? ③ 이 편향은 다양한 조건에서도 유지되는가? |
🧪 방법론 (Method) | Answer Tracing Framework 설계: - 입력: (질문 q, 검색 문맥 dʳ, 생성 문맥 dᵍ) - 출력: LLM 답변이 aʳ(검색 기반)인지 aᵍ(생성 기반)인지 비교 - 정량 지표: DiffGR = (ρ_gen - ρ_ret) / (ρ_gen + ρ_ret) |
📂 데이터셋 | Context-Conflicting Dataset 구축: - 질문마다 생성/검색 문맥 쌍 구성 - 둘 중 하나만 정답 포함 (Exclusivity) - 답변이 문맥에 포함되도록 설정 (Traceability) - 사용: NQ, TriviaQA |
📊 주요 결과 (Results) | - AIR(정답=검색)에서도 LLM은 생성 문맥에 편향 (DiffGR > 0) - 모든 LLM에서 동일 현상 (GPT-4, GPT-3.5, LLaMA2) - Generator ≠ Reader 실험에서도 동일 - Retriever 종류(BM25, dense, gold) 무관하게 편향 지속 |
📌 편향 원인 (Cause) | ✅ 텍스트 유사도(Similarity): 생성 문맥은 질문과 유사도가 높음 ✅ 의미 완결성(Completeness): 생성 문맥은 문장이 더 자연스럽고 구조화됨 ❌ Parametric knowledge와는 무관 |
🧾 결론 (Conclusion) | - LLM은 생성된 문맥을 과도하게 신뢰 - 이는 검색 정확도가 높아도 정답을 무시할 수 있게 만들며, RAG 시스템에 구조적 리스크 초래 |
🧩 기여 (Contribution) | - LLM의 생성 문맥 편향 현상 실증 - 분석 프레임워크 + 데이터셋 + 정량 지표(DiffGR) 제안 - 유사도/완결성 등 편향 원인 분석 - LLM 기반 RAG 시스템의 보안/정확도 취약점 조명 |
⚠ 한계 (Limitation) | - QA 중심 분석: 타 태스크 적용 미확인 - 해결책 제안은 없음 - 단일 문맥만 사용 (다중 문맥 상호작용 미고려) - 유사도 제어 어려움 존재 |