Context Generation 후 Answer Generation! - Generate rather than Retrieve: Large Language Models are Strong Context Generators

인공지능/논문 리뷰 or 진행

Context Generation 후 Answer Generation! - Generate rather than Retrieve: Large Language Models are Strong Context Generators

이게될까 2025. 6. 30. 15:49

728x90

Generate rather than Retrieve: Large Language Models are Strong Context Generators

Knowledge-intensive tasks, such as open-domain question answering (QA), require access to a large amount of world or domain knowledge. A common approach for knowledge-intensive tasks is to employ a retrieve-then-read pipeline that first retrieves a handful

arxiv.org

실험을 진행해달라고 하길래 일단 관련 연구부터 찾아봤습니다...

그런데 떡하니 이런 논문이 2022년에 나왔네요 ㅎㅎ..

검색기를 생성기로 대체하여 GenRead를 달성한다!

생성한 문서가 검색한 문서보다 정답을 더 자주 포함한다고 논문에선 말하고 있음

단순히 생성만 진행하면 중복된 문서가 생성되기에 클러스터링을 통해 다양한 Doc를 생성할 수 있도록 진행

샘플링 방법을 사용하려고 해도 중복 내용이 많기에 클러스터링 방법을 활용

학습하지 않고도 높은 성능을 달성함!

근데 흠...

높긴 한데 CoT도 있었음 좋았겠네요

여기선 20개 까지지만 무슨 100개를 사용한 실험도 있네요 ㄷㄷ

100개는 학습도 너무 오래걸리니 10개만 사용하는 것으로 해서 학습했다고 합니다.

학습한 770B 모델이 학습하지 않은 770B 모델을 이기긴 하네요 ...

근데 결국 할루시 전파는 어쩔 수 없긴 하겠네요

문제 정의	기존 open-domain QA 등 knowledge-intensive task에서 ① 외부 문서 검색(retrieval)에 의존 ② retrieval 문서가 noisy하거나 질문과 약하게 연관 ③ 문서 업데이트/확장에 제약
기존 접근법 (Baseline)	Retrieve-then-Read 방식 (DPR + FiD 등) 질문 → 외부 corpus에서 문서 검색 → Reader가 정답 추론
핵심 아이디어	Generate-then-Read (GENREAD) 제안 문서를 외부에서 검색하지 않고, LLM이 직접 문서를 생성
기술 구성	1. 질문에 대해 LLM (예: InstructGPT)로 문서 생성 2. 생성된 문서가 중복될 수 있으므로 3. (질문+문서) embedding → K-means 클러스터링 4. 각 클러스터에서 샘플링한 문서를 in-context prompt로 사용하여 다양한 문서 생성 5. 생성된 문서들로 최종 정답 생성 (LLM 또는 FiD 사용)
적용된 Task / 데이터셋	🔹 Open-domain QA: TriviaQA, WebQ, NQ 🔹 Fact-checking: FEVER, FM2 🔹 Dialogue: WoW
Zero-shot 결과	GENREAD > InstructGPT (no-doc) 📈 TriviaQA +1.5 / WebQ +6.0 / NQ +7.1 EM 향상
Supervised 결과	GENREAD(FiD-xl) > DPR-FiD on TriviaQA, WebQ 📈 TriviaQA: 71.6 (vs. 66.3) 📈 WebQ: 54.4 (vs. 50.8) 📉 NQ: 45.6 (vs. 50.1) (시간 의존성 때문)
추가 실험 분석	✅ Recall@K: 클러스터링 기반 문서가 Google, DPR보다 정답 포함률 우수 ✅ Readability: LLM 문서가 인간과 모델 모두에게 더 이해하기 쉬움 ✅ Answer coverage: 다양한 정답 포함 비율 ↑ ✅ DPR + GENREAD 병합 시 성능 최고 (SOTA 초과)
기여점 (Contribution)	1. LLM을 context generator로 활용한 새로운 QA paradigm 제시 2. 클러스터 기반 프롬프트로 문서 다양성 증가, 성능 향상 3. retrieval 없이도 기존 retriever 기반 QA 성능 달성/초과 4. Reader 구조와 독립적으로 적용 가능
한계점 (Limitation)	⚠ 최신 정보 반영 어려움 (retrieval 대비 시계열 민감성 약함) ⚠ LLM이 생성한 문서에 hallucination 가능성 존재 ⚠ domain 변경, knowledge update 시 재학습 부담
요약 한줄	LLM이 질문에 맞는 문서를 생성하도록 유도해 QA 성능을 극대화하는, retrieval-free QA의 새로운 가능성을 제시한 논문

논문 "Generate Rather Than Retrieve: Large Language Models are Strong Context Generators" (ICLR 2023) 에서는 전통적인 Retrieve-then-Read 방식 대신 Generate-then-Read (GENREAD) 방식을 제안합니다.

📌 논문 핵심 요약표

항목	내용
문제 정의	외부 문서 검색에 의존하는 QA 시스템의 한계 (정확성, 상호작용 부족, 업데이트 어려움)
제안 방식 (GENREAD)	외부 검색 없이 LLM이 문서를 생성하고, 생성된 문서를 기반으로 정답 생성
핵심 기법	① 문서 생성 (Step 1) ② 정답 추론 (Step 2) ③ 다양성 확보 위해 클러스터 기반 프롬프트 설계
성능 개선 요소	클러스터링 기반 프롬프트로 문서 다양성 확보 → Recall & EM 상승
결과	TriviaQA(71.6), WebQ(54.4) EM score로 기존 SoTA(DPR-FiD) 대비 우수
결론	대규모 LLM만으로도 정보 생성 가능하며, retrieval 없이도 기존 방식과 동등하거나 우수한 성능 가능

🔍 연구 목적

Open-domain QA, Fact-checking, Dialogue 같은 knowledge-intensive task에서 retrieval 기반 접근은:
1. 고정된 document chunk로 인해 irrelevant info 포함 가능성
2. shallow interaction (문서와 질의 독립 인코딩)
3. 외부 지식 업데이트 어려움 및 저장 공간/시간 비용

➡ 이를 해결하기 위해 Retrieval 없이 LLM 자체에서 context를 생성하는 새로운 접근을 시도

🧠 제안 기법: Generate-then-Read (GENREAD)

1. 전체 구조

graph TD
Q[질문 Q] -->|Prompt| LLM
LLM -->|문서 생성| Doc1,Doc2,Doc3
Doc1,Doc2,Doc3 --> Reader
Reader --> Answer

2. Zero-shot 방식

Step 1: Generate
- "질문에 대한 배경 문서를 생성하라" 프롬프트로 InstructGPT를 활용해 context 문서 생성
Step 2: Read
- 생성된 문서를 읽고 LLM이 정답 생성 (zero-shot RC prompting)

3. Supervised 방식

생성된 문서들을 활용해 FiD 등의 Reader를 학습
한 질문당 최대 10개의 문서 사용 (비용 효율 고려)

🧪 주요 실험 결과

✅ Zero-shot QA 성능 (Table 1 주요 결과)

Model	TriviaQA	WebQ	NQ
InstructGPT (no doc)	57.5	18.6	20.9
GENREAD (InstructGPT)	59.0	24.6	28.0

기존 LLM 단독 QA보다 +6.9 EM score 향상
Retriever 기반 (Google, DPR) 성능에 근접하거나 초과

✅ Supervised QA 성능 (Table 2 주요 결과)

Model	TriviaQA	WebQ	NQ
FiD-xl (DPR)	66.3	50.8	50.1
GENREAD (FiD-xl, clustering)	71.6	54.4	45.6

Retrieval 없이도 TriviaQA, WebQ에서 SoTA 능가
NQ는 시간 종속성 문제로 일부 성능 손해

✅ 추가 분석

Recall@K: 클러스터링 기반 프롬프트가 가장 높은 정답 포함률
Readability: 생성 문서가 더 정답 추론에 적합한 표현 사용
혼합 전략: DPR + GENREAD 조합 시 최고 성능 기록 (TriviaQA: 74.3 EM)

🧩 핵심 기법 - Clustering-based Prompting

단계	설명
1단계	질문마다 초기 문서 생성 (or BM25로 대체 가능)
2단계	GPT-3로 (질문+문서) embedding 후 K-means 클러스터링
3단계	각 클러스터에서 샘플링한 문서들을 in-context example로 사용하여 다양한 문서 생성

➡ 다양한 관점의 문서를 유도 → answer recall 증가

⚠ 한계 및 향후 과제

항목	내용
지식 갱신 어려움	Retriever는 문서 업데이트로 최신 정보 반영 가능하나, GENREAD는 모델 재학습 필요
환각 문제	LLM이 잘못된 정보를 생성할 수 있음 (예: Stranger Things에서 Will Byers 죽음 오답)
도메인 일반화	특정 도메인에 대해 LLM이 충분한 지식을 가지고 있지 않다면 한계 존재

다음은 논문 "Generate Rather Than Retrieve: Large Language Models are Strong Context Generators" (ICLR 2023) 와 관련된 주요 연구들과 그 차이점 및 관계를 정리한 표입니다. 각 논문이 다루는 문제, 방식, GENREAD와의 차이점을 중심으로 체계적으로 정리하였습니다.

📚 GENREAD 관련 주요 연구 비교표

	논문	핵심 아이디어	GENREAD와의 차이점
1	DPR (Karpukhin et al., 2020) Dense Passage Retrieval	Dense retriever로 외부 corpus(Wikipedia 등)에서 문서 top-k retrieval 후 Reader로 정답 추론	GENREAD는 외부 문서 retrieval 없이, LLM이 context 문서를 생성함
2	FiD (Izacard & Grave, 2021) Fusion-in-Decoder	Retrieved 문서를 Decoder에서 통합적으로 사용하여 QA 성능 개선	FiD는 retrieved docs 사용, GENREAD는 generated docs 사용하지만 FiD를 reader로 활용함
3	RAG (Lewis et al., 2020) Retrieval-Augmented Generation	Retriever+Generator joint 학습. Generator가 retrieved docs를 기반으로 응답 생성	RAG는 retrieved docs 기반 generation, GENREAD는 LLM이 문서 자체를 생성
4	REALM (Guu et al., 2020)	Pretraining + Retrieval 결합. Knowledge-intensive task에 특화된 retriever-augmented pretraining	GENREAD는 pretrained LLM만 활용, 별도 retriever 학습 없음
5	Liu et al., 2022b Generated Knowledge Prompting	GPT-3로 background knowledge 생성 후 QA에 활용	GENREAD는 이를 일반화하여 체계화된 pipeline 구성 (e.g., clustering-based prompting)
6	Mao et al., 2021 Generation-augmented Retrieval	Generator로 query 확장 후 retrieval 성능 개선	해당 연구는 generation을 retrieval 보조 용도로 사용, GENREAD는 retrieval 자체를 제거
7	Chain-of-Thought prompting (Wei et al., 2022)	Multi-step reasoning을 위한 intermediate step 유도	GENREAD는 background context 생성을 목표로 함. CoT는 추론 과정 생성에 초점
8	Petroni et al., 2019 LAMA	LLM 자체의 파라미터에 지식이 존재하는지 probing	GENREAD는 LLM의 지식을 context 문서로 외화하여 활용함. 더 실용적인 task 연결

🔍 주요 차이점 요약

	Retrieve-then-Read	Generate-then-Read (GENREAD)
정보 출처	외부 corpus (Wikipedia, Google 등)	LLM 내부 지식 (parameter)
장점	최신 정보 가능, domain swap 쉬움	특정 질의에 고도로 특화된 문서 생성 가능
단점	chunk 단위 문서 → noise 가능성	hallucination 가능, 최신 정보 부족
성능	정답 recall ↑ (retrieved 수 증가 시)	reader conditioning 효과 ↑ (LLM 기반 문서)

🧠 관련 연구의 계보 흐름 (간단 도식)

graph TD
A1[BM25, TF-IDF 기반 QA] --> A2[DPR (dense retriever)]
A2 --> A3[FiD / RAG (retrieval + reader/generator)]
A3 --> A4[Liu et al. 2022b, Petroni et al.]
A4 --> B1[GENREAD (generate context)]
B1 --> B2[Hybrid QA: Retrieval + Generation (MERGE)]

GENREAD는 기존 retriever 기반 계열을 이어받되, retriever를 제거하고 generation으로 대체한 새로운 branch입니다.
이후 연구는 retrieval + generation의 하이브리드로 발전 (논문에서도 병합이 best임을 보임)

📌 요약

GENREAD는 기존의 retrieval 의존적 방식에 대한 패러다임 전환을 제안
핵심 차별점은 외부 문서를 찾지 않고, 질문에 맞는 문서를 직접 생성함
다양한 기존 연구와의 차이를 바탕으로, retrieval-free QA의 새 방향성을 제시함

논문 "Generate Rather than Retrieve: Large Language Models are Strong Context Generators" 의 핵심 방법론은 기존의 retrieval-based QA 시스템을 대체할 수 있는 Generate-then-Read (GENREAD) 파이프라인을 제안하는 것입니다.

🔧 GENREAD 방법론: Generate-Then-Read Pipeline

GENREAD는 두 단계로 구성됩니다:

STEP 1: Context 문서 생성 (Generate)

기존 retrieval 기반 방법은 주어진 질문에 대해 Wikipedia와 같은 외부 corpus에서 관련 문서를 검색합니다. 그러나 GENREAD는 다음과 같이 작동합니다:

입력: 질문 (e.g., "What city was Zeus the patron god of?")
프롬프트:
Generate a background document from Wikipedia to answer the given question.
What city was Zeus the patron god of?
출력 (예시):
Zeus was the patron god of Olympia, a city in ancient Greece. Olympia was the site of the Olympic Games, which were held in honor of Zeus. The city was located in the region of Elis in the Peloponnese.

📌 이때 중요한 점은:

문서 내용이 질문에 직접적으로 연관되도록 학습된 LLM이 생성
cross-attention을 통해 질문에 맞는 문맥 생성이 가능
retrieval로 얻는 noisy or incomplete document보다 정답에 더 근접함

STEP 2: Answer 추론 (Read)

이제 생성된 문서를 기반으로 답변을 추론합니다. 두 가지 방식이 있습니다.

(1) Zero-shot setting:

LLM에게 다음과 같은 prompt를 제공합니다:
Passage: Zeus was the patron god of Olympia ...
Question: What city was Zeus the patron god of? The answer is
LLM 출력: Olympia

(2) Supervised setting:

생성된 여러 개의 문서를 FiD와 같은 Reader 모델에 입력
이 모델은 BART나 T5 기반으로 문서들을 cross-attention으로 통합
fine-tuning을 통해 최적화

🧪 핵심 기술: Clustering-based Prompting (문서 다양성 확보)

질문 하나에 대해 LLM이 여러 개의 문서를 생성할 경우, 내용이 유사하게 중복되는 경향이 있습니다. 이를 해결하기 위해 다음과 같은 클러스터 기반 프롬프트 구성 방식을 사용합니다:

⛓️ 알고리즘 단계

초기 문서 생성: 질문마다 하나씩 문서를 생성하거나 BM25로 가져옴
Embedding + 클러스터링: GPT-3 등으로 (질문+문서) embedding → K-means 클러스터링
In-context 예시 구성: 각 클러스터에서 다른 분포의 문서들을 샘플링해 prompt로 사용
LLM 문서 생성:
프롬프트 예시:→ 다양한 관점이 반영된 문서 생성 가능
Q1: Who is the CEO of Apple?
D1: Tim Cook is the CEO of Apple Inc., a technology company...
Q2: Who leads Tesla?
D2: Elon Musk is the CEO and lead designer of Tesla Motors...

Now, generate a background document for the question:
Who is the current president of France?

🎯 성능 향상 이유 정리

요인	설명
질문 특화 문서 생성	cross-attention으로 질문과 밀접하게 연결된 context 생성
다양성 확보	클러스터링을 통해 다양한 시각을 반영한 문서 구성 가능
Reader 최적화	문서 품질이 높아짐에 따라 Reader의 정답 추론 성능 향상
Retriever 한계 극복	외부 corpus에 의존하지 않고 최신성이 떨어지는 문서 제거 가능

✅ 예시 종합

질문: What city was Zeus the patron god of?

GENREAD 생성 문서	"Zeus was the patron god of Olympia..."
Reader Prompt	Passage + Question → “Olympia”
결과	정확도(EM) 기준 기존 SoTA보다 우수 (TriviaQA: 71.6, WebQ: 54.4)

🔍 추가 설명: Hybrid 가능성

GENREAD는 단독으로도 성능이 우수하지만, 생성된 문서와 retrieved 문서를 병합하면 성능이 더 올라갑니다 (e.g., 74.3 EM in TriviaQA). 이는 LLM의 world knowledge와 corpus 기반의 최신 정보가 보완적인 역할을 하기 때문입니다.

🧠 요약

GENREAD는 LLM을 이용해 문서를 “검색”하지 않고, “창조”하여 QA 성능을 높이는 새로운 패러다임이다.

이러한 접근은 특히:

retrieval 불가능한 domain (비공개 DB, real-time 시나리오 등),
knowledge-heavy 질문에 대해 효과적이며,
향후 RAG-Free LLM QA 시스템 설계에 중요한 기여를 합니다.

그럼 이 방법론은 LLM을 통해 Question에 대한 Doc를 생성하고, 생성된 Doc가 너무 겹치는 내용이 많기에 embedding 생성후 클러스터링하여 다른 분포를 가진 문서만 Context에 넣어서 Question에 대한 Answer를 생성한다는 것이네??

네, 정확하게 이해하셨습니다! 정리하자면, GENREAD 방법론의 핵심 아이디어는 다음과 같습니다:

✅ GENREAD의 구조 요약 (당신의 이해 기반 확장 설명)

LLM을 이용해 질문에 대한 배경 문서(context)를 직접 생성한다.
- 기존 방식처럼 Wikipedia나 외부 DB에서 문서를 retrieval 하지 않음
- 대신 LLM (예: InstructGPT)에 prompt를 줘서 “문서처럼 보이는 배경 설명”을 생성
하지만 같은 질문에 대해 문서를 여러 개 생성하면 내용이 겹치는 경우가 많다.
- 예:
- 문서 1: Zeus는 Olympia의 수호신이었다. Olympia는 그리스의 도시였다...
  문서 2: Olympia는 Zeus를 기리는 도시로, 고대 올림픽이 열린 장소였다...
- → 거의 같은 정보를 반복함 (diversity 부족)
이 중복을 해결하기 위해 '질문+문서' embedding을 생성하고 K-means 클러스터링을 수행한다.
- 예: GPT-3로 (Q, D) 쌍을 임베딩하여 분포가 다른 문서 묶음(K clusters) 을 만든다.
- 각 클러스터는 조금씩 다른 관점을 반영하고 있음
각 클러스터에서 샘플링한 (Q, D) 예시들을 in-context prompt로 사용하여 LLM에게 새로운 문서를 생성하게 한다.
- 즉, LLM이 서로 다른 “문서 분포”의 영향 하에 서로 다른 스타일의 문서를 생성하게 유도함
- → 결과적으로 더 다양한 context 문서들이 생김
이렇게 다양화된 문서를 LLM (or FiD 등 Reader 모델)에 입력하여 최종 정답을 생성한다.
- Zero-shot 방식이면 LLM에게 Prompt만 주고 정답 생성
- Supervised 방식이면 FiD로 학습된 Reader가 문서들을 fusion하여 정답 생성

🔍 예시 기반 간단 흐름

질문: What city was Zeus the patron god of?

기본 생성된 문서들 (중복됨)
- Zeus was the god of Olympia...
- Olympia was sacred to Zeus... (사실상 같은 이야기)
(Q, D) embedding → 클러스터링 → 각 cluster에서 5개씩 샘플 → prompt 구성
Q1: Who is the CEO of Apple?
D1: Tim Cook is the CEO...
Q2: Who leads Tesla?
D2: Elon Musk is the CEO...

Now, generate a document for:
What city was Zeus the patron god of?
다양한 스타일의 문서 생성됨
- 문서 A: Olympia is a city in Elis where Zeus was honored...
- 문서 B: Zeus was considered the guardian of Olympia, located in the Peloponnese...
- 문서 C: Ancient Greeks believed Olympia to be protected by Zeus...
Reader에 입력 → 최종 정답: Olympia

✅ 결론

네! 말씀하신 대로:

질문 → LLM으로 다양한 문서 생성
중복 방지를 위해 embedding 후 클러스터링
클러스터 기반 문서로 질문에 대한 풍부하고 다양한 context 구성
그 위에서 Answer 생성

GENREAD의 핵심 강점은 바로 이 "context 다양화 전략" 이고, 이게 기존 RAG와의 본질적 차이점이자 성능 향상의 핵심입니다.

📦 사용된 데이터셋 정리

GENREAD는 총 3가지 Task에서 6개 데이터셋을 사용합니다.

Task	Dataset	설명	목적
🧠 Open-domain QA	TriviaQA	퀴즈 기반 질문. 다양한 표현, alias 존재	EM 기반 정확도 평가
	WebQuestions (WebQ)	Google Suggest 기반 실사용 질문	간결한 factoid 질문
	Natural Questions (NQ)	구글 검색 로그 기반 질의	질문 중 시간 의존성 비율 높음
✅ Fact-checking	FEVER	claim이 Wikipedia 문서에 의해 지지 (refute/supported)되는지 판별	Binary classification
	FM2	게임화 기반 오류 유도 claims 포함	고난도 fact verification
💬 Dialogue	WoW (Wizard of Wikipedia)	위키 기반 정보성 대화 데이터	F1, Rouge-L로 대화 품질 평가

📝 각 데이터셋의 통계와 split은 Appendix A.1에 있으며, 일부 test label은 hidden (FEVER, WoW).

📊 실험 결과 요약

✅ [1] Zero-shot QA 성능 (Table 1 기준)

모델	TriviaQA	WebQ	NQ
InstructGPT (no docs)	57.5	18.6	20.9
GENREAD (InstructGPT)	59.0	24.6	28.0

외부 문서 없이 InstructGPT 성능보다 평균 +6.9 EM 향상
기존 RAG 기반 Zero-shot 방식과 유사하거나 초과

✅ [2] Supervised QA 성능 (Table 2 기준, FiD reader 사용)

모델	TriviaQA	WebQ	NQ
FiD-xl (DPR 기반)	66.3	50.8	50.1
GENREAD (FiD-xl, Clustering)	71.6	54.4	45.6

TriviaQA, WebQ는 GENREAD가 SoTA 능가
NQ는 성능 저하 (시간 의존 질문 문제, Appendix A.7에 분석)

✅ [3] Fact-checking 및 Dialogue 성능 (Table 3 기준)

모델	FEVER (Acc)	FM2 (Acc)	WoW (F1 / R-L)
FiD	90.2	77.6	17.5 / 16.1
GENREAD (Clustering)	89.6	77.8	19.1 / 16.8

Fact-checking은 거의 동등
Dialogue는 GENREAD가 우수, 문서 자연스러움과 유창성이 영향

🔍 추가 분석 결과

	요약
Recall@K	클러스터 기반 프롬프트가 가장 높은 정답 포함률 (TriviaQA, WebQ에서 Google Search, DPR 초과)
Readability	정답 포함된 문서 중, LLM 생성 문서가 더 읽기 쉬움 → FiD가 정답 더 잘 추론함
혼합 전략	DPR + GENREAD 병합 시 최고 성능 (EM +5.7↑). 보완적 정보 효과
Coverage	WebQ에서 alias 포함 정답 커버리지가 GENREAD > DPR > Google 순
에러 유형	NQ에서 29% 질문은 평가 자체 오류 또는 시간 민감 문제 (예: “현재 대통령은 누구인가?”)

🧾 논문 결론 요약

✅ 주요 주장

"Large Language Models는 외부 지식이 없어도 강력한 context 생성기가 될 수 있으며, 그 자체로 retrieval의 대안이 될 수 있다."

📌 핵심 결론

GENREAD는 기존 retrieve-then-read pipeline을 generate-then-read 방식으로 전환한 최초의 시도
외부 corpus 없이도 높은 QA 성능 달성 가능 (TriviaQA 71.6 EM)
다양성 확보를 위한 클러스터링 기반 프롬프트가 성능 향상에 결정적
retrieval+generation의 hybrid 전략은 상호 보완적 → 가장 높은 성능 기록
한계는 존재:
- 최신 정보 반영 어려움 (retriever보다 최신성 낮음)
- hallucination 위험 존재 (예: 역사적 사실 왜곡)

✅ 한 줄 요약

“GENREAD는 LLM을 단순한 정답 생성기가 아니라 질문 중심 문서 생성기로 활용하여, QA의 새로운 paradigm을 제시한다.”

https://arxiv.org/abs/2307.11278

Generator-Retriever-Generator Approach for Open-Domain Question Answering

Open-domain question answering (QA) tasks usually require the retrieval of relevant information from a large corpus to generate accurate answers. We propose a novel approach called Generator-Retriever-Generator (GRG) that combines document retrieval techni

arxiv.org

이제 다음으로 보게 될 논문이네요 ㅎㅎ

저작자표시 비영리 (새창열림)

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Expand, Highlight, Generate: RL-driven Document Generation for Passage Reranking (1)	2025.07.06
GRG : Generator-Retriever-Generator Approach for Open-Domain Question Answering (0)	2025.07.06
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning (2)	2025.06.17
DrVideo: Document Retrieval Based Long Video Understanding 논문 리뷰 (6)	2025.06.10
UltraTool, Open Grounded Planning 정리 (0)	2025.06.09

현재글Context Generation 후 Answer Generation! - Generate rather than Retrieve: Large Language Models are Strong Context Generators

NLP, AI, XAI에 관심있는 공대생의 일기장...?

Today :
Yesterday :

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28