https://arxiv.org/abs/2605.05806
Retrieval from Within: An Intrinsic Capability of Attention-Based Models
Retrieval-augmented generation (RAG) typically treats retrieval and generation as separate systems. We ask whether an attention-based encoder-decoder can instead retrieve directly from its own internal representations. We introduce INTRA (INTrinsic Retriev
arxiv.org
기존 RAG에서는 Retriever 모델을 따로 쓰면서 텍스트를 가져오지만 여기선 en-decoder model의 cross attention 자체를 검색 메커니즘으로 사용하여 검색과 생성을 하나의 latent representation space 안에서 통합할 수 있는 것을 보였습니다.
기존 rag에서 검색기는 쿼리와 문서의 유사도 기준으로 청크를 찾지만, 실제 답변 생성에 필요한 증거와 완전히 일치하지 않을 수 있고, 텍스트를 그대로 다시 generator에 넣어야 하므로 리소스 소모가 또 필요하다.

문서 청크를 encoder로 미리 encoding해 두고, decoder의 cross attention query가 encoding 청크를 검색하여 그래도 context로 활용한다.
| Standard RAG | INTRA | |
| Retriever | 외부 retriever 사용 | decoder cross-attention query 사용 |
| Retrieval space | retriever embedding space | encoder-decoder shared representation space |
| Generation input | retrieved raw text | retrieved pre-encoded encoder states |
| Re-encoding | 필요 | 불필요 |
| 장점 | 범용성 높음 | retriever-generator mismatch 감소, pre-encoded context 재사용 |
stage 1
각 청크를 encoder에 넣은 뒤 representation으로 변환하여 저장해둠.
stage 2
query와 청크의 key value사이의 dot product matching을 통해 retrueval score를 구함. 이를 위해 입력 질문 뒤에 learnable retrieval token을 추가하여 어떤 evidence가 필요한가를 보여줌
stage 3
MaxSim late interaction을 통해 token level attention score를 chunk level retrieval score로 바꿈
stage 4
MaxSim을 통해 초기 후보를 선택한 후 리랭킹, 다시 점수 메기기 등을 통해 점수가 가장 높은 5개를 선택
stage 5
선택된 청크를 통해 생성을 진행
실험 설정
| Backbone | T5Gemma2 4B-4B encoder-decoder |
| Benchmarks | HotPotQA, 2WikiMultihopQA, MuSiQue, Natural Questions |
| Corpus pool | 약 100M tokens, 758.5K chunks |
| Retrieval metric | Complete-evidence recall@5/10/20 |
| QA metric | EM, token-level F1 |
| Baselines | TF-IDF, BM25, MaxSim, Hybrid RAG, BGE-large, Qwen3-Embedding-0.6B/4B, Qwen3-Embedding-4B + Jina reranker |
| Generation | fixed T5Gemma2 generator 사용 |

NQ에서 유독 약한 모습을 보이지만 다른 곳에서는 가장 높은 성능을 보여준다.
멀티턴 다른 벤치마크와 싱글턴인 NQ 사이에서 여러 evidence를 조합해야 하는 멀티홉 세팅에서 장점이 보인다.

end to end QA 세팅에서도 싱글 홉인 NQ를 제외하곤 다른 벤치마크에선 높은 성능을 보였다.
검색 성능이 크게 작용했을것이라고 저자는 말한다.

여러 검색기와 생성기를 조합해 격차를 측정했으나 같은 모델일 수록 격차가 가장 컸다.
그리고 INTRA의 장점은 검색된 텍스트를 다시 인코딩하지 않는 것에서 나온다고 말한다.

TTFT 테스트에서 INTRA가 가장 빠른 모습을 보여준다.
검색 시간을 제외한게 좀 클 것 같긴 한데....
그리고 임베딩을 다 저장해야 하는 것에서 저장 용량도 지속적으로 커진다.
| 논문 핵심 주장 | 기존 RAG처럼 retriever와 generator를 분리하지 않아도, encoder-decoder 모델의 cross-attention 자체가 retrieval mechanism으로 작동할 수 있다는 것을 보인다. 즉, attention-based model 내부에는 이미 intrinsic retrieval capability가 존재한다는 주장이다. |
| 해결하려는 문제 | 기존 RAG는 외부 retriever가 문서를 검색하고, generator가 검색된 raw text를 다시 처리한다. 이 과정에서 retriever-generator representation mismatch가 발생하고, 검색된 evidence를 generation 시점에 다시 encoding/prefilling해야 하므로 비용이 증가한다. |
| 제안 방법 | INTRA: INTrinsic Retrieval via Attention을 제안한다. Corpus chunk를 encoder로 미리 encoding해 저장하고, decoder의 cross-attention query가 이 encoded chunk들을 직접 score하여 관련 evidence를 선택한다. 이후 선택된 encoded representation을 그대로 generation context로 사용한다. |
| 기존 RAG와 차이 | Standard RAG는 “외부 retriever → raw text retrieval → generator 재처리” 구조다. INTRA는 “pre-encoded chunk pool → decoder attention query 기반 retrieval → encoded state 재사용” 구조다. 따라서 retrieval과 generation이 동일한 representation space에서 일어난다. |
| 핵심 메커니즘 | 질문 입력 뒤에 learnable retrieval tokens를 추가하고, decoder layer에서 나온 query state를 사용해 corpus chunk와 similarity를 계산한다. 이때 ColBERT-style MaxSim late interaction을 사용하여 token-level matching을 chunk-level retrieval score로 변환한다. |
| Initial context (S_0) | 먼저 encoder representation 기반 MaxSim으로 초기 후보 chunk set (S_0)를 만든다. 하지만 최종 INTRA retrieval은 (S_0)만 reranking하는 것이 아니라, 전체 corpus를 다시 score하여 (S_{\text{INTRA}})를 선택한다. 따라서 초기 후보에 없던 evidence도 복구할 수 있다. |
| Generation 방식 | 최종 선택된 chunk의 raw text를 넣는 것이 아니라, 해당 chunk의 pre-encoded encoder states를 decoder cross-attention memory로 넣어 답변을 생성한다. 따라서 검색된 문서를 다시 encoding하지 않아도 된다. |
| 중요한 구현 기법 | Reverse-QWK를 제안한다. 일반 encoder-decoder에서는 layer별 key projection 때문에 같은 encoder state를 모든 layer에서 재사용하기 어렵다. Reverse-QWK는 key-side projection을 query-side로 옮겨, 하나의 normalized encoder representation pool을 여러 decoder layer/head에서 공유할 수 있게 한다. |
| 학습 대상 | Encoder와 decoder backbone은 frozen으로 유지한다. 학습되는 것은 약 164K개의 retrieval token parameters와 272개의 layer aggregation weights뿐이다. 즉, 별도 대형 retriever를 새로 학습하지 않고, 매우 작은 retrieval-specific parameter만 조정한다. |
| 학습 objective | Oracle evidence chunk가 있는 경우, retrieval score에 대해 soft cross-entropy loss를 사용한다. 여러 oracle chunk가 있으면 target probability mass를 균등하게 나누어 모든 supporting evidence가 높은 score를 받도록 학습한다. |
| 실험 설정 | T5Gemma2 4B-4B encoder-decoder를 사용한다. 평가 benchmark는 HotPotQA, 2WikiMultihopQA, MuSiQue, Natural Questions이며, 약 100M token / 758.5K chunks 규모의 shared retrieval pool을 구성한다. |
| 비교 baseline | TF-IDF, BM25, MaxSim, Hybrid RAG, BGE-large, Qwen3-Embedding-0.6B/4B, Qwen3-Embedding-4B + Jina reranker 등 강한 sparse/dense/hybrid retrieval baseline과 비교한다. |
| Retrieval 결과 | INTRA는 HotPotQA, 2Wiki, MuSiQue 같은 multi-hop QA에서 complete-evidence recall@5/10/20 기준 최고 성능을 보인다. 특히 여러 evidence를 조합해야 하는 문제에서 decoder-guided retrieval의 장점이 크다. |
| QA 결과 | End-to-end QA에서도 INTRA는 multi-hop benchmark에서 가장 높은 EM/F1을 달성한다. 평균 성능도 가장 높으며, 이는 retrieval 성능 향상이 실제 answer generation 품질 향상으로 이어졌음을 보여준다. |
| NQ 결과 해석 | Natural Questions는 single-hop 성격이 강해 INTRA의 이점이 상대적으로 작다. 실제로 NQ에서는 Qwen3-Embedding-4B + reranker가 더 높은 EM/F1을 보인다. 이는 INTRA가 특히 multi-hop evidence assembly에 강하다는 점을 시사한다. |
| 효율성 장점 | INTRA는 검색된 raw text를 다시 encoding하지 않고 pre-encoded representation을 재사용한다. 따라서 standard RAG 대비 query-time prefilling cost와 time-to-first-token이 줄어든다. 특히 retrieved chunk 수 (k)가 커질수록 RAG와의 latency 차이가 커진다. |
| Ablation 핵심 | (S_0) 제거, cosine-only initialization, retrieval token 수 감소, pooled chunk length 축소 등은 모두 성능 하락을 유발한다. 즉, INTRA의 성능은 초기 context, retrieval tokens, full-corpus scoring, multi-vector representation이 함께 작동할 때 가장 강하다. |
| 한계점 | fixed context pool 중심 실험이며, open-web/web-scale dynamic retrieval을 대체한다고 보기는 어렵다. 또한 encoder-decoder architecture에 의존하므로 현재 주류인 decoder-only LLM에 직접 적용하기 어렵다. 평가도 short-answer text QA에 제한되어 있다. |
| 연구적 의의 | 이 논문은 retrieval을 외부 모듈로만 보던 기존 RAG 관점을 바꾸어, generation model 내부의 attention demand 자체가 retrieval signal이 될 수 있다는 점을 실험적으로 보인다. Latent RAG, memory-augmented model, efficient context reuse, multi-hop QA retrieval 연구에 중요한 방향성을 제공한다. |
| 최종 평가 | INTRA는 실용적 RAG 시스템을 즉시 대체하기보다는, retrieval과 generation을 하나의 representation space에서 통합할 수 있다는 강한 개념적·실험적 증거를 제시한 논문이다. 특히 multi-hop QA와 static corpus reuse 환경에서 의미가 크다. |
'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글
| Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem? (0) | 2026.05.20 |
|---|---|
| Recursive Multi-Agent Systems (0) | 2026.05.15 |
| LIMO: Less is More for Reasoning (0) | 2026.05.14 |
| s1: Simple test-time scaling (0) | 2026.05.14 |
| Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes (0) | 2026.05.12 |