https://arxiv.org/abs/2502.06139
LCIRC: A Recurrent Compression Approach for Efficient Long-form Context and Query Dependent Modeling in LLMs
While large language models (LLMs) excel in generating coherent and contextually rich outputs, their capacity to efficiently handle long-form contexts is limited by fixed-length position embeddings. Additionally, the computational cost of processing long s
arxiv.org
기존 transformer는 고정된 context window, quadratic attention cost(attention은 입력 길이가 길 수록 계산량이 제곱으로 늘어남)
단순 RoPE를 확장하거나, full attention window를 늘리는 방식은 계산 비용이 크고, sparse attention, prompt compression은 정보 손실 및 길이 확장 한계가 있음
=> 긴 context를 전부 attention하지 말고 필요한 정보만 compact representation으로 압축해 llm에 주입하자!

1. Recurrent Context Compression
긴 Context를 Segment 단위로 나누고 Perceiver 기반 Compressor로 순차 압축
즉 입력 길이가 n이고 llm의 입력 가능한 길이가 m이라면 n-m만큼 잘리게 되니 긴 context를 나누고, perceiver module를 통해 반복적으로 압축

2. Compressed Context Injection
압축된 Representation을 기존 llm layer에 gated cross attention으로 주입
llm은 학습하지 않고, compressor와 추가 module만 학습.
QD-LCIRC는 쿼리 임베딩을 통해 긴 문서 전체를 무작정 압축하는 것이 아니라 질문에 따라 중요한 정보가 압축 representation에 더 들어가도록 유도함

일반 BPTT는 모든 recurrent timestep에 gradient를 보내야 하므로 긴 context에는 비현실적
Truncated BPTT는 마지막 타입스텝만 학습하므로 과거 segment에 대한 모델링이 약해질 수 있음
Selective BPTT는 일부 타임스탭을 랜덤하게 학습해 긴 context에서도 효율적으로 장기 의존 정보를 학습하게 됨

다른 방법론에서는 길이가 길어질 수록 perplexity가 악화되는 반면 LCIRC는 안정된 성능을 유지함
TFLOPs 기준으로 계산량 감소가 선명하게 보여짐

성능도 유지!!
RAG 프로세스에서 압축하는 거라 QA밖에 못하기는 하겠는데 reasoning에서 진행하면 어떻게 될까 궁금하긴 하네요
| 핵심 문제 | 기존 LLM은 고정된 context window와 quadratic attention cost 때문에 64K, 128K 이상의 긴 문서를 직접 처리하기 어렵다. 긴 입력을 단순 truncation하면 앞부분의 중요한 정보가 사라지고, full attention 확장은 계산 비용이 과도하다. |
| 핵심 아이디어 | 긴 context를 LLM에 그대로 넣지 않고, segment 단위로 나누어 recurrent compression한 뒤, 압축된 representation을 기존 LLM에 gated cross-attention으로 주입한다. |
| 제안 방법: LCIRC | 긴 문서의 잘리는 부분을 여러 segment로 나누고, Perceiver 기반 compressor가 이전 압축 상태 h^(i-1)와 현재 segment s_i를 이용해 누적 압축 representation h^(i)를 생성한다. 이후 [h^(1), ..., h^(S)]를 LLM layer에 cross-attention으로 주입한다. |
| 제안 방법: QD-LCIRC | QA처럼 query가 있는 상황에서는 모든 정보를 동일하게 압축하지 않고, query embedding을 compression 과정에 넣어 질문과 관련 있는 정보가 더 잘 보존되도록 한다. 즉, query-aware memory compression 구조이다. |
| 학습 방식 | Llama2-7B backbone은 frozen하고, Perceiver compressor와 gated cross-attention 등 추가 모듈만 학습한다. LCIRC는 FineWeb-Edu로 long-form language modeling을 학습하고, QD-LCIRC는 FineWeb-LQA로 query-dependent modeling을 fine-tuning한다. |
| 효율화 전략 | 일반 BPTT는 긴 recurrent sequence에서 비용이 크므로, 논문은 일부 timestep만 선택해 gradient를 전달하는 Selective State BPTT를 사용한다. 이는 truncated BPTT보다 장기 query-dependent modeling에 유리하다. |
| 비교 대상 | Llama2-7B, RoPE 확장 기반 ExtendedFA, recurrent prompt compression 계열 AutoCompressor와 비교한다. |
| 주요 실험 데이터셋 | FineWeb-Edu, FineWeb-LQA, InfiniteBench, LongBench, L-Eval을 사용한다. InfiniteBench는 100K token 이상의 ultra-long context 평가에 사용된다. |
| 주요 결과: Perplexity | FineWeb-Edu에서 LCIRC와 QD-LCIRC는 64K, 128K context에서도 안정적인 perplexity를 유지한다. QD-LCIRC는 128K에서 5.298을 기록해 AutoCompressor보다 안정적이다. |
| 주요 결과: 계산량 | 128K context 기준 ExtendedFA는 10,739 TFLOPs가 필요한 반면, LCIRC는 120 TFLOPs, QD-LCIRC는 122 TFLOPs만 사용한다. 즉, full attention 확장 대비 약 99% 계산량 감소를 보인다. |
| 주요 결과: QA 성능 | QD-LCIRC는 InfiniteBench 평균 22.33, LongBench 평균 21.45, L-Eval 평균 26.17로 비교 모델 중 가장 높은 평균 성능을 달성한다. 특히 query-dependent compression이 long-form QA 성능 향상에 크게 기여한다. |
| 핵심 기여 | ① LLM 전체 재학습 없이 long-context 확장 가능, ② recurrent compression으로 긴 문서 처리 비용 절감, ③ query-dependent compression으로 질문 관련 정보 보존, ④ long-context benchmark에서 성능 향상 입증. |
| 한계점 | QA 중심으로만 query-dependent modeling을 검증했기 때문에 retrieval, dialogue, agent memory 등으로의 일반화는 추가 검증이 필요하다. 또한 학습 비용이 여전히 크고, 실험이 영어 데이터 중심이며, 최신 native long-context LLM과의 비교가 부족하다. |
| 최종 결론 | 이 논문의 핵심은 long-context modeling을 단순히 context window를 늘리는 문제가 아니라, 긴 정보 중 무엇을 압축하고 어떻게 LLM에 주입할 것인가의 문제로 재정의했다는 점이다. LCIRC는 long-context LLM, agent memory, RAG compression, query-aware context modeling 연구로 확장 가능성이 크다. |
'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글
| Adapting Language Models to Compress Contexts (0) | 2026.05.10 |
|---|---|
| R1-Compress: Long Chain-of-Thought Compressionvia Chunk Compression and Search (0) | 2026.04.26 |
| OSCAR: Online Soft Compression And Reranking (1) | 2026.04.26 |
| Sequential Efficient LLM 논문 -3 (0) | 2026.03.03 |
| Sequential Efficient LLM 논문 -2 (0) | 2026.03.03 |