728x90
728x90
https://arxiv.org/abs/2505.16838
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search
Chain-of-Thought (CoT) reasoning enhances large language models (LLMs) by enabling step-by-step problem-solving, yet its extension to Long-CoT introduces substantial computational overhead due to increased token length. Existing compression approaches -- i
arxiv.org
압축하면서 생성하거나 그런 논문을 보고 싶었는데 여기선 압축된 CoT를 만들고 이를 학습해서 효과적인 reasoning을 하는 모델을 만들겠다 뭐 그런 거네요
| 문제의식 | Long-CoT는 수학·과학 추론 성능을 높이지만 출력 토큰이 길어져 inference latency와 KV cache 비용이 증가함 |
| 기존 방법의 한계 | Instance-level 압축은 전체 CoT를 한 번에 줄이므로 reflection 같은 지역 추론 신호가 사라짐. Token-level 압축은 중요하지 않은 토큰을 제거하지만 문장이 부자연스럽고 incoherent해짐 |
| 제안 방법 | Long-CoT를 여러 chunk로 나누고, 각 chunk를 LLM으로 압축한 뒤, 여러 후보 중 앞선 chunk와 가장 자연스럽게 이어지는 후보를 search model로 선택 |
| 핵심 아이디어 | local reasoning preservation + global coherence selection |
| 사용 데이터 | OpenR1-Math-220k에서 5,000개 샘플 추출, 필터링 후 2,513개로 SFT |
| 평가 모델 | Qwen2.5-14B-Instruct, Qwen2.5-32B-Instruct |
| 평가 벤치마크 | MATH500, AIME24, GPQA-Diamond |
| 주요 결과 | Qwen2.5-32B 기준 MATH500에서 Long-CoT 93.0% → R1-Compress 92.4%로 정확도 0.6%p만 감소, 평균 토큰은 3147 → 2661로 감소 |
| 한계 | LLM 기반 압축이므로 chunk 후보 품질이 항상 보장되지 않고, 여전히 일부 문맥 불일치 가능성이 있음 |
이 논문은 딱히라...
대충 표만 정리해놓고 가겠습니다.




| 핵심 문제 | Long-CoT는 수학·과학 추론 성능을 높이지만, 출력 토큰이 길어져 inference latency, KV cache memory, serving cost가 크게 증가함 |
| 기존 방법 1: Instance-level compression | C3oT, CoT-Valve처럼 전체 CoT를 한 번에 압축하는 방식 |
| Instance-level 한계 | 전체 reasoning을 짧게 줄이면서 reflection, checking, self-correction 같은 지역적 추론 신호가 사라짐. 논문 실험에서 C3oT는 평균 reflection이 18.68 → 0.15로 급감하고 MATH500 성능도 88.0% → 65.8%로 하락함 |
| 기존 방법 2: Token-level compression | TokenSkip처럼 중요하지 않은 토큰을 제거하는 방식 |
| Token-level 한계 | 지역 정보는 일부 보존하지만 문장이 깨지고, LLM의 자연스러운 출력 분포와 맞지 않는 incoherent CoT가 생성됨. TokenSkip의 token-level loss는 0.87로 Long-CoT 0.41보다 높음 |
| 핵심 아이디어 | Long-CoT를 전체 단위나 토큰 단위가 아니라 chunk 단위로 압축하면, local reasoning 정보를 보존하면서도 문장 coherence를 유지할 수 있음 |
| 제안 방법 | R1-Compress: ① Long-CoT를 reasoning chunk로 분할 → ② 각 chunk를 LLM으로 여러 후보로 압축 → ③ inter-chunk search로 짧고 자연스럽게 이어지는 후보 선택 → ④ 선택된 chunk들을 이어붙여 compressed CoT 생성 |
| Chunk segmentation | 최소 길이 조건과 double newline boundary를 사용해 Long-CoT를 문단 또는 논리적 reasoning unit 단위로 분할 |
| Inner-chunk compression | 각 chunk에 대해 LLaMA3.1-70B-Instruct가 여러 압축 후보를 생성. Prompt는 reasoning step, reflection, checking, mistake step을 생략하지 말라고 지시함 |
| Inter-chunk search | 각 chunk 후보 중 긴 후보를 먼저 제거한 뒤, 이전에 선택된 chunk들과 문제를 조건으로 search model이 가장 높은 likelihood를 주는 후보를 선택 |
| Search model | DeepSeek-R1-Distill-Qwen-14B 사용 |
| 학습 방식 | 압축된 CoT 데이터셋으로 Qwen2.5-Instruct 모델을 full-parameter SFT |
| 학습 데이터 | OpenR1-Math-220k에서 5,000개 샘플 추출 후, chunk 수·정답 일치성·압축 비율 등을 필터링해 2,513개 학습 샘플 사용 |
| 평가 모델 | Qwen2.5-14B-Instruct, Qwen2.5-32B-Instruct |
| 평가 벤치마크 | MATH500, AIME24, GPQA-Diamond |
| 주요 결과: Qwen2.5-14B | MATH500에서 Long-CoT는 88.0%, 3781 tokens, R1-Compress는 84.8%, 3369 tokens. 정확도는 일부 감소하지만 CoT-Valve, TokenSkip보다 좋은 accuracy-token trade-off를 보임 |
| 주요 결과: Qwen2.5-32B | MATH500에서 Long-CoT는 93.0%, 3147 tokens, R1-Compress는 92.4%, 2661 tokens. 정확도는 0.6%p만 감소하고 평균 출력 토큰은 크게 감소 |
| GPQA-Diamond 결과 | Qwen2.5-32B 기준 Long-CoT는 61.11%, 8054 tokens, R1-Compress는 59.09%, 6963 tokens. OOD 과학 QA에서도 성능 손실을 제한하면서 토큰을 줄임 |
| Reflection 보존 결과 | Qwen2.5-14B 기준 평균 reflection 수는 Long-CoT 18.68, CoT-Valve 8.36, R1-Compress 14.59. R1-Compress는 Long-CoT reflection의 약 78%를 보존 |
| Coherence 결과 | Token-level loss는 TokenSkip 0.87, R1-Compress random 0.63, R1-Compress 0.59. Inter-chunk search가 chunk 간 coherence 개선에 기여함 |
| Ablation: chunk size | chunk size 1000보다 500이 더 좋은 성능을 보임. 작은 chunk가 local information을 더 잘 보존하고 압축 난이도를 낮춤 |
| Ablation: search model | search 없이 random 선택하면 MATH500 81.2%, Qwen search는 83.0%, DeepSeek-Distill search는 84.8%. Search mechanism이 성능 개선에 중요함 |
| 논문의 핵심 주장 | Long-CoT 압축에서 중요한 것은 단순히 길이를 줄이는 것이 아니라, reflection과 verification 같은 reasoning behavior는 보존하고 redundant expression만 제거하는 것 |
| 장점 | 기존 instance-level/token-level 압축의 한계를 명확히 분석하고, chunk-level compression + search로 local information과 coherence를 동시에 고려함 |
| 한계 | LLM 기반 압축이라 후보 품질이 항상 보장되지 않음. 압축 데이터셋 생성 비용이 큼. AIME24처럼 어려운 문제에서는 Long-CoT 대비 성능 저하가 큼. Reflection keyword count가 실제 reflection quality를 완전히 대변하지는 않음 |
| 최종 의의 | R1-Compress는 Long-CoT SFT 데이터를 짧고 일관된 reasoning trace로 변환해, 성능 손실을 작게 유지하면서 추론 비용을 줄이는 방법으로 볼 수 있음 |
728x90
'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글
| Adapting Language Models to Compress Contexts (0) | 2026.05.10 |
|---|---|
| LCIRC: A Recurrent Compression Approach for Efficient Long-form Context and Query Dependent Modeling in LLMs (0) | 2026.05.07 |
| OSCAR: Online Soft Compression And Reranking (1) | 2026.04.26 |
| Sequential Efficient LLM 논문 -3 (0) | 2026.03.03 |
| Sequential Efficient LLM 논문 -2 (0) | 2026.03.03 |