인공지능/논문 리뷰 or 진행

R1-Compress: Long Chain-of-Thought Compressionvia Chunk Compression and Search

이게될까 2026. 4. 26. 02:46
728x90
728x90

https://arxiv.org/abs/2505.16838

 

R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search

Chain-of-Thought (CoT) reasoning enhances large language models (LLMs) by enabling step-by-step problem-solving, yet its extension to Long-CoT introduces substantial computational overhead due to increased token length. Existing compression approaches -- i

arxiv.org

압축하면서 생성하거나 그런 논문을 보고 싶었는데 여기선 압축된 CoT를 만들고 이를 학습해서 효과적인 reasoning을 하는 모델을 만들겠다 뭐 그런 거네요 

문제의식 Long-CoT는 수학·과학 추론 성능을 높이지만 출력 토큰이 길어져 inference latency와 KV cache 비용이 증가함
기존 방법의 한계 Instance-level 압축은 전체 CoT를 한 번에 줄이므로 reflection 같은 지역 추론 신호가 사라짐. Token-level 압축은 중요하지 않은 토큰을 제거하지만 문장이 부자연스럽고 incoherent해짐
제안 방법 Long-CoT를 여러 chunk로 나누고, 각 chunk를 LLM으로 압축한 뒤, 여러 후보 중 앞선 chunk와 가장 자연스럽게 이어지는 후보를 search model로 선택
핵심 아이디어 local reasoning preservation + global coherence selection
사용 데이터 OpenR1-Math-220k에서 5,000개 샘플 추출, 필터링 후 2,513개로 SFT
평가 모델 Qwen2.5-14B-Instruct, Qwen2.5-32B-Instruct
평가 벤치마크 MATH500, AIME24, GPQA-Diamond
주요 결과 Qwen2.5-32B 기준 MATH500에서 Long-CoT 93.0% → R1-Compress 92.4%로 정확도 0.6%p만 감소, 평균 토큰은 3147 → 2661로 감소
한계 LLM 기반 압축이므로 chunk 후보 품질이 항상 보장되지 않고, 여전히 일부 문맥 불일치 가능성이 있음

이 논문은 딱히라...

대충 표만 정리해놓고 가겠습니다. 

 

 

 

 

핵심 문제 Long-CoT는 수학·과학 추론 성능을 높이지만, 출력 토큰이 길어져 inference latency, KV cache memory, serving cost가 크게 증가함
기존 방법 1: Instance-level compression C3oT, CoT-Valve처럼 전체 CoT를 한 번에 압축하는 방식
Instance-level 한계 전체 reasoning을 짧게 줄이면서 reflection, checking, self-correction 같은 지역적 추론 신호가 사라짐. 논문 실험에서 C3oT는 평균 reflection이 18.68 → 0.15로 급감하고 MATH500 성능도 88.0% → 65.8%로 하락함
기존 방법 2: Token-level compression TokenSkip처럼 중요하지 않은 토큰을 제거하는 방식
Token-level 한계 지역 정보는 일부 보존하지만 문장이 깨지고, LLM의 자연스러운 출력 분포와 맞지 않는 incoherent CoT가 생성됨. TokenSkip의 token-level loss는 0.87로 Long-CoT 0.41보다 높음
핵심 아이디어 Long-CoT를 전체 단위나 토큰 단위가 아니라 chunk 단위로 압축하면, local reasoning 정보를 보존하면서도 문장 coherence를 유지할 수 있음
제안 방법 R1-Compress: ① Long-CoT를 reasoning chunk로 분할 → ② 각 chunk를 LLM으로 여러 후보로 압축 → ③ inter-chunk search로 짧고 자연스럽게 이어지는 후보 선택 → ④ 선택된 chunk들을 이어붙여 compressed CoT 생성
Chunk segmentation 최소 길이 조건과 double newline boundary를 사용해 Long-CoT를 문단 또는 논리적 reasoning unit 단위로 분할
Inner-chunk compression 각 chunk에 대해 LLaMA3.1-70B-Instruct가 여러 압축 후보를 생성. Prompt는 reasoning step, reflection, checking, mistake step을 생략하지 말라고 지시함
Inter-chunk search 각 chunk 후보 중 긴 후보를 먼저 제거한 뒤, 이전에 선택된 chunk들과 문제를 조건으로 search model이 가장 높은 likelihood를 주는 후보를 선택
Search model DeepSeek-R1-Distill-Qwen-14B 사용
학습 방식 압축된 CoT 데이터셋으로 Qwen2.5-Instruct 모델을 full-parameter SFT
학습 데이터 OpenR1-Math-220k에서 5,000개 샘플 추출 후, chunk 수·정답 일치성·압축 비율 등을 필터링해 2,513개 학습 샘플 사용
평가 모델 Qwen2.5-14B-Instruct, Qwen2.5-32B-Instruct
평가 벤치마크 MATH500, AIME24, GPQA-Diamond
주요 결과: Qwen2.5-14B MATH500에서 Long-CoT는 88.0%, 3781 tokens, R1-Compress는 84.8%, 3369 tokens. 정확도는 일부 감소하지만 CoT-Valve, TokenSkip보다 좋은 accuracy-token trade-off를 보임
주요 결과: Qwen2.5-32B MATH500에서 Long-CoT는 93.0%, 3147 tokens, R1-Compress는 92.4%, 2661 tokens. 정확도는 0.6%p만 감소하고 평균 출력 토큰은 크게 감소
GPQA-Diamond 결과 Qwen2.5-32B 기준 Long-CoT는 61.11%, 8054 tokens, R1-Compress는 59.09%, 6963 tokens. OOD 과학 QA에서도 성능 손실을 제한하면서 토큰을 줄임
Reflection 보존 결과 Qwen2.5-14B 기준 평균 reflection 수는 Long-CoT 18.68, CoT-Valve 8.36, R1-Compress 14.59. R1-Compress는 Long-CoT reflection의 약 78%를 보존
Coherence 결과 Token-level loss는 TokenSkip 0.87, R1-Compress random 0.63, R1-Compress 0.59. Inter-chunk search가 chunk 간 coherence 개선에 기여함
Ablation: chunk size chunk size 1000보다 500이 더 좋은 성능을 보임. 작은 chunk가 local information을 더 잘 보존하고 압축 난이도를 낮춤
Ablation: search model search 없이 random 선택하면 MATH500 81.2%, Qwen search는 83.0%, DeepSeek-Distill search는 84.8%. Search mechanism이 성능 개선에 중요함
논문의 핵심 주장 Long-CoT 압축에서 중요한 것은 단순히 길이를 줄이는 것이 아니라, reflection과 verification 같은 reasoning behavior는 보존하고 redundant expression만 제거하는 것
장점 기존 instance-level/token-level 압축의 한계를 명확히 분석하고, chunk-level compression + search로 local information과 coherence를 동시에 고려함
한계 LLM 기반 압축이라 후보 품질이 항상 보장되지 않음. 압축 데이터셋 생성 비용이 큼. AIME24처럼 어려운 문제에서는 Long-CoT 대비 성능 저하가 큼. Reflection keyword count가 실제 reflection quality를 완전히 대변하지는 않음
최종 의의 R1-Compress는 Long-CoT SFT 데이터를 짧고 일관된 reasoning trace로 변환해, 성능 손실을 작게 유지하면서 추론 비용을 줄이는 방법으로 볼 수 있음

 

 

728x90