인공지능/논문 리뷰 or 진행

LIMO: Less is More for Reasoning

이게될까 2026. 5. 14. 00:29
728x90
728x90

https://arxiv.org/abs/2502.03387

 

LIMO: Less is More for Reasoning

We challenge the prevailing assumption that complex reasoning in large language models (LLMs) necessitates massive training data. We demonstrate that sophisticated mathematical reasoning can emerge with only a few examples. Specifically, through simple sup

arxiv.org

reasoning model로 만들기 위해 필요한 것은 대규모 sft data가 아니라, 이미 pretrained 모델 내부 지식을 잘 이끌어 내는 소수의 고품질 reasoning deminstration으로 유도될 수 있다라는 것을 보여줍니다.

2026.05.14 - [인공지능/논문 리뷰 or 진행] - s1: Simple test-time scaling

 

s1: Simple test-time scaling

https://arxiv.org/abs/2501.19393 s1: Simple test-time scalingTest-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicl

yoonschallenge.tistory.com

이 논문과 유사한 것이라 대충 보고 넘어가겠습니다.

적은 데이터로도 높은 성능 향상을 보일 수 있다!

 

 

 

 

 

핵심 문제의식 기존에는 복잡한 수학 추론 능력을 만들기 위해 수만~수십만 개의 SFT/CoT 데이터가 필요하다고 보았지만, 저자들은 최신 foundation model이 이미 사전학습에서 많은 수학 지식을 내재하고 있으므로 소수의 고품질 예시만으로도 reasoning ability를 끌어낼 수 있는지 검증하고자 함
핵심 가설 LIMO Hypothesis: 충분한 도메인 지식이 사전학습으로 모델 내부에 인코딩되어 있다면, 복잡한 추론 능력은 대규모 데이터가 아니라 정교하게 설계된 소수의 reasoning demonstration만으로도 발현될 수 있음
핵심 아이디어 Post-training의 목적을 새로운 지식 주입이 아니라, 모델이 이미 가진 지식을 long reasoning chain 형태로 전개하도록 유도하는 cognitive template 제공으로 봄
데이터 구성 방식 NuminaMath-CoT, DeepScaleR, AIME 과거 문제, MATH, 중국 수학 시험 문제 등에서 대규모 후보 문제를 수집한 뒤, 쉬운 문제를 제거하고 어려운 문제만 선별함
문제 선별 기준 Qwen2.5-Math-7B-Instruct가 4번 안에 맞히는 쉬운 문제는 제거하고, DeepSeek-R1-Distill-Qwen-32B가 32번 중 1~3번만 맞히는 문제를 선택함. 이를 통해 너무 쉽지 않고, 깊은 추론을 요구하는 문제를 확보함
Reasoning chain 선별 기준 DeepSeek R1, DeepSeek-R1-Distill-Qwen-32B, QwQ-32B로 여러 풀이를 생성한 뒤, 충분한 논리 전개, 자기 검증, 탐색적 사고, 적절한 세부 설명 수준을 기준으로 가장 좋은 풀이를 선택함
최종 데이터셋 LIMO Dataset은 최종적으로 800개 문제-풀이 쌍으로 구성됨. 핵심은 데이터 양이 아니라, 문제 난이도와 reasoning chain 품질임
학습 방법 Qwen2.5-32B-Instruct를 base model로 사용하고, 별도의 RL이나 복잡한 학습 기법 없이 full-parameter supervised fine-tuning을 수행함
학습 세팅 Sequence length 16,384, learning rate 5e-6, cosine decay, warmup 없음, 15 epochs, batch size 64, DeepSpeed ZeRO-3와 FlashAttention-2 사용
주요 성능 LIMO는 800개 데이터만으로 AIME24 63.3%, MATH500 95.6%, AMC23 96.3%를 달성함
비교 결과 같은 Qwen2.5-32B-Instruct를 OpenThoughts-114k나 NuminaMath-100k로 학습한 모델보다 LIMO-800이 더 높은 성능을 보임. 특히 NuminaMath-100k는 평균 32.3%, OpenThoughts-114k는 58.3%인 반면 LIMO는 평균 78.1%를 기록함
OOD 일반화 OlympiadBench, CHMath, Gaokao, Kaoyan, GradeSchool, Minerva, GPQA 등에서도 강한 성능을 보여, 단순 benchmark memorization이 아니라 어느 정도 일반화된 reasoning behavior를 유도했음을 주장함
Ablation 1: Reasoning chain 품질 같은 문제라도 낮은 품질의 풀이보다 높은 품질의 풀이로 학습한 모델이 AIME24와 MATH500에서 더 좋은 성능을 보임. 즉, 정답 여부뿐 아니라 풀이 과정의 질이 중요함
Ablation 2: 문제 난이도 Simple-500, Complex-500, Advanced-500 비교에서 어려운 문제로 학습할수록 AIME24 성능이 상승함.
어려운 문제가 더 깊은 reasoning pattern을 유도한다는 것을 보임
Ablation 3: Base model 지식 Qwen1.5-32B-Chat보다 Qwen2.5-32B-Instruct에서 LIMO 효과가 훨씬 크게 나타남.
이는 LIMO가 약한 모델에 지식을 새로 넣는 방식이 아니라, 이미 강한 pretraining knowledge를 가진 모델의 능력을 끌어내는 방식임을 보여줌
Ablation 4: 모델 크기 3B, 7B, 14B, 32B, 72B 비교에서 모델 크기가 커질수록 특히 AIME24 성능이 크게 향상됨.
다만 32B 이후에는 성능 향상이 완만해짐
Ablation 5: 데이터 수 400개만으로도 AIME24가 16.5%에서 57.5%로 크게 상승하며, 800개 이후에는 성능 향상이 점차 완만해짐.
이는 고품질 데이터의 효과가 초반에 매우 크다는 것을 의미함
핵심 기여 ① reasoning SFT에서도 “quality over quantity”가 성립함을 보임
② LIMO Hypothesis 제안
③ 800개 데이터만으로 강한 수학 추론 성능 달성
④ 문제 난이도와 reasoning chain 품질의 중요성을 실험적으로 검증
한계점 강한 base model과 강한 teacher model에 의존함. 최종 데이터는 800개지만 후보 문제 필터링과 풀이 생성 과정은 비용이 큼.
또한 실험이 주로 수학 reasoning에 집중되어 있어 코드, 법률, 과학, 에이전트 planning 등으로의 일반화는 추가 검증이 필요함
연구적 의의 이 논문은 reasoning post-training을 대규모 데이터 학습 문제가 아니라, pretrained model 내부의 latent reasoning ability를 어떤 예시로 활성화할 것인가의 문제로 재정의함
최종 결론 LIMO는 “많은 데이터가 항상 좋은 reasoning model을 만드는 것은 아니다”라는 점을 강하게 보여준다. 충분히 강한 foundation model에서는 어려운 문제 + 고품질 long reasoning trace + 소수 SFT만으로도 경쟁력 있는 reasoning 성능을 얻을 수 있다
728x90