인공지능/논문 리뷰 or 진행

s1: Simple test-time scaling

이게될까 2026. 5. 14. 00:03
728x90
728x90

https://arxiv.org/abs/2501.19393

 

s1: Simple test-time scaling

Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly share its methodology, leading to many replication efforts.

arxiv.org

 

이 논문은 RL 없이도 1000개의 reasoning trace로 sft하고, 추론 시 모델의 생각 길이를 강제로 조절하는 budget forcing을 적용하여 작은 비용으로도 test-time scaling이 가능한 reasoning model을 만들 수 있음을 보였습니다.

 

token이 늘어날수록 정답률이 오르는 것을 볼 수 있다. 

16개의 소스에서 퀄리티, 난이도, 분포를 조절하여 1000개의 문제를 골라냄 

그 데이터를 통해 Qwen 2.5 32B instruct model에 sft를 진ㄷ행함 

thinking을 짧게 만들기 위해서는 일정 버짓을 넘어가면 엔드 띵크 토큰을 넣고, 길게 만들기 위해서는 엔드 토큰이 나올 때 wait를 통해 reasoning trace를 늘림.

AIME24, MATH500, GPQA Diamond 벤치마크에서 평가하고, 성능이 크게 오름. 

r1distill보다는 성능이 낮은데 데이터의 차이를 말함.

고품질 데이터의 중요성을 말함.

토큰수 제한을 거는 것은 컨트롤이 어려웠음. 

 

 

 

핵심 질문 OpenAI o1처럼 test-time compute를 늘릴수록 reasoning 성능이 좋아지는 모델을 대규모 RL 없이 단순한 방식으로 만들 수 있는가?
문제의식 기존 o1/R1-style reasoning model은 강력하지만, 방법론이 비공개이거나 대규모 RL·대량 데이터·복잡한 multi-stage training에 의존함.
저자들은 가장 단순한 recipe로 test-time scaling을 재현하려 함.
핵심 아이디어 잘 선별한 1,000개 reasoning trace로 SFT하고, 추론 시 budget forcing으로 thinking token 길이를 강제로 조절하면 강한 reasoning 성능과 test-time scaling이 가능함.
데이터셋 s1K: 59,029개 후보 문제에서 최종 1,000개만 선별. Gemini Flash Thinking으로 reasoning trace와 solution을 생성함.
데이터 선별 기준 Quality, Difficulty, Diversity 세 기준 사용.
① 포맷 오류·저품질 샘플 제거,
② Qwen2.5-7B/32B가 맞힌 쉬운 문제 제거,
③ Claude로 domain 분류 후 다양한 분야에서 sampling.
학습 모델 Qwen2.5-32B-Instruct를 base model로 사용하여 s1K에 대해 supervised fine-tuning 수행.
결과 모델은 s1-32B.
학습 방식 Next-token prediction 기반 SFT.
질문에는 loss를 주지 않고, reasoning trace와 final answer에만 loss 적용.
학습 비용 16 NVIDIA H100 GPU에서 약 26분.
총 5 epochs, 315 gradient steps.
핵심 기법: Budget Forcing 모델의 thinking 길이를 decoding 단계에서 강제 조절하는 방법.
너무 길면 end-of-thinking delimiter를 삽입해 종료시키고, 더 생각하게 만들고 싶으면 end-of-thinking을 막은 뒤 "Wait"를 삽입함.
Budget Forcing의 효과 모델이 답을 끝내려 할 때 "Wait"를 넣으면 스스로 검토하거나 오류를 수정하는 경우가 생김.
즉, 단순한 intervention으로 self-correction을 유도함.
평가 벤치마크 AIME24, MATH500, GPQA Diamond. 수학 경시, competition math, PhD-level 과학 reasoning 능력을 평가함.
주요 성능 s1-32B는 AIME24 56.7, MATH500 93.0, GPQA Diamond 59.6을 달성.
Base model Qwen2.5-32B-Instruct의 AIME24 26.7보다 크게 향상됨.
비교 결과 1K 데이터만 사용했음에도 Sky-T1보다 강하고, 일부 benchmark에서 o1-preview와 경쟁 가능함.
다만 DeepSeek-R1 계열보다는 낮음.
Sample efficiency s1-32B는 1,000개 샘플만으로 강한 reasoning 성능을 얻었다는 점에서 sample-efficient reasoning model임.
r1-distill은 약 800K 샘플을 사용한 반면 s1은 1K만 사용함.
Ablation: 데이터 random 1K, diverse-only 1K, longest-only 1K보다 s1K가 전반적으로 우수함.
즉, 단순히 많이 또는 길게 고르는 것이 아니라 품질·난이도·다양성의 결합이 중요함.
Ablation: 59K 전체 학습 59K 전체를 학습해도 s1K 대비 큰 이득이 없음.
이는 reasoning SFT에서 데이터 양보다 선별 품질이 중요함을 시사함.
Ablation: test-time scaling Token control, step control, class control, rejection sampling과 비교했을 때 budget forcing이 control, scaling, performance 측면에서 가장 안정적임.
주요 한계 Budget forcing을 과도하게 적용하면 반복 루프나 plateau가 발생함.
Context window 한계가 있으며, 데이터가 Gemini distillation에 의존함.
평가도 수학·과학 reasoning 중심이라 일반 task로의 확장성은 추가 검증 필요.
논문의 의의 대규모 RL 없이도 소량의 고품질 reasoning trace + 간단한 추론 제어만으로 test-time scaling behavior를 만들 수 있음을 보임.
연구적 해석 이 논문은 reasoning 능력이 base model 내부에 이미 어느 정도 잠재되어 있고, SFT는 이를 새로 학습한다기보다 reasoning mode를 활성화하는 역할을 할 수 있음을 시사함.
후속 연구 방향 더 좋은 reasoning trace selection, RL 없이 가능한 reasoning activation의 한계, budget forcing보다 안정적인 compute controller, SFT 기반 reasoning과 RL 기반 reasoning의 차이 분석이 중요함.
728x90