DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

인공지능/논문 리뷰 or 진행

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - 논문 리뷰

이게될까 2025. 2. 3. 15:51

728x90

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasonin

arxiv.org

2025.02.02 - [인공지능/논문 리뷰 or 진행] - DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model - 논문 리뷰

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model - 논문 리뷰

https://arxiv.org/abs/2405.04434 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language ModelWe present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It co

yoonschallenge.tistory.com

2025.02.02 - [인공지능/논문 리뷰 or 진행] - DeepSeek-V3 Technical Report - 논문 리뷰

DeepSeek-V3 Technical Report - 논문 리뷰

https://arxiv.org/abs/2412.19437 DeepSeek-V3 Technical ReportWe present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training,

yoonschallenge.tistory.com

엔디비아의 주가 폭락, 각종 빅테크와 코인의 떡락을 만들어낸 그 논문입니다...

V3 이후 한 달 뒤에 나온 논문이죠

Deepseek-V3-Base를 기본으로 GPRO를 활용해 강화학습을 진행합니다.

여기선 SFT없이 강화학습 만으로 모델의 추론 성능을 강화합니다.

아하 모멘트 - 초기 접근 방식을 재평가하여 문제에 더 많은 사고 시간 할당 (추론 능력 향상 증거)

여기서 높은 성능을 달성하여 o1-0912와 같은 성능을 발휘했지만 언어 혼합과 낮은 가독성 문제가 발생하여 Cold Start 데이터를 추가하기 시작합니다.
여기서 Cold Start Data는 소량의 SFT 데이터 입니다.

그리하여 o1-1217과 동등한 성능을 달성하는 DeepSeek-R1을 얻습니다.

이러한 성능을 바탕으로 Distillation을 진행하고, 작은 모델에서도 높은 성과를 보여줍니다.

강화학습에서 사용된 GRPO 알고리즘은 V3, V2에서도 지속적으로 사용했던 강화학습 알고리즘입니다.

DeepSeek-R1

1) Cold Start - RL 학습의 초기 불안정안 문제를 방지
=> 소량의 긴 CoT 데이터를 구성, 모델을 Fine-tuning

이를 통해 마크다운 형식, 언어를 한 가지만 쓰며 가독성을 높이고, 일관된 형식의 논리적 사고 과정과 정답을 생성하도록 유도한다.

2) Reasoning-oriented Reinforcement Learning

기존과 비슷한 강화학습이지만 코딩, 수학, 과학 등 논리 추론이 필요한 과정을 진행
또한 언어를 인관적으로 사용하면 보상을 주는 것을 추가하여 성능이 약간 감소하긴 하지만 가독성 증가

3) Rejection Sampling and Supervised Fine-Tuning

여기선 기존 V3모델을 활용하여 고품질의 추론 데이터를 생성합니다.

추론 데이터는 필터링을 통해 위의 규칙 기반 보상을 통해 평가할 수 있는 데이터만 사용하고, 올바른 응답만 유지하여 600k 데이터를 사용

비 논리적 데이터로 V3를 통해 SFT 데이터 세트 일부를 재활용하여 간단한 질의에 대한 응답을 제외하고 CoT 생성한 데이터 200k

이러한 데이터를 통해 2 epoch로 Fine-tuning 진행 (800k *2)

4) Reinforcement Learning for all Scenarios

2단계에서 진행했던 강화학습과 동일한 방식으로 이젠 비 추론 데이터도 진행

여기서 편향적 대답을 감소하고 유용성을 증가 함
~~(여기서 중국에 대한....)~~

DeepSeek-R1의 학습 과정 정리 (개선된 버전)

DeepSeek-R1의 학습 과정은 Cold Start, Reasoning-oriented Reinforcement Learning, Rejection Sampling & Supervised Fine-Tuning, 그리고 Reinforcement Learning for all Scenarios 총 4단계로 구성된다. 이 과정은 기존의 지도학습(SFT) 및 강화학습(RL) 기반 접근법을 개선하여, 논리적 추론뿐만 아니라 다양한 NLP 태스크에서의 성능을 극대화하는 데 초점을 맞춘다.

1) Cold Start - 초기 강화학습(RL) 불안정성 해결

DeepSeek-R1-Zero는 강화학습(RL)을 바로 적용하여 학습을 진행했기 때문에, 학습 초기에 불안정한 출력이 생성되는 문제가 있었다. 이를 해결하기 위해 DeepSeek-R1에서는 Cold Start 단계에서 사전 학습된 모델(DeepSeek-V3-Base)을 활용하여 긴 Chain-of-Thought(CoT) 데이터를 구성하고 Fine-Tuning(SFT)을 수행했다.

📌 Cold Start의 주요 특징:
✅ 소량의 고품질 CoT 데이터 구축 → 모델이 논리적 사고 과정을 자연스럽게 학습하도록 유도
✅ Markdown 형식 및 단일 언어 사용 → 가독성 향상 및 일관된 출력 유지
✅ 정제된 데이터로 Fine-Tuning 수행 → 초기 RL의 불안정성 제거

이 단계에서 모델이 처음부터 논리적인 사고 과정과 일관된 정답을 생성할 수 있도록 사전 학습되며, 이후 강화학습 단계로 자연스럽게 전환된다.

2) Reasoning-Oriented Reinforcement Learning (추론 중심 강화학습)

DeepSeek-R1-Zero와 마찬가지로, DeepSeek-R1에서도 강화학습(RL)을 통해 모델의 논리적 사고 능력을 향상시켰다. 다만, DeepSeek-R1에서는 코딩, 수학, 과학 등 논리적 추론이 필요한 태스크를 중심으로 강화학습을 적용하여 더욱 정교한 reasoning 능력을 학습했다.

📌 주요 개선점:
✅ Reasoning 중심 강화학습 → 수학, 코딩, 과학, 논리 퍼즐 등 정답이 명확한 태스크에 집중
✅ 언어 사용의 일관성 강화 → 특정 언어 혼합을 방지하고 Markdown 형식 준수
✅ 가독성 보상 추가 → 논리적 사고 과정이 명확히 드러나도록 유도 (성능은 약간 감소하지만, 가독성이 향상됨)

이 과정에서 정확성과 가독성 보상을 동시에 적용하여, 단순히 정답을 맞추는 것이 아니라 사용자가 이해하기 쉬운 형식으로 논리적 사고를 표현하는 능력을 강화했다.

3) Rejection Sampling and Supervised Fine-Tuning (거부 샘플링 및 지도학습 미세조정)

강화학습이 수렴한 후, 모델이 생성한 데이터를 활용하여 추가적인 Fine-Tuning을 수행한다. 이 과정에서는 거부 샘플링(Rejection Sampling)을 사용하여 고품질 데이터를 선별하며, 기존의 DeepSeek-V3 모델을 활용하여 비추론(NLP 일반) 태스크에서도 성능을 향상시킨다.

📌 Rejection Sampling (추론 데이터 구축)
✅ 강화학습된 모델(Checkpoint)에서 데이터 샘플링
✅ 여러 개의 답변을 생성한 후, 질이 높은 답변만 필터링하여 데이터셋 구축
✅ Rule-based 보상을 활용하여 정답 검증 → 총 60만 개(600k) 고품질 Reasoning 데이터 구축

📌 Non-Reasoning Data 구축 (비추론 데이터 추가 학습)
✅ DeepSeek-V3의 기존 SFT 데이터셋 일부 재활용
✅ 비추론 태스크(글쓰기, 역할 수행, 질의응답, 번역 등) 포함
✅ 간단한 질의 응답(예: "Hello")에는 CoT를 생성하지 않음
✅ 최종적으로 20만 개(200k) 비추론 데이터 구축

📌 Supervised Fine-Tuning (최종 미세조정)
✅ 총 80만 개(800k)의 데이터로 Fine-Tuning 수행
✅ 2 Epoch 동안 학습을 진행하여 모델을 최적화

이 단계를 통해 DeepSeek-R1은 논리적 추론뿐만 아니라, 창작·번역·사실 기반 QA 등의 능력도 대폭 향상되었다.

4) Reinforcement Learning for all Scenarios (모든 시나리오에 대한 강화학습 적용)

이전 단계에서는 주로 논리적 추론(Reasoning) 중심의 강화학습을 수행했다면, 이제 비추론 데이터(Non-Reasoning Tasks)까지 포함하여 RL을 적용하는 단계다.

📌 이 단계의 핵심 목표:
✅ 비추론 데이터에 대한 강화학습 적용 → 글쓰기, QA, 번역 등의 품질 향상
✅ 모델의 유용성(Helpfulness)과 안전성(Harmlessness) 강화
✅ 편향적 응답(Bias) 감소 → 특정 편향을 줄이도록 보상 시스템 조정

이 과정에서는 모델이 더 유연한 대응을 할 수 있도록 RL을 확장 적용하여, 다양한 NLP 태스크에서 더 높은 성능을 발휘하도록 최적화했다.

🔍 최종 요약

DeepSeek-R1의 학습 과정은 다음과 같이 4단계로 구성된다.

단계	설명
1. Cold Start	긴 CoT 데이터 구축 및 Fine-Tuning → 초기 RL의 불안정성 해결
2. Reasoning-Oriented RL	논리적 추론이 필요한 태스크(코딩, 수학, 과학) 중심의 강화학습
3. Rejection Sampling & SFT	고품질 데이터를 선별하여 지도학습(SFT) 수행
4. RL for all Scenarios	논리적 추론뿐만 아니라 NLP 전반에 걸친 RL 적용

✅ Cold Start를 통해 초기 RL 불안정성을 해결
✅ Reasoning 중심 RL을 적용하여 논리적 사고 능력 강화
✅ Rejection Sampling과 지도학습으로 비추론 태스크 성능 향상
✅ 모든 NLP 태스크에 대한 RL 적용으로 모델의 전반적인 성능 개선

📌 DeepSeek-R1은 기존 강화학습 기반 LLM보다 논리적 추론과 일반 NLP 태스크에서 더욱 뛰어난 성능을 보인다. 🚀

증류 모델에선 SFT만 진행했다는 것도 놀랍네요

RL을 진행하면 모델 성능이 향상되는 것은 아마 확실할 것 같은데 Distill의 능력만 확인했다고 합니다.

이렇게 성능이 오르긴 했는데 중국 관련 C-SimpleQA에서 성능이 훅 떨어집니다.

RL로 인해 과도하게 막아버린 탓 이겠지요...

그래도 코딩도 잘 하고, 수학도 뛰어난 모델이 탄생했습니다.

여기에서 강화학습까지 진행한다면 진짜 어떻게 될 지 모르겠는 Distill 모델들입니다.

성능이 확실이 넘볼 수 없네요...

이 결과를 보면 단순 RL로는 성능의 진전이 쉽게 이루어지지 않는 것을 볼 수 있습니다..

기본적인 모델이 강해야지 RL 효과가 있고, 이제 Distill로 모델이 강화되었으니 저기에 RL을 진행한다면 높은 평가를 받을 수도 있겠지요

연구 목적	LLM의 추론 능력(reasoning capability) 을 강화하기 위해 강화학습(Reinforcement Learning, RL) 을 적용하고, 모델이 자율적으로 논리적 사고를 학습하도록 유도
주요 기여	① 순수 RL만으로도 논리적 사고 능력을 유도 가능함을 증명 (DeepSeek-R1-Zero) ② Cold Start를 통해 RL 학습 초기 불안정성 해결 (DeepSeek-R1) ③ Rejection Sampling과 지도학습(SFT)으로 품질 높은 데이터 선별 및 학습 ④ 소형 모델에서도 추론 능력을 유지할 수 있도록 Distillation 적용
모델 구조	- DeepSeek-R1-Zero: 순수 강화학습 기반 모델 - DeepSeek-R1: Cold Start 후 강화학습 적용 - Distilled 모델: 소형 모델로 추론 능력 전이
1. Cold Start (초기 학습 안정화)	- RL 학습 초기 불안정성을 방지하기 위해 긴 Chain-of-Thought (CoT) 데이터를 구축하여 Fine-Tuning(SFT) 진행 - 가독성과 일관성을 확보하기 위해 Markdown 형식 적용, 단일 언어 사용
2. Reasoning-Oriented RL (추론 중심 강화학습)	- 논리적 추론이 필요한 태스크(코딩, 수학, 과학 등) 중심의 강화학습 적용 - 가독성을 높이기 위해 언어 사용 일관성 유지 → 성능은 약간 감소하지만 가독성 향상
3. Rejection Sampling & SFT (데이터 정제 및 지도학습 미세조정)	- 강화학습된 모델이 생성한 답변 중, 질이 높은 데이터만 선별하여 추가 학습 - 600k reasoning 데이터 구축 (Rejection Sampling 활용) - 200k non-reasoning 데이터 구축 (글쓰기, QA, 역할 수행 등 포함) - 총 800k 데이터로 2 Epoch Fine-Tuning 진행
4. RL for all Scenarios (모든 시나리오에 대한 강화학습 적용)	- 논리적 추론뿐만 아니라, 일반적인 NLP 태스크에도 RL 적용 - 모델의 유용성(Helpfulness)과 안전성(Harmlessness) 강화, 편향성 감소
학습 방식	- Cold Start → RL → Rejection Sampling → SFT → RL for all Scenarios 순으로 진행 - GRPO(Group Relative Policy Optimization) 알고리즘 사용 (Critic 없이 효율적인 RL 최적화)
실험 결과	- Reasoning 성능: OpenAI-o1-1217 수준의 성능 달성 (AIME 2024: 79.8%, MATH-500: 97.3%) - 코딩 성능: Codeforces 상위 96.3% 수준의 성능 - 비추론 성능: 일반 NLP 태스크(창작, 번역, QA)에서 높은 성능 유지
Distillation (소형 모델 학습)	- DeepSeek-R1의 reasoning 능력을 소형 모델(1.5B~70B)에 전이 - Distilled 모델이 RL만 적용한 동일 규모 모델보다 성능이 더 우수함을 확인
한계점 및 향후 연구 방향	- 다국어 지원 부족 → 다양한 언어 학습 필요 - Few-shot prompting에 민감 → Prompt 최적화 연구 필요 - 소프트웨어 엔지니어링 태스크 강화 필요 → SW 관련 RL 데이터 추가 연구

1. 연구 목적 및 문제 정의

최근 대형 언어 모델(LLM)의 발전이 AGI(Artificial General Intelligence)로 가는 중요한 단계로 여겨지며, 다양한 후처리(post-training) 기법이 개발되고 있다. 특히, OpenAI의 o1 모델이 체인 오브 생각(Chain-of-Thought, CoT) 방식의 추론을 통해 성능을 극대화하는 사례가 등장하면서, 모델의 추론 능력을 강화하는 방안이 주요 연구 주제로 떠오르고 있다.

이 논문에서는 기존의 지도 학습(SFT, Supervised Fine-Tuning) 없이도 LLM이 자체적으로 추론 능력을 발전시킬 수 있는지 탐구하고자 한다. 이를 위해 순수한 강화학습(RL) 기반 접근법을 적용한 DeepSeek-R1-Zero를 개발하고, 이후 이를 보완한 DeepSeek-R1을 제안하였다.

2. 연구 방법 및 모델 구조

논문에서는 크게 세 가지 연구 방향을 제시한다.

2.1. DeepSeek-R1-Zero: 순수한 강화학습 기반 모델

DeepSeek-V3-Base 모델을 기반으로, GRPO(Group Relative Policy Optimization) 알고리즘을 적용하여 RL만으로 추론 능력을 학습.
모델의 학습 과정에서 자연스럽게 CoT(Chain-of-Thought) 방식의 추론 패턴이 출현했으며, 특정 시점에서 “aha moment”가 발생하여 더 깊은 사고 과정을 학습함.
RL 과정에서 모델이 점진적으로 스스로 검토하고 수정하는 능력을 획득함.
문제점: 결과의 가독성이 떨어지고, 언어 혼합(Language Mixing) 현상이 나타남.

2.2. DeepSeek-R1: Cold Start 데이터와 다단계 학습 적용

DeepSeek-R1-Zero의 단점을 보완하기 위해, 초기 단계에서 일부 고품질 CoT 데이터를 활용하여 모델을 사전 미세 조정(SFT).
이후 RL을 적용하여 추론 중심의 강화학습을 진행, 성능을 개선함.
이후 거부 샘플링(Rejection Sampling)과 추가적인 SFT를 통해 모델의 일반적 문서 생성 능력을 보강.
최종적으로 모든 시나리오를 포함한 RL 학습을 진행하여, 단순한 추론 외에도 전반적인 자연어 처리(NLP) 능력을 향상시킴.

2.3. Distillation: 소형 모델에서도 추론 능력 유지

DeepSeek-R1을 기반으로 다양한 규모(1.5B, 7B, 8B, 14B, 32B, 70B)의 모델을 distillation 방식으로 제작.
실험 결과, 단순히 RL을 적용한 모델보다 대형 모델에서 학습한 추론 능력을 distillation한 모델이 더 성능이 우수함을 확인.

3. 실험 및 결과 분석

DeepSeek-R1은 다양한 벤치마크에서 평가되었으며, OpenAI-o1-1217과 동등한 수준의 성능을 기록했다.

3.1. 주요 성능 평가

수학 및 논리 추론: AIME 2024 (Pass@1) 79.8%, MATH-500 (Pass@1) 97.3%로 OpenAI-o1-1217과 유사한 성능.
코딩 성능: Codeforces 상위 96.3% 수준의 성능을 기록.
지식 기반 태스크: MMLU (90.8%) 및 GPQA Diamond (71.5%)에서 높은 성능을 보임.
오픈 도메인 질의응답: AlpacaEval 2.0에서 87.6%의 승률 기록.

3.2. Distillation 모델 평가

DeepSeek-R1에서 distillation한 14B 모델은 기존 QwQ-32B-Preview보다 성능이 우수.
32B 및 70B 모델은 OpenAI-o1-mini보다 높은 성능을 기록.
RL 없이도 단순한 SFT 기반 distillation만으로도 강력한 추론 능력이 유지됨.

4. 논의 및 향후 연구 방향

4.1. Distillation vs. Reinforcement Learning

소형 모델에서는 대규모 RL을 수행하는 것보다 대형 모델에서 학습한 추론 패턴을 distillation하는 것이 더 효과적임을 입증.
RL을 적용한 Qwen-32B 모델과 distillation된 Qwen-32B 모델을 비교했을 때, distillation 방식이 훨씬 높은 성능을 보임.

4.2. 비성공 사례

과정 기반 보상 모델(Process Reward Model, PRM): 중간 과정의 정확성을 평가하는 것이 어려우며, 보상 해킹 문제가 발생.
몬테카를로 트리 탐색(MCTS): 검색 공간이 너무 커서 모델이 로컬 최적해(Local Optima)에 빠질 위험이 큼.

4.3. 향후 연구 방향

일반적인 자연어 처리(NLP) 기능 개선: 다중 회화, 역할 수행, JSON 형식 출력 등의 능력 향상.
다국어 최적화: 현재 모델은 중국어와 영어에 최적화되어 있으며, 다른 언어 처리 능력을 개선할 필요가 있음.
프롬프트 엔지니어링 개선: Few-shot prompting이 성능을 저하시킴. 최적의 zero-shot 방식 연구 필요.
소프트웨어 엔지니어링 태스크 강화: 현재 SW 엔지니어링 관련 RL 데이터가 부족하며, 향후 추가적인 평가가 필요함.

5. 결론

본 연구는 지도학습 없이 강화학습만으로 LLM의 추론 능력을 향상시킬 수 있음을 실험적으로 증명.
다단계 학습 및 Cold Start 데이터를 활용하여 더 안정적이고 성능이 뛰어난 DeepSeek-R1을 개발.
Distillation을 통해 소형 모델에서도 강력한 추론 능력을 유지할 수 있음을 입증.
향후 연구에서는 다국어 지원, 프롬프트 최적화, 소프트웨어 엔지니어링 태스크 개선 등을 목표로 삼을 예정.

📌 핵심 요약

✔ 강화학습(RL)만으로도 LLM이 추론 능력을 획득할 수 있음
✔ Cold Start 데이터와 다단계 학습을 활용하면 더 강력한 모델을 만들 수 있음
✔ Distillation을 통해 소형 모델에서도 강력한 추론 성능 유지 가능
✔ 향후 연구는 다국어 지원, 소프트웨어 엔지니어링 태스크 강화를 목표로 진행 예정

이 논문은 LLM의 추론 능력을 향상시키는 새로운 방향을 제시하며, 특히 순수 강화학습 기반 접근법과 Distillation의 효과를 강조하고 있다. 🚀

GRPO (Group Relative Policy Optimization) 알고리즘 이해하기

GRPO(Group Relative Policy Optimization)는 강화학습(RL)의 비용을 절감하면서도 효과적인 정책 최적화를 수행하는 알고리즘이다. 기존의 RL 기법에서는 Critic 네트워크(보상 예측 모델)를 사용하여 정책(Policy)을 최적화하는데, GRPO는 이 Critic 모델을 없애고 대신 그룹 내 상대적인 보상을 활용하여 학습하는 방식이다.

1. GRPO의 핵심 아이디어

기존의 RL 알고리즘인 PPO(Proximal Policy Optimization)에서는 Critic 모델을 사용하여 보상을 예측하고 이를 기반으로 Policy를 업데이트했다. 그러나 Critic 모델은 Policy 모델과 동일한 크기의 신경망을 요구하므로 계산 비용이 많이 든다.

GRPO는 Critic 모델 없이 정책을 최적화하기 위해 다음과 같은 방법을 사용한다:

여러 개의 답변(출력)을 생성하여 그룹을 형성한다.
그룹 내에서 각 답변의 상대적인 보상을 평가하여 정책을 업데이트한다.
기존 정책과 비교하면서 보상이 높은 방향으로 모델을 업데이트한다.

2. GRPO의 학습 과정 (예시 포함)

(1) 기존 PPO 방식

일반적으로 강화학습에서는 다음과 같은 과정이 진행된다.

LLM(대형 언어 모델)이 문제 q 에 대해 여러 개의 답변 o_1, o_2, ..., o_G 을 생성한다.
Critic 모델이 각 답변에 대해 보상을 예측한다.
답변과 보상을 비교하여 정책을 업데이트한다.

💡 문제점:

Critic 모델을 훈련하는 데 추가적인 연산 비용이 든다.
보상의 절대적인 기준을 설정하는 것이 어렵다.

(2) GRPO 방식

3. 예제: GRPO 적용 과정

(1) 예제 문제

🤖 문제:
"2x + 3 = 7을 푸는 과정과 답을 설명하세요."

(2) 기존 정책을 사용하여 답변 생성

DeepSeek-R1이 아래와 같이 3개의 답변을 생성했다고 가정하자.

답변 1:

Step 1: 2x + 3 = 7
Step 2: 2x = 7 - 3
Step 3: x = 4
✅ (정답, 간결한 풀이)

답변 2:

Step 1: 2x + 3 = 7
Step 2: 2x = 7 - 3
Step 3: x = 4
Step 4: 따라서 x는 4이다.
Step 5: 더 나아가, x = 4를 대입하여 확인 가능하다.
✅ (정답, 불필요한 정보 추가됨)

답변 3:

Step 1: 2x + 3 = 7
Step 2: x = (7 - 3) / 2
Step 3: x = 2
❌ (오답)

(3) 그룹 내 상대적인 보상 평가

각 답변에 대해 보상을 부여한다고 가정하자.

답변 1: 보상 1.0 (정확하고 간결함)
답변 2: 보상 0.8 (정확하지만 불필요한 정보가 있음)
답변 3: 보상 0.0 (오답)

그룹 내 보상의 평균과 표준편차를 계산하여 상대적인 보상(Advantage, AiA_i) 를 구한다.

즉, 답변 1을 생성할 확률을 증가시키고, 답변 3을 생성할 확률을 감소시키도록 정책을 업데이트한다.

4. GRPO의 장점

✅ Critic 모델이 필요 없음 → 연산량 절약
✅ 상대적인 보상을 활용하여 학습 → 보상 신호가 명확함
✅ 정책 업데이트 안정성 보장 → KL Divergence 적용
✅ 더 나은 답변을 선호하도록 학습 가능 → LLM 성능 향상

5. 연구 적용 방안

GRPO는 LLM의 추론 능력을 강화하는 데 매우 유용한 방법으로 다음과 같이 연구에 적용할 수 있다.

Mixture of Experts (MoE) 모델에서 GRPO 활용
- MoE 모델에서 Expert 간 상대적인 평가를 수행하여 더 나은 Expert를 학습하는 방식으로 확장 가능.
Fine-tuning된 소형 모델에서도 적용
- GRPO는 Distillation된 모델에서도 적용 가능하므로, 작은 모델에서도 성능 향상을 기대할 수 있음.
다양한 보상 모델과 조합
- GRPO의 상대 보상 평가 방식을 활용하여 추론의 신뢰도(Confidence Score)와 결합할 수 있음.

📌 결론

GRPO는 Critic 모델 없이 그룹 내 상대적인 보상을 활용하여 강화학습을 수행하는 기법이다.
이 방법은 LLM이 더욱 효율적으로 추론 능력을 향상시키는 데 유용하며, 비용 절감 효과가 크다.
MoE 모델, Distillation 모델 등 다양한 연구에 적용할 수 있는 확장 가능성이 크다.

DeepSeek-R1-Zero의 보상 시스템 및 학습 과정

DeepSeek-R1-Zero의 학습 과정은 강화학습(RL) 기반의 최적화 방식으로 진행된다. 이 과정에서 보상(Reward) 은 모델이 올바른 방향으로 학습할 수 있도록 신호를 제공하는 핵심 요소다. 본 논문에서는 규칙 기반(rule-based) 보상 시스템을 활용하여 모델을 학습시키며, 이는 크게 정확성 보상(Accuracy Reward)과 형식 보상(Format Reward) 으로 구성된다.

1. 보상 시스템 (Reward System)

논문에서는 심층 신경망 기반의 보상 모델(Neural Reward Model) 대신 규칙 기반 보상 시스템을 사용한다.
이유: Neural Reward Model은 보상 해킹(Reward Hacking)에 취약하고, 추가적인 학습 비용이 발생하기 때문.

1.1. 정확성 보상 (Accuracy Reward)

✅ 올바른 답을 생성하는지 평가하는 보상
✅ 객관적으로 정답을 판별할 수 있는 경우에 활용 (예: 수학, 코딩 문제)

📌 보상 부여 방식

수학 문제의 경우: 정답이 특정 형식(예: 정답: [4])으로 나와야 보상을 부여함.
코딩 문제의 경우: LeetCode 스타일로 테스트 케이스를 통과하면 보상을 줌.
일반적인 질문 응답: 정답과 비교하여 정확도를 평가.

📌 예제

문제: 2x + 3 = 7을 풀어라.
답변 1: x = 2  ✅ (보상 +1)
답변 2: x = 4  ❌ (보상 0)
답변 3: x = 2, 따라서 x는 2입니다. ✅ (보상 +1)

답변 1과 답변 3은 정확한 답을 제공하므로 보상을 받음. 답변 2는 오답이므로 보상이 없음.

1.2. 형식 보상 (Format Reward)

✅ 모델이 "논리적 사고 과정"을 명확히 작성하도록 유도하는 보상
✅ 답변이 특정한 구조를 따를 경우 보상 부여

📌 보상 부여 방식

답변이 <think>...</think> 태그 안에서 논리적 사고 과정을 기술하면 보상을 부여.
정답은 <answer>...</answer> 태그 안에 포함되어야 함.

📌 예제

질문: 2x + 3 = 7을 풀어라.

❌ 잘못된 형식 (보상 없음)
x = 2

✅ 올바른 형식 (보상 +1)
<think> 2x + 3 = 7에서, 양변에서 3을 빼면 2x = 4가 된다. x를 구하기 위해 양변을 2로 나누면 x = 2이다. </think>
<answer> x = 2 </answer>

→ 모델이 논리적 사고 과정을 먼저 작성한 후 정답을 제시하도록 유도하여 더욱 강력한 추론 능력을 갖추게 만듦.

2. 학습 과정 (Training Process)

DeepSeek-R1-Zero의 학습은 다음과 같은 단계적 강화학습(Phased RL Training) 을 따른다.

2.1. 학습 템플릿 (Training Template)

논문에서는 모델이 특정한 학습 템플릿을 따르도록 유도하여 학습을 진행한다.
즉, 명확한 사고 과정을 거친 후 정답을 제시하도록 강제하는 구조를 갖춘다.

📌 템플릿 예제

질문: 2x + 3 = 7을 풀어라.

출력 예제:
<think> 2x + 3 = 7에서, 양변에서 3을 빼면 2x = 4가 된다. x를 구하기 위해 양변을 2로 나누면 x = 2이다. </think>
<answer> x = 2 </answer>

이 방식은 체인 오브 생각(Chain-of-Thought, CoT) 과 유사한 방식으로 모델이 자연스럽게 사고 과정을 학습할 수 있도록 설계되었다.

2.2. 학습 단계

학습 과정은 크게 초기 학습 (Pre-training)과 강화학습 (Reinforcement Learning) 두 단계로 구성된다.

1) 초기 학습 (Pre-training)

기본적인 언어 이해 능력을 갖춘 DeepSeek-V3-Base 모델 사용
모델이 기본적인 NLP 태스크(일반 질의응답, 번역, 텍스트 요약 등)를 수행할 수 있도록 미리 학습.

2) 강화학습 (Reinforcement Learning)

RL 과정에서 정확성 보상(Accuracy Reward)과 형식 보상(Format Reward)을 적용
보상이 높은 출력을 생성할 확률을 증가시키는 방식으로 학습
GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 Critic 없이 학습 진행

📌 학습 과정 예시

모델이 문제를 보고 여러 개의 답변을 생성한다.
각 답변에 대해 정확성 보상과 형식 보상을 부여한다.
보상이 높은 답변을 더 많이 생성하도록 정책을 업데이트한다.
반복적인 RL 훈련을 통해 모델이 더욱 정교한 답변을 생성하도록 개선.

3. 왜 Neural Reward Model을 사용하지 않았을까?

논문에서는 심층 신경망 기반의 보상 모델(Neural Reward Model)이 아니라 규칙 기반 보상 시스템(Rule-based Reward System) 을 선택했다.
그 이유는 다음과 같다.

✅ Neural Reward Model의 문제점

보상 해킹(Reward Hacking) 문제
- 모델이 올바른 답을 내기보다는 보상 모델을 속이는 방법을 학습할 가능성이 있음.
- 예를 들어, 정답을 내지 않고도 보상을 받을 수 있는 방식으로 출력을 조작할 수 있음.
추가적인 학습 비용
- Neural Reward Model을 학습시키려면 또 다른 대형 모델을 학습해야 함.
- RL 자체도 연산량이 많은데, 추가적인 보상 모델까지 학습시키면 과도한 비용이 발생.
보상 모델의 신뢰성 문제
- Neural Reward Model은 사람이 직접 설계한 것이 아니므로 왜 특정 보상을 부여했는지 해석하기 어려움.
- 반면, Rule-based Reward System은 사람이 직접 보상 기준을 설정하므로 더 직관적이고 신뢰성이 높음.

4. 결론 및 향후 연구 방향

DeepSeek-R1-Zero의 보상 시스템은 단순하지만 효과적인 규칙 기반 보상 시스템을 사용하여 모델이 논리적 추론 능력을 향상시키도록 유도한다.

🚀 핵심 정리 ✔ 정확성 보상 (Accuracy Reward) → 정답이 맞으면 보상을 부여
✔ 형식 보상 (Format Reward) → <think> 태그로 사고 과정을, <answer> 태그로 정답을 제공하면 보상
✔ Neural Reward Model 사용 X → 보상 해킹 방지, 학습 비용 절감
✔ GRPO 기반 강화학습 진행 → Critic 없이 효율적인 RL 최적화

💡 향후 연구 방향

보상 시스템을 확장하여 더 복잡한 reasoning task 적용 가능성 탐색
추론이 어려운 문제에 대한 추가적인 보상 체계 연구
Rule-based 보상과 Neural Reward Model을 조합하는 하이브리드 보상 모델 탐색

그럼 여기서 Reward는 누가 주는거야?
초 거대 언어 모델을 통해 사고 과정을 확인하고 그에 따른 보상을 주는건가?

DeepSeek-R1-Zero에서 Reward(보상)는 누가 주는가?

DeepSeek-R1-Zero의 보상(Reward)은 사람이 직접 주는 것이 아니라, 사전에 정의된 규칙(rule-based system)을 통해 자동으로 부여된다.
즉, 인간 평가자가 직접 하나하나 확인하여 보상을 주는 것이 아니라, 정해진 규칙에 따라 모델의 출력을 평가하고, 이에 맞는 보상을 자동으로 계산하는 시스템을 사용한다.

1. 보상은 어떻게 주어지는가?

DeepSeek-R1-Zero는 규칙 기반 보상 시스템(Rule-based Reward System) 을 사용한다. 이는 기존의 Neural Reward Model과 다르게, 미리 정의된 규칙을 따라 보상을 부여하는 방식이다.

✅ 보상 주체: Rule-based Reward System

사람이 직접 보상을 평가하는 것이 아니라 사전에 정의된 평가 함수가 자동으로 보상을 계산한다.
특정 기준을 만족하면 높은 보상을 받고, 그렇지 않으면 낮은 보상을 받는다.
이 방식은 강화학습(RL) 과정에서 모델이 자율적으로 보상을 학습하도록 설계되어 있다.

2. 보상은 어떤 방식으로 주어지는가?

보상은 크게 정확성 보상(Accuracy Reward)과 형식 보상(Format Reward) 으로 나뉜다.

(1) 정확성 보상 (Accuracy Reward)

📌 누가 평가하는가?

미리 정의된 정답 검사 시스템이 평가함.
사람이 직접 평가하는 것이 아니라, 답이 정답과 일치하는지 자동으로 검증하는 방식.

📌 보상 방식 예시

수학 문제: 답이 정확하게 일치해야 함 (정답: [4] 같은 형식으로 고정).
코딩 문제: LeetCode 스타일 테스트 케이스를 통과하면 보상 부여.
객관식 문제: 정답과 일치 여부를 비교하여 점수를 매김.

📌 예제

문제: 2x + 3 = 7을 풀어라.
모델 답변 1: x = 2   ✅ (정답, 보상 +1)
모델 답변 2: x = 4   ❌ (오답, 보상 0)
모델 답변 3: 답은 2이다. ✅ (정답, 보상 +1)

→ 답변이 정답과 일치하면 보상이 주어지고, 오답이면 보상이 주어지지 않음.

(2) 형식 보상 (Format Reward)

📌 누가 평가하는가?

미리 정의된 출력 형식 검사 시스템이 평가함.
특정한 형식을 준수하면 보상을 받음.

📌 보상 방식 예시

<think>...</think> 태그 안에서 논리적 사고 과정을 서술해야 함.
<answer>...</answer> 태그 안에서 정답을 명확하게 명시해야 함.

📌 예제

문제: 2x + 3 = 7을 풀어라.

❌ 잘못된 형식 (보상 없음)
x = 2

✅ 올바른 형식 (보상 +1)
<think> 2x + 3 = 7에서, 양변에서 3을 빼면 2x = 4가 된다. x를 구하기 위해 양변을 2로 나누면 x = 2이다. </think>
<answer> x = 2 </answer>

→ 형식을 맞추지 않으면 보상이 없으며, 형식을 맞추면 보상을 받음.

3. Neural Reward Model을 사용하지 않는 이유

기존에는 Neural Reward Model(초거대 언어 모델을 활용하여 보상을 평가하는 방식)을 사용했지만, 논문에서는 이를 사용하지 않음. 그 이유는 다음과 같다.

❌ Neural Reward Model의 문제점

보상 해킹(Reward Hacking) 발생 가능
- 모델이 "진짜 좋은 답"을 찾는 것이 아니라, 보상 모델이 선호하는 형식을 속여서 보상을 극대화하는 방식으로 학습할 위험이 있음.
- 예를 들어, 모델이 "정답은 반드시 '정답:'으로 시작해야 한다"는 패턴을 학습하면, 실제 정답이 아니라 형식만 맞춰 보상을 받으려 할 가능성이 있음.
훈련 비용이 큼
- Neural Reward Model을 학습시키려면 또 다른 대형 모델이 필요하며, 연산 비용이 급격히 증가함.
- RL 자체도 연산량이 많은데, 추가적인 보상 모델까지 학습시키면 과도한 비용이 발생.
보상 모델의 신뢰성 문제
- Neural Reward Model은 사람이 직접 설계한 것이 아니므로 왜 특정 보상을 부여했는지 해석하기 어려움.
- 반면, Rule-based Reward System은 사람이 직접 보상 기준을 설정하므로 더 직관적이고 신뢰성이 높음.

4. 보상 시스템이 강화학습 과정에서 어떻게 작동하는가?

강화학습(RL) 과정에서는 보상이 높은 출력을 생성할 확률을 증가시키는 방식으로 학습이 진행된다.

📌 강화학습 과정 (RL Optimization)

모델이 문제를 보고 여러 개의 답변을 생성한다.
정확성 보상과 형식 보상을 부여한다.
보상이 높은 답변을 더 많이 생성하도록 정책을 업데이트한다.
반복적인 RL 훈련을 통해 모델이 더욱 정교한 답변을 생성하도록 개선된다.

💡 GRPO(Group Relative Policy Optimization) 알고리즘을 적용하여 Critic 없이 강화학습을 진행.
→ 보상을 절대적인 기준으로 평가하는 것이 아니라, 그룹 내 상대적인 차이를 이용하여 최적화.

5. 결론 및 향후 연구 방향

DeepSeek-R1-Zero는 규칙 기반 보상 시스템을 사용하여 강화학습을 수행하며, Neural Reward Model을 사용하지 않는다는 점이 특징이다.

✅ 누가 보상을 주는가?
→ 사람이 아닌 사전에 정의된 규칙 기반 평가 시스템이 자동으로 보상을 제공한다.

✅ 보상은 어떻게 주어지는가?
→ 정확성 보상(Accuracy Reward)과 형식 보상(Format Reward) 두 가지 기준에 따라 보상을 부여.

✅ Neural Reward Model을 사용하지 않는 이유?
→ 보상 해킹 방지, 학습 비용 절감, 신뢰성 확보.

💡 향후 연구 방향

보상 시스템을 확장하여 더 복잡한 reasoning task 적용 가능성 탐색
추론이 어려운 문제에 대한 추가적인 보상 체계 연구
Rule-based 보상과 Neural Reward Model을 조합하는 하이브리드 보상 모델 탐색

DeepSeek-R1의 Cold Start: 상세 설명

Cold Start는 DeepSeek-R1-Zero가 겪었던 초기 불안정한 강화학습(RL) 단계를 개선하기 위한 사전 학습 과정이다.
강화학습을 바로 적용하면 학습이 불안정해질 수 있기 때문에, 고품질의 긴 Chain-of-Thought(CoT) 데이터를 수집하여 SFT(Supervised Fine-Tuning) 를 진행한 후 RL을 적용하는 방식이다.

1. Cold Start의 목적

DeepSeek-R1-Zero는 초기 단계부터 RL을 적용했기 때문에, 다음과 같은 문제점이 있었다.

초기 학습이 불안정
- RL을 처음부터 적용하면 모델이 올바른 방향으로 학습되지 않을 위험이 큼.
- 보상이 적절하지 않으면 모델이 의미 없는 출력을 생성할 수 있음.
출력의 가독성이 낮음
- DeepSeek-R1-Zero는 때때로 언어를 섞어 쓰거나, Markdown 형식을 맞추지 못하는 등의 문제 발생.
- 사용자 친화적인 형식이 부족함.

이를 해결하기 위해 Cold Start 데이터를 구축하여 DeepSeek-V3-Base 모델을 먼저 SFT 하고, 이후 RL을 적용하는 접근법을 채택했다.

2. Cold Start 데이터 구축 과정

Cold Start 데이터를 구축하는 과정은 크게 4단계로 진행되었다.

(1) Few-shot Prompting을 활용한 긴 CoT 생성

기존 LLM(예: DeepSeek-V3, GPT-4 등)에 Few-shot prompting을 적용하여 긴 Chain-of-Thought(CoT) 데이터를 생성.

예제:

[Prompt] "다음 문제를 Chain-of-Thought 방식으로 단계별로 풀이하고, 최종 답을 제시하시오."

(2) 모델을 직접 활용하여 추가 데이터 생성

모델을 직접 활용하여 추가적인 자기반성(Reflection) 및 검증(Verification) 과정이 포함된 답변을 생성.
기존 DeepSeek-R1-Zero가 생성한 데이터를 활용하되, 가독성이 좋은 데이터를 선별.

(3) Human Annotators(사람) 통한 후처리

DeepSeek-R1-Zero의 출력을 사람이 직접 검토하여 잘못된 부분을 수정.
특정 답변 형식이 일관되도록 형식 통일 작업을 진행.

(4) 데이터 필터링 및 정제

사람이 읽기 쉬운 데이터를 만들기 위해 Markdown 형식 적용 및 언어 혼합 제거.
최종 데이터는 다음과 같은 형식을 따름:
```
|special_token| <reasoning_process> |special_token| <summary>
```
- <reasoning_process>: 논리적 사고 과정(CoT)
- <summary>: 해당 문제 풀이를 간략히 요약한 내용

3. Cold Start의 학습 과정

Cold Start 데이터 구축 후, DeepSeek-R1의 학습 과정은 다음과 같이 진행된다.

DeepSeek-V3-Base를 SFT(Supervised Fine-Tuning)
- 수천 개의 Cold Start 데이터(긴 CoT 포함)를 사용하여 SFT 진행.
- 모델이 일관된 형식의 논리적 사고 과정과 정답을 생성하도록 유도.
SFT 완료 후, RL 적용
- 강화학습(RL) 과정에서 보상 기반으로 모델을 최적화.
- 이때, 이미 사고 과정(CoT)을 자연스럽게 생성하도록 학습된 모델을 사용하므로 학습 안정성이 높아짐.

4. Cold Start의 장점

Cold Start 데이터를 추가함으로써 DeepSeek-R1-Zero보다 더 나은 성능을 확보할 수 있었다.

(1) 가독성(Readability) 향상

DeepSeek-R1-Zero는 혼합된 언어, 형식 오류, 난해한 설명 등의 문제가 있었음.
Cold Start 데이터를 설계할 때 사람이 읽기 쉬운 형식을 유지하도록 수정.
Markdown 형식 적용 및 CoT-정답 요약 구조 도입.

(2) 학습 안정성 증가

DeepSeek-R1-Zero는 처음부터 RL을 적용했기 때문에 학습이 불안정했음.
Cold Start를 통해 초기 RL 훈련의 불안정성을 제거하고, 더 빠른 수렴을 유도.

(3) 더 강력한 추론 능력 확보

Cold Start 데이터를 통해 모델이 처음부터 긴 CoT를 생성하는 방식으로 학습.
단순한 답변을 넘어, 논리적 사고 과정(추론 능력)이 향상됨.

5. 결론 및 요약

✔ Cold Start는 긴 CoT 데이터를 구축하여 초기 SFT를 수행한 후 RL을 적용하는 과정
✔ Few-shot Prompting + 모델 생성 + 사람이 직접 검토하여 고품질 데이터 구축
✔ 가독성이 높은 형식으로 데이터를 정제하여 학습 안정성 향상
✔ DeepSeek-R1-Zero보다 더 뛰어난 추론 능력을 갖춘 모델을 만들 수 있음

Rejection Sampling과 Supervised Fine-Tuning (SFT)

DeepSeek-R1의 학습 과정에서 강화학습(RL)만으로는 부족한 부분을 보완하기 위해 Rejection Sampling과 Supervised Fine-Tuning(SFT) 단계를 추가했다.
이 단계에서는 모델이 생성한 데이터를 필터링하고, 고품질 데이터만을 선택하여 추가 학습하는 과정이 포함된다.

1. 이 단계의 목적 (왜 이런 과정을 추가했는가?)

DeepSeek-R1-Zero 및 DeepSeek-R1의 강화학습이 충분히 진행된 이후, 모델은 기본적인 논리적 추론(reasoning) 능력을 갖추게 된다.
그러나 강화학습(RL)만으로는 모델의 다양한 일반적인 능력(창작, 역할 수행, 질문 응답 등)을 개선하기 어려움이 있다.

💡 따라서, 아래 두 가지 데이터를 추가로 학습하여 모델의 성능을 더욱 개선하고자 함.

추론 관련 데이터 (Reasoning Data)
- RL 모델이 생성한 다양한 답변 중에서 질이 높은 데이터만을 선별하여 추가 학습
비추론 데이터 (Non-Reasoning Data)
- 글쓰기, 역할 수행(Role-Playing), 사실 기반 질의응답(Factual QA), 자기 인식(Self-Cognition) 등 다양한 NLP 태스크 추가

2. Rejection Sampling이란? (Reasoning Data 구축 과정)

Rejection Sampling(거부 샘플링)은 모델이 생성한 여러 답변 중, 좋은 품질의 데이터만 선택하여 학습하는 과정이다.

(1) 어떻게 데이터를 수집하는가?

강화학습이 완료된 체크포인트(checkpoint) 모델을 사용하여 데이터 생성
동일한 질문(prompt)에 대해 여러 개의 답변을 생성한 후, 가장 품질이 높은 데이터만 남김
품질 기준:
1. 정확성(Accuracy): 정답이 맞아야 함
2. 가독성(Readability): 문장이 논리적으로 깔끔하게 서술되어야 함
3. 형식(Format): 언어가 혼합되지 않고, Markdown 형식을 따름

📌 예제: Rejection Sampling 적용 예시

질문: 2x + 3 = 7의 해를 구하시오.

(모델 생성 결과)
답변 1: <think> 2x + 3 = 7, 따라서 2x = 4, x = 2. </think> <answer> x = 2 </answer>  ✅ 선택됨 (가독성 높음)
답변 2: x = 2 (혼합 언어: "정답은 two입니다.") ❌ 제외됨 (언어 혼합 문제)
답변 3: <think> 먼저 3을 양변에서 뺍니다. 이제 2x = 4가 됩니다. x를 구하기 위해 양변을 나눕니다. 답은 2입니다. </think> ❌ 제외됨 (불필요한 장황한 설명)

→ 답변 1이 가장 좋은 품질이므로, 해당 데이터를 학습 데이터셋에 추가.

(2) 어떤 데이터를 걸러내는가?

혼합 언어 데이터 제거 (예: 한 문장에서 영어와 중국어가 섞여 있는 경우)
너무 긴 문장 또는 불필요한 코드 블록이 포함된 데이터 제외
정확성이 부족하거나 일관성이 떨어지는 답변 필터링

(3) 결과

총 60만 개(600k) 이상의 추론 관련 데이터를 수집하여 추가 학습에 활용.

3. Non-Reasoning Data (비추론 데이터) 구축 과정

추론 능력뿐만 아니라, 모델이 일반적인 NLP 태스크에서도 뛰어난 성능을 발휘할 수 있도록 다양한 데이터 추가.

(1) 비추론 데이터의 종류

글쓰기 (Writing)
- 에세이 작성, 창의적인 스토리 생성, 뉴스 기사 요약 등
역할 수행 (Role-Playing)
- 가상 시나리오에서 특정 인물처럼 행동하는 대화 데이터
사실 기반 질의응답 (Factual QA)
- 백과사전 스타일의 질문 응답
자기 인식 (Self-Cognition)
- 모델이 자신의 한계를 설명하거나 특정 개념을 반성(reflection)하는 태스크
번역 (Translation)
- 다국어 번역 데이터

(2) 비추론 데이터 생성 방법

기존 DeepSeek-V3에서 사용했던 SFT 데이터셋 일부를 재활용
DeepSeek-V3 모델을 활용하여 추가적인 데이터 생성
단순한 질의응답에서는 CoT를 사용하지 않음 (예: "Hello" 같은 간단한 질문에는 CoT 불필요)

(3) 결과

총 20만 개(200k) 이상의 비추론 데이터를 수집하여 학습.

4. 최종 학습 과정 (Supervised Fine-Tuning, SFT)

위에서 수집한 총 80만 개(800k)의 데이터를 활용하여 DeepSeek-V3-Base를 2 Epoch 동안 Fine-Tuning.

📌 학습 과정

Rejection Sampling을 통해 선정된 60만 개의 Reasoning Data 학습
비추론 데이터 20만 개를 함께 학습하여 모델의 일반적인 능력 향상
Fine-Tuning을 2 Epoch 수행하여 최적의 모델 생성

5. 이 데이터는 어떻게 활용되었는가?

✅ 이 데이터를 모은 이유

강화학습(RL)만으로 부족한 모델의 일반적인 NLP 능력을 강화
Reasoning 능력을 더욱 정교하게 다듬기 위해 고품질 데이터만을 선별하여 추가 학습
DeepSeek-R1을 단순한 수학/코딩 모델이 아니라, 창작, QA, 번역까지 잘 수행할 수 있는 모델로 확장

✅ 이 데이터가 사용된 방식

Fine-Tuning 과정에서 사용 → 기존의 RL 모델을 더 정제된 형태로 업데이트
추론 데이터(600k) → 논리적 사고 능력 강화
비추론 데이터(200k) → 창작, QA, 번역, 역할 수행 능력 향상

✅ 결과

DeepSeek-R1은 기존 RL 모델보다 더 논리적으로 일관된 답변을 생성.
일반적인 NLP 태스크에서도 더 높은 성능을 보임 (창작, 번역, QA 등에서 개선됨).

6. 결론 및 요약

✔ Rejection Sampling을 활용하여 RL 모델이 생성한 답변 중 고품질 데이터만 선별
✔ 총 80만 개(800k) 데이터로 DeepSeek-V3-Base를 2 Epoch 동안 SFT 진행
✔ 모델이 논리적 추론뿐만 아니라, 창작·QA·번역 등 다양한 능력을 갖추도록 설계
✔ 최종 결과: DeepSeek-R1이 더 정제되고 강력한 모델이 됨 🚀

저작자표시 비영리

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Language Models are Few-Shot Learners - 논문 리뷰 (0)	2025.02.05
Reflexion: Language Agents with Verbal Reinforcement Learning - 논문 리뷰 (0)	2025.02.04
DeepSeek-V3 Technical Report - 논문 리뷰 (0)	2025.02.02
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model - 논문 리뷰 (1)	2025.02.02
MindAgent: Emergent Gaming Interaction - 논문 리뷰 (1)	2025.02.01

현재글DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - 논문 리뷰

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

2025. 04
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30