본문 바로가기

AI

[논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning

** Technical Report: https://arxiv.org/pdf/2501.12948


DeepSeek-R1

✔ 모델이 생각하여 추론하는 방법을 스스로 학습하도록 하기 위한 강화학습과 가독성 증대 및 사람 선호와의 일치를 위한 Fine-tuning 단계를 반복함으로써 OpenAI O1 모델에 비견할만한 모델을 학습했으며, 해당 모델을 오픈소스로 공개

 

✔ DeepSeek은 R1 모델을 약 560만 달러 (약 80억 원)의 비용으로 훈련시켰다고 알려져 있으나, 과소 측정 논란이 있음

 

 671B 규모의 MoE 아키텍처를 사용하여 계산 효율성을 높이고 리소스 소비를 줄임

 

✘ 데이터 Source, 도메인, 강화학습 단계에서 사용한 데이터 규모 등 학습 데이터의 Curation 방법 미공개

 

✘ 영어, 중국어 중심의 모델로, 타 언어 입력 시 언어 혼용 문제 발생 

 

 

 


Abstract

Deepseek에서 첫 번째 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 발표하였다. DeepSeek-R1-Zero는 대규모 강화학습(Reinforcement Learning, RL)을 통해 학습한 모델로, SFT(Supervised Fine-tuning) 없이 학습된 것이 특징이다.

이 모델은 뛰어난 추론 능력을 보여주며, RL을 통해 자연스럽게 강력하고 흥미로운 추론 능력을 습득하였다. 하지만 가독성이 낮거나 언어가 혼합되는 등 몇 가지 문제점을 가지고 있다. 이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해 다단계 학습(multi-stage training)과 강화학습 전 Cold-start 데이터를 학습한  DeepSeek-R1을 도입하였다. 그 결과, DeepSeek-R1은 OpenAI-o1-1217과 유사한 수준의 추론 성능을 달성하였다.

 

DeepSeek-R1-Zero, DeepSeek-R1, 그리고 DeepSeek-R1에서 Qwen 및 Llama 모델을 기반으로 지식증류를 한 여섯 개의 모델(1.5B, 7B, 8B, 14B, 32B, 70B)은 오픈 소스로 공개되었다.


Introduction

최근 몇 년간대규모 언어 모델(LLM)은 빠르게 발전하고 있으며, 점차 범용 인공지능(Artificial General Intelligence,AGI)에 가까워지고 있다. 특히 최근에는 사후 훈련(Post-training)이 전체 학습 파이프라인에서 중요한 구성 요소로 떠올랐는데, 이는 모델의 추론 정확도를 향상시키고, 사회적 가치와 정렬하며, 사용자 선호에 맞게 모델을 적응시키면서도 사전학습에 비해 상대적으로 적은 연산 자원을 필요로 한다.

 

추론 능력 측면에서 OpenAI의 o1 시리즈 모델은 최초로 추론 과정의 Chain-of-Thought 길이를 늘림으로서 추론 성능을 향상시키는 Inference-time scaling을 도입하였다. 이를 통해 수학, 코딩, 과학적 추론 등의 다양한 분야에서 큰 성능 향상을 이루었으나, 테스트 시간의 확장 문제는 한계로 남아있다.

 

DeepSeek-R1-Zero: SFT 없이 강화학습만으로 추론 능력 학습하기

본 논문에서는 강화 학습(RL)만을 이용하여 언어 모델의 추론 능력을 향상시키는 것에 처음으로 도전한다. 즉, 지도 학습 데이터를 사용하지 않고, 모델이 순수한 강화학습 프로세스를 통해 스스로 진화할 수 있는 가능성을 탐구하는 것을 목표로 한다. 구체적으로는 DeepSeek-V3-Base를 기본 모델로 사용하며, GRPO 프레임워크를 활용한 강화 학습을 적용하여 추론 성능을 개선한다. 수천 번의 강화학습 결과, 벤치마크에서 뛰어난 성능을 보였다.

  • AIME 2024 벤치마크에서 Pass@1 점수가 15.6% → 71.0%로 대폭 향상
  • 다수결 투표 방식 적용 시 86.7%까지 상승 (OpenAI-o1-0912와 동등한 성능)

그러나 DeepSeek-R1-Zero는 가독성이 낮거나 언어가 혼합되는 문제가 있었다.

 

DeepSeek-R1: 다단계 학습 적용을 통한 성능 향상

DeepSeek-R1-Zero의 한계를 극복하고 추론 성능을 더욱 강화하기 위해 DeepSeek-R1에서는 Cold-start 데이터를 소량 포함한 다단계 학습 파이프라인(Multi-stage Training Pipeline)을 적용하여 성능을 개선하였다.

  1. Cold Start 데이터(수천 개 분량)를 통해 DeepSeek-V3-Base 모델 파인튜닝
  2. DeepSeek-R1-Zero와 동일한 방식으로 추론 중심의 강화학습 수행
  3. 강화학습으로 최적화 후 새로운 SFT 데이터를 생성하여 학습: RL 체크포인트에서 Rejection Sampling을 총해 새로운 SFT용 데이터를 생성함과 동시에 DeepSeek-V3에서 확보한 SFT Data (글쓰기, 사실 기반 QA, self-cognition 등)를 활용하여 모델을 추가 학습
  4. 모든 시나리오에 대한 프롬프트를 고려하여 최종적으로 강화학습 수행

위의 과정을 거친 최종 체크포인트 DeepSeek-R1은 OpenAI-o1-1217과 동등한 수준의 성능을 달성하였다.

 

 1.1 Contribution

◆ Post-training에 있어 대규모 강화학습 적용

  • SFT 없이 LLM의 추론 능력이 순수한 RL을 통해 강화될 수 있음을 최초로 검증함
    • 이 방식을 통해 모델이 복잡한 문제를 해결하기 위해 Chain-of-thought(CoT)를 스스로 탐색해 내도록 유도
    • 이를 통해 개발된 DeepSeek-R1-Zero는 다음과 같은 특징을 가짐:
      • 자기 검증 (Self-Verification)
      • 반성 (Reflection) 능력
      • 긴 Chain-of-Thought(CoT) 생성
  • 다단계 학습 파이프라인 개발: 두 개의 RL 단계와 두 개의 SFT 단계를 포함한 파이프라인 도입
    • 강화학습 단계 - 향상된 추론 패턴의 발견, 인간의 선호와의 alignment 수행
    • SFT 단계 - 모델의 추론 및 비추론 능력에 대한 기초를 제공함

◆ Distillation: 강력한 작은 모델 발표

  • 대규모 언어모델의 추론 패턴을 소형 모델에 증류할 수 있으며, 이를 통해 소형 모델을 RL로 학습한 추론 패턴보다 더 나은 성능을 얻을 수 있음.
  • DeepSeek-R1이 생성한 추론 데이터를 활용하여 여러 Qwen2.5, Llama3 등의 모델을 파인튜닝한 결과, 뛰어난 벤치마크 성능 보임
    • DeepSeek-R1-Distill-Qwen-7B: AIME 2024 벤치마크에서 55.5% 성능 달성 / QwQ-32B-Preview를 능가하는 성능
    • DeepSeek-R1-Distill-Qwen-32B: AIME 2024 72.6%, MATH-500: 94.3%, LiveCodeBench: 57.2% / OpenAI o1-mini와 유사한 성능

 

 1.2 평가 결과 요약

◆ 추론 태스크

  • AIME 2024: Pass@1: 79.8% 달성 → OpenAI-o1-1217 소폭 상회
  • MATH-500: 97.3% → OpenAI-o1-1217와 동등, 다른 모델들을 압도
  • 코딩 관련 성능: 코드 대회(Codeforces)에서 Elo 2,029 획득 → 참가한 인간 참가자의 96.3%를 능가 / 엔지니어링 관련 작업에서도 DeepSeek-V3보다 더 우수한 성능

 

◆ 지식 (Knowledge)

  • MMLU: 90.8% / MMLU-Pro: 84.0%
  • GPQA Diamond: 71.5% / DeepSeek-V3보다 훨씬 높은 성능을 기록, OpenAI-o1-1217보다는 다소 낮지만, 다른 비공개 모델을 초월하는 경쟁력 / 특히 교육 분야의 문제 해결에서 강력한 성능을 발휘
  • 사실 기반 질문(Factual QA) 성능: SimpleQA 벤치마크에서 DeepSeek-V3보다 뛰어난 성능 / OpenAI-o1 시리즈가 전체적으로 앞서지만, DeepSeek-R1 역시 강력한 경쟁 모델로 자리 잡음

◆ 기타 성능

  • 창의적 글쓰기, 일반 질의응답, 편집, 요약 등 다양한 작업에서 우수한 성능
    • AlpacaEval 2.0: 길이 조절된 평가에서 승률 87.6%
    • Arena-Hard: 승률 92.3% 기록 → 일반적인 질문에서도 높은 처리 능력 입증
  • 장문 문맥 이해에서도 DeepSeek-V3를 압도
    • 긴 문맥 처리 벤치마크에서 뛰어난 성능 → 더 깊이 있는 이해력을 바탕으로 복잡한 텍스트를 다룰 수 있음

 

Approach (1) DeepSeek-R1-Zero: 기본모델에 대한 강화학습

 2.2.1 강화학습 알고리즘 - GRPO

 ◆ 그룹 상대 정책 최적화 ( Group Relative Policy Optimization, GRPO )

 

- RL 학습 비용을 절감하기 위해 GRPO 방식을 채택

- GRPO는 일반적인 강화학습에서 Policy 모델과 동일한 크기를 가지는 Critic 모델을 생략하고, 그룹 점수에서 베이스라인을 추정하는 방법을 사용함

- 각각의 질문 q에 대해 GRPO는 아웃풋의 그룹 {o1, ..., oG}를 기존 정책에서 샘플링한 후, 다음의 목적 함수에 대해 policy model을 최적화함

 

 

- 𝜀 ,𝛽 : 하이퍼파라미터

- Ai: advantage, 그룹 내 아웃풋에 해당하는 reward 그룹 {r1, ..., rG}로부터 계산함 

 

 

더보기

[GRPO 목적함수 해석]

 

 2.2.2 Reward Modeling

◆ Reward Modeling - 룰 기반의 보상 시스템 채택

 

DeepSeek-R1-Zero 학습 시에는 신경망 기반의 reward model을 적용하지 않았는데, 대규모 강화학습과정에서 이러한 신경망 보상모델은 보상 해킹(Reward Hacking)에 취약하기 때문이다. 뿐만 아니라 신경망 기반의 모델을 학습하는 데에 추가적인 학습 리소스가 필요하며, 전체 훈련 파이프라인이 복잡해지기 때문에 두 가지 규칙 기반의 보상 시스템을 채택함으로써 학습 효율성을 극대화했다. 

 

(1) 정확도 보상 (Accuracy Rewards)

- 모델의 응답이 올바른지 평가함

- 결과를 명확하게 판별 가능한 문제에 대해 신뢰할 수 있는 정답 검증 시스템을 적용함

  • 수학 문제: 결과가 명확하게 결정되는 문제에 대해 모델은 지정된 형식(ex. 박스 안에 최종 정답을 기입함)으로 응답하도록 하고, 이를 통해 신뢰성 있는 룰 기반 채점이 가능해짐
  • LeetCode 문제: 컴파일러를 사용하여 사전에 정의된 테스트케이스를 기반으로 모델 응답을 평가함

 

(2) 형식 보상 (Format Rewards)

- 응답 형식을 강제하는 추가적인 보상 모델을 도입

- 모델이 사고과정을 특정 태그(예. <think>와 </think>) 사이에 포함하도록 강제함

- 체계적인 사고과정을 명시하도록 유도하여 보다 논리적인 추론 구조를 형성함

 

 2.2.3 Training Template

◆ 학습 템플릿

 

DeepSeek-R1-Zero 학습을 위해 기본 모델이 주어진 지침을 따를 수 있도록 단순한 템플릿을 설계하는 것부터 시작하였다. 아래 기본 템플릿을 기반으로 DeepSeek-R1-Zero는 먼저 추론 과정을 생성한 후, 최종 답변을 출력하도록 한다.

 

더보기

[학습 템플릿]

사용자와 어시스턴트 사이의 대화입니다. 사용자가 질문을 하면, 어시스턴트가 이를 해결합니다. 어시스턴트는 먼저 추론 과정을 마음속으로 생각한 다음 사용자에게 답을 제공합니다. 추론 과정은 <think> </think> 사이에 감싸고, 답변은 <answer> </answer> 사이에 감싸서 출력합니다. 즉, <think> 이곳에 추론 과정을 쓰세요 </think> <answer> 답변을 이곳에 쓰세요 </answer>. 사용자: prompt. 어시스턴트:

해당 템플릿은 출력 형식에 대한 제약만 설정하고, 내용과 관련된 편향은 최소화하도록 설계되었기 때문에 특정 사고 방식이나 문제 해결 전략을 강제하지 않는다. 따라서 모델이 강화학습 과정에서 자연스럽게 발전하는 모습을 관찰할 수 있다.

 

 2.2.4 DeepSeek-R1-Zero의 성능, 진화 과정, Aha-moment

◆ DeepSeek-R1-Zero의 성능

 

<그림 2>는 강화학습 과정 전반에 걸쳐 AIME 2024 벤치마크에서 DeepSeek-R1-Zero의 성능 변화 추이를 나타낸다. 그림에서 볼 수 있듯이, DeepSeek-R1-Zero는 RL 훈련이 진행됨에 따라 성능이 지속적이고 안정적으로 향상되는 모습을 보인다. 특히, AIME 2024에서의 평균 pass@1 점수는 초기 15.6%에서 71.0%로 크게 상승하며, OpenAI-o1-0912와 유사한 수준의 성능을 달성하였다. 이러한 향상은 모델의 성능을 최적화하는 데 있어 우리의 RL 알고리즘이 효과적임을 보여준다.

<그림 2> 학습과정 중 AIME 정확도. 각각의 질문에 대해 16개의 답변을 샘플링하여 평균 정확도를 계산함

 

 

<표 2>는다양한 추론 관련 벤치마크에서 DeepSeek-R1-Zero와 OpenAI의 o1-0912 모델을 비교 분석한 결과이다. 이를 통해 DeepSeek-R1-Zero가 어떠한 지도 학습 기반의 미세 조정 데이터 없이 강화학습 만으로도 강력한 추론 능력을 갖게 된 것을 볼 수 있다. 이는 RL만으로도 모델이 효과적으로 학습하고 일반화할 수 있음을 보여주는 성과이다. 다수결 투표 방식을 적용함으로써 해당 성능을 더 끌어올릴 수 있는데, AIME 벤치마크에서 다수결 투표를 활용할 경우, DeepSeek-R1-Zero의 성능은 71.0%에서 86.7%로 상승하며, OpenAI-o1-0912의 성능을 능가한다.

<표 2>

 

 

 DeepSeek-R1-Zero의 자기 진화 과정 (Self-evolution)

 

DeepSeek-R1-Zero 학습 과정에서 SFT 없이도 강화학습을 통해 모델의 추론 능력을 자율적으로 향상시키는 자기 진화 과정을 관찰할 수 있다. <그림 3>에서 볼 수 있듯이, DeepSeek-R1-Zero이 '생각'에 할당하는 시간은 훈련 과정 전반에 걸쳐 지속적으로 증가한다. 이러한 개선은 외부적인 조정의 결과가 아니라, 모델 내부에서 자연스럽게 이루어진 발전의 결과이다. DeepSeek-R1-Zero는 테스트 시간 동안 연장된 연산을 활용하여 점점 더 복잡한 추론 작업을 해결하는 능력을 자연스럽게 습득한다. 이 과정에서 수백 개에서 수천 개에 이르는 추론 토큰을 생성하며, 모델은 보다 깊이 있는 사고 과정을 탐색하고 정제할 수 있게 된다.

<그림 3> 학습 과정 중 DeepSeek-R1-Zero의 평균 답변 길이의 변화

 

이 자기 진화 과정에서 가장 주목할 만한 점 중 하나는 테스트 시간 연산이 증가함에 따라 정교한 사고 행동들이 자발적으로 나타난다는 것이다. 예를 들어, 모델이 자신의 이전 단계를 되돌아보고 재평가하거나 문제 해결을 위한 대체 접근 방식을 탐색하는 행동 등이 자연스럽게 발생하였다. 이러한 행동들은 명시적으로 프로그래밍된 것이 아니라, 강화 학습 환경과의 상호 작용을 통해 자발적으로 형성된 것이다. 이러한 자기 진화는 DeepSeek-R1-Zero의 추론 능력을 크게 향상시키며, 어려운 문제들도 더욱 효율적이고 정확하게 해결할 수 있도록 만든다.

 

 

DeepSeek-R1-Zero의 ‘아하’ 순간

 

DeepSeek-R1-Zero의 훈련 과정에서 특히 흥미로운 현상 중 하나는 아하 순간(aha moment) 의 발생이다. <표 3>에서 볼 수 있듯, 이 순간은 모델의 중간 버전에서 나타난다. 이 단계에서 DeepSeek-R1-Zero는 초기 접근 방식을 재평가하면서 문제 해결을 위해 더 많은 사고 시간을 할애하는 법을 학습한다. 이러한 행동 양상은 모델의 추론 능력이 점점 성장하고 있음을 보여줄 뿐만 아니라, 강화 학습이 예측하지 못한 정교한 결과를 이끌어낼 수 있다는 점에서 흥미로운 사례이다.

<표 3> DeepSeek R1-Zero 학습 중 모델이 사람처럼 '다시 생각'하는 모습

 

  DeepSeek-R1-Zero의 한계점

DeepSeek-R1-Zero의 성능 향상에도 불구하고, 출력물이 가독성이 낮거나 여러 언어가 혼합되는 등의 문제가 있었다.

추론 과정을 보다 가독성 높게 만들기 위해 DeepSeek-R1 모델을 도입하였다. 해당 모델에서는 사람 친화적인 cold start 데이터를 활용한 강화 학습(RL)을 적용하여 기존 모델이 가지고 있는 문제를 개선하는 것을 목표로 한다.

 

Approach (2) DeepSeek-R1: Cold Start에서 강화학습

DeepSeek-R1-Zero의 결과에 대해, 자연스럽게 다음의 두 가지 질문이 떠오른다:

  1. 소량의 고품질 데이터를 cold start로 활용하면 추론 성능을 더욱 향상시키거나 수렴 속도를 가속할 수 있을까?
  2. 어떻게 하면 명확하고 일관된 사고 과정(Chain of Thought, CoT)을 생성하는 동시에 강력한 일반화 능력을 갖춘 사용자 친화적인 모델을 학습할 수 있을까?

이러한 질문에 답하기 위해 우리는 DeepSeek-R1 학습을 위한 파이프라인을 설계하였다. 이 파이프라인은 아래와 같이 네 개의 단계로 구성된다.

 

출처: https://huggingface.co/blog/open-r1

 

 2.3.1 Cold Start

DeepSeek-R1에서는 기본 모델에서 강화 학습을 시작할 때 발생하는 초기의 불안정한 콜드 스타트 단계를 방지하기 위해, 소량의 양질의 CoT 데이터를 구축하여  초기 RL actor로서 모델을 fine-tuning한다.

 

양질의 Cold Start 데이터를 수집하기 위해서는 다양한 방식을 사용하였다:

  • 긴 CoT를 예시로 활용한 few-shot prompting 기법
  • 모델이 반성(reflection) 및 검증(verification)을 포함한 상세한 답변을 생성하도록 직접 프롬프트를 제공
  • DeepSeek-R1-Zero의 출력을 가독성 있는 형식으로 변환하여 수집
  • 사람이 직접 후처리를 통해 결과를 정제함

이번 연구에서는 수천 개의 콜드 스타트 데이터를 수집하여 DeepSeek-V3-Base에 대해 강화 학습(RL)의 출발점으로 fine-tuning하였다. DeepSeek-R1-Zero와 비교했을 때, 이 방법은 다음과 같은 장점을 가지고 있다:

  • 가독성 증가: DeepSeek-R1-Zero는 생성된 콘텐츠의 가독성이 떨어지는 경우가 많다는 한계가 있었다. 모델 답변이 여러 언어를 혼합해 사용하거나, 마크다운 형식이 적용되지 않는 경우가 있다. DeepSeek-R1 학습을 위한 콜드 스타트 데이터를 생성할 때는, 각 응답의 끝에 요약을 포함하는 가독성 높은 패턴을 설계하고, 읽기에 적합하지 않은 응답은 필터링하였다. 이때 출력 형식은 |special_token|<reasoning_process>|special_token|<summary>로 정의하였고, reasoning_process에는 질의에 대한 CoT를, summary는 추론 결과에 대한 요약을 작성하였다.
  • 잠재적 성능 향상: 사람의 사전 지식을 반영하여 콜드 스타트 데이터를 신중하게 설계한 결과, DeepSeek-R1-Zero보다 더 나은 성능을 보였다. 이러한 반복적인 학습은 추론 모델을 발전시키는 더 효과적인 방법일 수 있다.

 

 2.3.2 추론 기반의 강화학습

콜드 스타트 데이터에 대해 DeepSeek-V3-Base를 Fine-tuning한 후, DeepSeek-R1-Zero에서와 마찬가지로 대규모 강화 학습 훈련 프로세스를 진행하였다. 이 단계는 코드 작성, 수학, 과학 및 논리적 추론과 같은 잘 정의된 문제와 명확한 솔루션을 포함하는 추론 집약적인 태스크에서 모델의 추론 능력 향상에 중점을 둔다.

이때 학습 중 모델의 CoT 과정에 여러 개의 언어가 혼합되는 현상이 자주 나타났다. 이러한 언어 혼합 문제를 완화하기 위해, RL 학습 중에 CoT에서 목표 언어의 단어가 사용된 비율을 언어 일관성에 대한 보상로 도입하였다. Ablation Study 결과, 이러한 언어 일관성에 대한 설계가 모델의 성능을 약간 저해하나, 인간의 선호와 일치하며 모델 출력의 가독성을 높였다. 

따라서 추론에 대한 정확도에 언어 일관성 점수를 보상으로 합산하여 최종 reward를 정의하고, fine-tuning된 모델에 대해 수렴할 때까지 강화학습을 진행하였다.

 

 2.3.3 Rejection Sampling과 Supervised Fine-tuning

추론 성능 향상을 위한 강화학습 과정이 수렴한 후, 결과 체크포인트를 활용하여 이후 학습 파이프라인을 위한 SFT 데이터를 수집한다. 초기 콜드 스타트 데이터는 주로 추론에 중점을 두었지만, 이 단계에서는 모델의 작문, 역할 수행, 그리고 기타 범용 작업 능력을 향상시키기 위해 다른 도메인의 데이터를 포함하였다. SFT 수집 과정은 다음과 같다:

  • 추론 데이터: 프롬프트를 큐레이팅하고, RL 학습이 완료된 체크포인트를 사용하여 Rejection sampling을 통해 SFT 데이터를 정제한다. 각 프롬프트에 대해 모델로부터 여러 응답을 샘플링하고, 올바른 응답만을 보존하여 총 약 60만 개의 추론 관련 훈련 샘플을 수집했다. 정제에 활용한 방법은 다음과 같다.
    • 생성형 보상 모델 활용: RL 단계에서는 규칙 기반 보상을 사용하여 평가할 수 있는 데이터만을 포함했지만, 이번 단계에서는  데이터 중 일부에 대해 생성형 보상 모델을 활용하여 ground truth와 모델 출력을 DeepSeek-V3에 입력하여 판단한 결과물을 활용한다
    • 응답 필터링: 모델 출력의 가독성이 떨어지는 경우가 있어 언어가 혼합된 경우, 긴 문단, 코드 블록이 포함된 사고 과정은 필터링하였다.
  • 비추론 데이터: 작문, 사실 QA, 자기 인식, 번역 등의 비추론 데이터에는 DeepSeek-V3에서 사용한 파이프라인을 사용하고 DeepSeek-V3의 SFT 데이터셋 일부를 재사용하였다. 특정 비추론 작업에 대해서는 질문에 대답하기 전에 프롬프트를 주어 잠재적으로 사고 과정을 생성하도록 하였다. 단, “hello”와 같은 간단한 질문에 대해서는 CoT를 제공하지 않는다. 이 과정을 통해 약 20만 개의 비추론 관련 훈련 샘플을 수집했다.

이와 같이 정제한 약 80만 개 샘플의 데이터셋을 사용하여 DeepSeek-V3-Base를 2 epoch fine-tuning하였다.

 

 2.3.4 모든 시나리오에 대한 Reinforcement Learning

사람 선호와의 alignment를 위해 모델의 유용성과 무해성을 개선하면서 추론 능력을 다듬기 위한 2차 강화 학습 단계를 도입한다. 이 단계에서는 다양한 보상 신호를 혼합하여 사용하고, 다양한 프롬프트 분포를 사용하였다.

  • 추론 데이터 - DeepSeek-R1-Zero에서와 같이 수학, 코드, 논리적 추론 분야의 학습을 위해 규칙 기반 보상을 활용
  • 일반 데이터 - 복잡하고 미묘한 상황에서 인간의 선호를 포착하기 위해 보상 모델을 사용. DeepSeek-V3 파이프라인을 기반으로 비슷한 분포의 선호 쌍과 학습 프롬프트를 사용함.
  • 유용성 - 최종 요약에만 집중해 평가함으로써, 사용자에게 유용성과 관련성을 강조하면서 모델의 추론 과정이 간섭하는 것을 최소화함.
  • 무해성 - 모델의 전체 응답을 평가. 추론 과정 및 요약을 포함하여 위험, 편견 또는 해로운 내용이 생성 과정 중에 발생할 수 있는 가능성을 식별하고 완화함.

이와 같이 다양한 보상 신호와 다양한 데이터 분포를 통합함으로써 추론에서 우수함을 다듬으면서도 유용성과 무해성을 우선시하는 모델을 학습하였다.

 

 

Approach (3) Distillation

작은 파라미터 규모의 모델이 DeepSeek-R1과 같은 추론 능력을 갖추도록 하기 위해, 오픈소스 모델인 Qwen과 Llama에 대한 파인튜닝을 진행하였다. 이를 위해 DeepSeek-R1을 활용해 선별한 80만 개의 샘플을 사용하였다(2.3.3절의 SFT 데이터) 이러한 단순한 distillation 방법만으로도 작은 모델의 추론 능력이 크게 향상됨을 확인할 수 있었다.

본 논문에서 사용한 기반 모델은 Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B, 그리고 Llama-3.3-70B-Instruct이다. 

증류된 모델의 경우, 지도 학습(SFT)만 적용하였으며, 모델 성능을 크게 향상시킬 수 있는 강화 학습(RL) 단계는 포함하지 않았다.

 

 

Discussion

 4.1 Distillation vs Reinforcement Learning

DeepSeek-R1을 작은 모델에 distillation함으로써 작은 모델로도 인상적인 벤치마크 성능을 달성할 수 있다. 그렇다면 distillation 없이, 대규모 강화 학습(RL)만으로도 유사한 성능을 달성할 수 있을까?

이 질문에 답하기 위해, 우리는 Qwen-32B-Base 모델을 대상으로 수학, 코드, STEM 데이터셋을 활용하여 10,000 스텝 이상 대규모 강화 학습을 진행하였다. 그 결과 생성된 모델이 DeepSeek-R1-Zero-Qwen-32B이며, 실험 결과는 표 6과 같다. 실험 결과에 따르면, 32B 기반 모델이 대규모 RL 학습을 거친 후 QwQ-32B-Preview와 동등한 수준의 성능을 보였다. 그러나 DeepSeek-R1을 증류한 DeepSeek-R1-Distill-Qwen-32B는 모든 벤치마크에서 DeepSeek-R1-Zero-Qwen-32B보다 훨씬 뛰어난 성능을 기록했다.

 

<표 6> RL 모델과 distil된 모델에 대한 추론 기반 벤치마크의 성능

 

 

즉, 두 가지 결론을 도출할 수 있다.

 

(1) 더 강력한 모델을 작은 모델로 distillation하는 방식은 매우 효과적이며, 본 논문에서 논의한 대규모 RL을 활용하는 경우 막대한 연산 자원이 필요함에도 불구하고 증류만큼의 성능을 달성하지 못할 가능성이 크다

(2) distillation 전략은 경제적이면서도 효과적인 방법이지만, 인공지능의 한계를 뛰어넘기 위해서는 더욱 강력한 기반 모델과 대규모 강화 학습이 필요할 수 있다.

 

 4.2 실패한 시도들

DeepSeek 개발 중 실패 경험에 대한 공유 >>

 

과정 보상 모델(Process Reward Model, PRM)
PRM은 모델이 보다 나은 방식으로 추론 문제를 해결하도록 유도하는 방법이다. 그러나 실제로는 궁극적인 학습 성공에 있어 PRM은 세 가지 한계점을 가지고 있다:

① 일반적인 추론 과정에서 세밀한 추론 단계 (fine-grain step)을 명시적으로 정의하는 것이 어려움

② 현재의 중간 단계가 올바른지 판단하는 것이 쉽지 않음 - 모델을 활용한 자동 annotation은 좋은 결과를 도출하지 못할 가능성이 크고, 수동으로 annotation 하기에는 시간과 비용 측면에서 확장성이 낮다
③ 모델 기반 PRM을 도입할 경우 보상 해킹(reward hacking) 현상이 발생할 가능성이 높으며, 보상 모델 재학습엔 추가적인 연산 자원이 필요함

결론적으로, PRM은 모델이 생성한 상위 N개의 출력에 대한 순위를 정렬하거나 guided search를 지원함에 있어 어느 정도 이상의 성능을 보이지만, 대규모로 강화학습을 수행하는 데에 있어 추가적인 연산 부담을 고려할 때 이러한 장점은 제한적일 수 있다.

 

Monte Carlo Tree Search (MCTS)

AlphaGo와 AlphaZero의 연구에 영감을 받아, 몬테카를로 트리 탐색(MCTS)을 활용하여 테스트 시간 연산의 scalability 확장성을 향상시키는 방법을 시도하였다. 해당 접근 방식에서는 답변을 더 작은 부분으로 나누어 모델이 solution space를 체계적으로 탐색할 수 있도록 한다. 이를 위해, 모델이 탐색에 필요한 특정 추론 단계에 해당하는 여러 개의 태그를 생성하도록 프롬프트를 제공하였다.

학습 과정에서 먼저 수집된 프롬프트를 사용하여 사전에 학습된 가치 모델(value model)의 가이드를 받아 MCTS를 통해 답변을 찾는다. 이렇게 생성된 질의-답변 데이터를 활용하여 액터 모델(actor model)과 가치 모델을 동시에 훈련하며, 이 과정을 반복적으로 개선해 나간다.

그러나 이 접근 방식은 학습의 규모를 확장하는 과정에서 몇 가지 어려움이 있었다.

탐색 공간 정의의 어려움 체스와 달리 탐색 공간이 명확하게 정의된 문제가 아니며, 토큰 생성 과정에서는 탐색 공간이 기하급수적으로 증가한다. 이를 해결하기 위해 각 노드의 최대 확장 한도를 설정할 수 있으나, 이는 모델이 국소 최적에 갇히는 문제를 초래할 수 있다.

정밀한 가치 모델 학습의 어려움 -  가치 모델은 탐색 과정의 각 단계를 안내하는 역할을 하므로 생성 품질에 직접적인 영향을 미친다. 하지만 정밀한 가치 모델을 훈련하는 것은 본질적으로 어려운 문제이며, 이로 인해 모델이 반복적으로 성능을 개선하는 것이 어려워진다. AlphaGo의 성공 핵심은 가치 모델을 지속적으로 훈련하여 성능을 점진적으로 향상시키는 데 있었으나, 생성 모델 학습에 있어서는 토큰 생성의 복잡성으로 인해 이를 동일하게 재현하기가 쉽지 않다.

 

결론적으로, MCTS는 사전 훈련된 가치 모델과 함께 사용될 경우 추론(inference) 과정에서 성능을 향상시킬 수 있지만, self-search을 통해 모델 성능을 반복적으로 개선하는 것은 여전히 해결해야 할 중요한 과제로 남아 있다.

 

결론

본 연구에서는 강화 학습을 활용하여 모델의 추론 능력을 향상시키는 과정에 대해 공유하였다. DeepSeek-R1-Zero는 콜드 스타트 데이터를 활용하지 않는 순수한 RL 접근 방식을 기반으로 하며, 다양한 작업에서 강력한 성능을 달성하였다. DeepSeek-R1은 콜드 스타트 데이터를 활용한 반복적인 RL 미세 조정을 통해 더욱 강력한 성능을 보이며, 최종적으로 여러 작업에서 OpenAI-o1-1217과 유사한 성능을 달성하였다.

또한, 작은 모델에 대한 distillation 연구를 진행하였다. DeepSeek-R1을 티쳐 모델로 활용하여 80만 개의 훈련 샘플을 생성하고, 이를 기반으로 여러 소형 밀집 모델을 미세 조정하였다. 그 결과, DeepSeek-R1-Distill-Qwen-1.5B는 수학 벤치마크에서 GPT-4o 및 Claude-3.5-Sonnet을 능가하는 성과를 보였다(AIME: 28.9%, MATH: 83.9%). 또한, 다른 dense 모델들도 뛰어난 성능을 보였으며, 동일한 체크포인트 기반의 다른 instruction-tunning된 모델들을 크게 상회하는 결과를 나타냈다.

 

향후 연구 방향 >>

  • 일반적인 능력 향상: 현재 DeepSeek-R1은 함수 호출(function calling), 멀티턴 대화(multi-turn), 복잡한 역할 수행(complex role-playing), JSON 출력 등에서 DeepSeek-V3에 비해 부족한 면이 있다. 향후 연구에서는 긴 Chain of Thought 과정을 활용하여 이러한 작업에서의 성능을 향상시키는 방법을 탐색할 예정이다.
  • 언어 혼합 현상 완화: DeepSeek-R1은 현재 중국어와 영어를 최적화 대상으로 하고 있어, 다른 언어의 질의에 대한 처리에서 언어 혼합 문제가 발생할 수 있다. 예를 들어, 영어 또는 중국어가 아닌 언어로 입력을 받더라도 DeepSeek-R1이 영어로 추론 및 응답을 생성하는 경우가 있다. 향후 업데이트에서는 이러한 한계를 개선할 계획이다.
  • 프롬프트 엔지니어링 강건성 증대: DeepSeek-R1은 입력된 프롬프트에 민감하게 반응하며, 특히 few-shot prompting은 지속적으로 모델의 성능 저하를 초래하였다. 현재 버전에서는 최적의 결과를 얻기 위해, Zero-shot으로 문제를 설명하고 출력 형식을 명확히 지정할 것을 권장한다.
  • 소프트웨어 엔지니어링 작업: 강화 학습(RL) 과정에서 평가 시간이 길어지면 효율성이 저하되며, 현재 소프트웨어 엔지니어링 작업에서는 대규모 강화학습을 충분히 적용하지 못했다. 이로 인해, DeepSeek-R1은 DeepSeek-V3 대비 소프트웨어 엔지니어링 벤치마크에서 큰 성능 향상을 보여주지 못하고 있다. 향후 연구에서는 소프트웨어 엔지니어링 데이터에 대한 rejection sampling 도입 및 강화 학습 과정에서 비동기적인 평가를 적용하여 효율성을 개선할 계획이다.