大语言模型的快速迭代 随着技术的进步,LLMs 正在逐步缩小与通用人工智能(AGI)之间的差距。近年来,后训练(Post-Training)成为模型训练管线中的重要组成部分。与预训练相比,后训练能够以较低的计算成本显著提升模型在推理任务上的准确性,同时使模型更符合社会价值观并适应用户偏好。
推理能力的挑战与进展 推理能力是 LLMs 的关键研究方向之一。OpenAI 的 o1 系列模型通过延长“链式推理”(Chain-of-Thought, CoT)的推理过程,在数学、编程和科学推理等任务上取得了显著进展。然而,如何在测试阶段有效扩展推理能力仍是一个开放性问题。
强化学习在推理能力中的应用 近年来,强化学习(Reinforcement Learning, RL)被证明在提升推理能力方面具有潜力。尽管已有研究尝试通过过程奖励模型(Process Reward Models)、蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)等方法改进推理性能,但这些方法尚未达到 OpenAI o1 系列模型的通用推理水平。
研究目标 本文旨在探索通过纯强化学习(Pure RL)提升 LLMs 推理能力的可能性,特别是无需依赖监督数据的情况下,模型如何通过自我进化(Self-Evolution)实现推理能力的提升。研究团队以 DeepSeek-V3-Base 为基础模型,采用强化学习框架 GRPO(Group Relative Policy Optimization),开发了 DeepSeek-R1-Zero 和 DeepSeek-R1 两个模型版本。
研究意义 本研究首次验证了通过纯强化学习可以激发 LLMs 的推理能力,而无需依赖监督微调(Supervised Fine-Tuning, SFT)。此外,研究还探索了如何通过蒸馏技术将大型模型的推理能力迁移到小型模型中,从而降低计算成本并扩大模型的应用范围。