DeepSeek-R1是如何通过强化学习追平o1推理能力的?

DeepSeek-R1 通过 GRPO 强化学习算法和基于规则的奖励机制,实现了与 o1 相当的推理能力,展现了“顿悟时刻”。

原文标题:从PPO到GRPO,DeepSeek-R1做对了什么?

原文作者:机器之心

冷月清谈:

DeepSeek-R1因其强大的推理能力而备受关注,它与o1的推理能力相当,甚至展现出类似人类的“顿悟时刻”(Aha Moment)。其核心技术在于强化学习方案,特别是用GRPO算法替代了常用的PPO算法。

GRPO是PPO的一种替代方案,它去除了PPO中的Critic(价值)模型。PPO采用Actor-Critic架构,Critic模型用于评估模型的总收益,但它会增加训练成本和复杂度。GRPO通过去除Critic模型,简化了训练过程,并降低了计算资源的消耗。

DeepSeek-R1还采用了精心设计的基于规则的奖励机制(Rule-based Reward),取代了难以调试的奖励模型。通过这种方式,模型可以更有效地学习推理,并且减少了对人类标注数据的依赖。

值得一提的是,与DeepSeek-R1同一天发布的Kimi 1.5也展现出强大的推理能力。两者虽然在强化学习方案上有所不同(Kimi 1.5采用online Mirror Descent),但在其他方面却有惊人的相似之处,例如都采用了简洁的强化学习框架,都没有使用复杂的树搜索或昂贵的PRM,并且都使用了基于规则的奖励机制。

怜星夜思:

1、DeepSeek-R1 去掉 Critic 模型,使用 GRPO 后,模型训练的稳定性如何?会不会出现震荡或难以收敛的情况?
2、文章中提到的“精心设计的 Rule-based Reward”具体是指什么?能否举一些例子?
3、Kimi 1.5 使用的 online Mirror Descent 和 DeepSeek-R1 的 GRPO,两者在优化策略方面有什么本质区别?

原文内容

机器之心PRO · 会员通讯 Week 07

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 从 PPO 到 GRPO,DeepSeek-R1 做对了什么?
Kimi 1.5 的 Mirror Descent 是否与R1的GRPO殊途同归?Ruled-based Reward 比 PRM更好用?CoT 过程出错根本不影响推理效果提升?...
2. 什么样的硬件产品才配得上 「AI Native」? 
AI 硬件产品的边界在哪?为什么说 AI 硬件赛道仍处在非常早期的阶段?为什么 AI Native 硬件产品还未出现?AI 大模型的「肉身」并不重要,交互能力才是核心瓶颈?...
3. ARK 2025 年度展望:AI 技术将革新全球经济格局
ARK 的新报告关注了哪些 AI 趋势?Agent 将渗透哪些行业?自动驾驶今年要大火?RoboTaxi 和智能物流的市场哪个更大?AI+机器人会影响哪些产业?...

...本期完整版通讯含 3 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 9 项,国外方面 5 项。
本期通讯总计 22596 字,可免费试读至 6% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  从 PPO 到 GRPO,DeepSeek-R1 做对了什么?
引言:DeepSeek-R1 追平 o1 的推理能力和在推理中展现 Aha Moment 引发了大量对 DeepSeek-R1 技术方案的解读。其中,用 GRPO 替代 PPO 的强化学习方案为模型带来的 Aha Moment 尤其受到关注。
不要 Critic,Deepseek 为何用 GRPO 取代 PPO?
1、在 DeepSeek-R1 的技术报告所展示的强化学习方案是该工作最受关注的亮点,其也在后续的解读中被反复剖析。
① 清华大学刘知远教授近期在一场研讨会中评价 DeepSeek-R1 ,称其突破性贡献之一在于,该模型(R1-Zero)是全球首个通过纯强化学习技术,成功复现了 o1 的能力,并且开源了相关的技术细节,发布了相对详细的技术报告的工作。[1-1]
2、DeepSeek-R1 的强化学习方案中,其亮点之一在于通过 GRPO 算法取代了 RLHF 常用的 PPO,通过尽可能减少人类标注数据,设计纯 RL 的环境,用精心设计的奖励机制来训练模型自己学会推理。
3、在大模型训练中,强化学习常用于提升模型性能和对齐人类偏好,并且在后训练环节的应用愈发受到关注,流行的 RLHF 结合了机器学习和人类反馈训练奖励模型,然后用来微调模型,PPO 则是主流的 RLHF 方法之一。
4、DeepSeek-R1 采用的 GRPO 可以理解为 PPO 的一种替代,其核心在于去除了 PPO 中的 Critic(Value)模型,以此来减少训练的计算资源。[1-2]
① PPO 采用 Actor-Critic 架构,涵盖 Actor(policy)、Critic(Value)、Reward 和 Reference 四种模型。传统的 PPO 使用 Critic 模型来评估模型恢复的总收益,类似比赛中教练指导学员(Actor)的同时也在尝试学习裁判(Reward)的偏好。
② PPO 的缺陷在于 actor 与 critic 的交互会带来过高的成本,GRPO 的亮点在于去除 Critic 模型,用精心设计的 Rule-based Reward 取代难以调试的 Reward 模型进行判别,最终仅需要 Actor 和 Reference 两个模型,成本更低。
5、与 DeepSeek-R1 同一天发布技术报告的 Kimi 1.5 同样具备媲美 o1 的推理能力。有分析发现两者的技术方案虽有差异,但也有惊人的相似。[1-3]
① 两者均设计的简洁的 RL 框架,都没有采用类似 MCTS 那样复杂的树搜索,都没有采用昂贵的 PRM,没有密集的奖励建模,且都精心设计了参考事实的奖励机制来进行判别。
② 相比 DeepSeek-R1 采用 GRPO,Kimi 1.5 则采用了 online Mirror Decent 来进行 Policy Optimization。
R1 和 Kimi 1.5 都在用的 Rule-based Reward 有何神奇之处?

online Mirror Descent 和 GRPO 都是策略梯度方法的一种,但它们的更新方式不同。online Mirror Descent 采用的是基于镜像下降的更新方式,而 GRPO 采用的是基于信赖域的更新方式。前者更注重在线学习和适应性,后者更注重稳定性和鲁棒性。两种方法各有优缺点,具体选择哪种方法取决于具体的应用场景。

这个问题有点深奥啊,我理解就是不同的“调参大法”,目的都是为了让模型更好地学习。就像练武功一样,不同的门派有不同的心法,但最终都是为了提升武功境界。

这个问题很有意思。我感觉去掉 Critic 后,训练过程就像脱缰的野马,少了一个“缰绳”来控制。不过,如果“赛道”设计得好(指 Reward 设计),这匹野马也可能跑得更快,最终到达终点。

“精心设计”这四个字很玄妙啊,感觉就像烹饪一样,需要不断尝试和调整各种“佐料”(规则),才能做出美味的“菜肴”(好的模型)。

去掉 Critic 后,训练确实会变得不稳定一些,这是PPO这类算法本身的特性决定的。不过 DeepSeek-R1 通过精细的 Reward 设计和一些其他技巧,例如学习率的调整、梯度裁剪等等,最终获得了不错的收敛效果。当然,具体细节还需要参考他们的技术报告。

Rule-based Reward 的设计需要结合具体的推理任务。例如,在数学推理任务中,可以根据推理步骤的正确性和最终答案的准确性来设计奖励规则;在常识推理任务中,可以根据推理结果是否符合常识来设计奖励规则。总的来说,需要根据特定领域的特点来定制奖励规则。

从理论上讲,去除 Critic 会增加训练的不稳定性。但是,如果奖励函数设计得当,GRPO 也可以达到很好的收敛效果。DeepSeek-R1 的成功案例证明了这一点。当然,这需要大量的实验和调参工作。

关于“精心设计的 Rule-based Reward”,文章没有给出非常具体的例子。我猜想可能是根据推理的逻辑正确性、步骤的合理性等方面来设计的规则,并根据这些规则给予奖励或惩罚。具体细节可能需要参考 DeepSeek 的技术报告或相关论文。

online Mirror Descent 算法更新策略时更加注重模型在新数据下的表现,而 GRPO 则更加保守。前者可能学习更快,但稳定性略差;后者学习速度相对慢,但稳定性更佳。选择哪种方法需要根据具体任务和数据集的特点进行权衡。