英伟达ProRL揭示RL训练新方向：长期强化学习赋能小模型，突破推理极限

almosthuman2014 · 2025 年6 月 4 日 12:41

英伟达研究表明，长期强化学习（ProRL）能显著提升小模型推理能力，突破预训练数据限制，在数学、代码和逻辑推理任务中表现卓越。

原文标题：英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650971879&idx=3&sn=a56a52b6254b32f3da9754c9b3ff5a99&

冷月清谈：

英伟达的研究表明，通过大幅增加强化学习（RL）的训练步数，可以显著提升小模型的推理能力，甚至超越大型模型。传统的观点认为RL对模型能力的提升有限，但该研究发现，这是由于基础模型的训练数据中，数学、编程等任务被过度呈现，以及RL训练步数不足导致的。英伟达提出的ProRL框架，将RL训练步数提升至2000步以上，结合多样化可验证奖励、GRPO+DAPO算法组合、KL正则化和周期性策略重置等技术，成功训练出Nemotron-Research-Reasoning-Qwen-1.5B模型。该模型在数学、代码生成和逻辑推理等任务中表现出色，证明了长期稳定的RL能够真正扩展模型的能力边界，使其不仅能够解决原本无法解决的问题，还能生成更具创造性的解题路径。

怜星夜思：

1、ProRL通过增加训练步数和优化训练方法提升了小模型的推理能力，那么这种方法是否适用于所有类型的推理任务？哪些类型的推理任务可能无法通过这种方式获得显著提升？
2、文章提到ProRL使用了KL正则化和周期性策略重置来稳定训练过程，为什么KL正则化在这种长期RL训练中反而有用？周期性策略重置是如何帮助打破训练停滞的？
3、文章中提到ProRL在base model表现较弱的任务上展现出极强的“推理边界扩展”能力，这是否意味着ProRL更适合作为一种“补短板”的手段，而不是“锦上添花”？如果是这样，我们应该如何选择适合ProRL的任务，以及如何评估ProRL在特定任务上的潜在收益？

原文内容

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？

过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型「同质化」加重，失去多样性。然而，来自英伟达的这项研究指出，造成这一现象的根本原因在于：数学、编程等任务在 base model 的训练数据中被过度呈现，以及 RL 训练步数不足。

论文题目：ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
链接：https://arxiv.org/pdf/2505.24864

ProRL 来了！长期训练 = 推理能力质变！

由 NVIDIA 团队提出的 ProRL（Prolonged Reinforcement Learning）框架，将 RL 训练步数从传统的几百步大幅提升至 2000 步以上，释放了小模型潜藏的巨大潜力。结果令人震惊：

原本完全不会做的逻辑谜题，ProRL 模型的 pass@k 能达到 100%
创造力指标（Creativity Index）飙升，模型能主动生成全新解题路径
不再是「蒙对答案」，而是真正「开窍」了！

这一突破主要来自于稳定长期的强化学习，然而，长期 RL 训练并不容易，容易出现熵崩塌、性能震荡、甚至「摆烂」。为此，团队构建了完整的技术组合拳：

多样化可验证奖励任

引入了数学、编程、科学问答（STEM）、逻辑谜题、指令遵循等多领域数据，这些任务具有程序化可验证的正确答案，为 RL 训练提供了可靠、客观的监督信号，不再依赖「易被骗」的奖励模型。

改进算法组合：GRPO + DAPO

在 GRPO（Group Relative Policy Optimization）框架基础上，融合 DAPO（Decoupled Clip and Dynamic Sampling）关键的解耦裁剪（Decoupled Clipping）来避免策略更新失衡，以及动态采样（Dynamic Sampling）来过滤掉「太容易」或「完全不会」的无效样本，提升训练效率。

KL 正则化 + 周期性策略重置

与一些去 KL 正则的做法相反，本论文发现适度 KL 惩罚是稳定训练的关键。同时引入参考策略重置机制：当 KL 骤增或性能下滑时，重置参考策略为当前模型副本，并重置优化器，让训练「重启」。这个简单机制有效打破训练停滞，使模型持续进化。

基于 ProRL 技术，团队训练出 Nemotron-Research-Reasoning-Qwen-1.5B，展现出惊人的性能优势：

在数学任务中提升 14.7%，赶超 7B 模型

在代码生成上领先 DeepCoder-1.5B 达 6.5%

在逻辑推理方面，准确率提升高达 54.8%

ProRL 真的能够拓宽模型能力边界

近来，对于 RL 是否能够拓宽模型的能力边界一直有争议。作者在文章中着重分析了 RL 是否能够拓宽能力边界的问题，并且发现，长期稳定的 RL 能够带来模型能力的真正提升。围绕着这个主题，文章主要揭示了三个方面的发现：

RL 模型能解出 base model 无论如何采样都完全答不出的题，甚至做到 pass@k 100%。这不是随机波动，而是新能力的诞生。

强化学习带来的提升与基础模型的初始表现之间呈显著负相关关系。在那些 base model 表现较弱的任务（初始 pass@k 较低），RL 展现出极强的「推理边界扩展」能力。

而在本身已经很强的领域，如数学和代码（这些任务的「创造力指数」较低），ProRL 的边界扩展则较为有限。对于图中「Diminished Area」中提升较小的任务，作者观察到一个共同特征：这些任务在预训练数据中已被充分覆盖，缺乏进一步扩展的空间，因此 RL 提供的增益有限。

模型不仅「答对」，还「想得新」。作者使用 Creativity Index 对模型生成的解题路径进行量化评估，发现：训练步数越长，模型「跳出预训练语料」的能力越强。解题方式不再拘泥于模板套路，而是展现出更丰富、更具创造性的推理策略。

总结

这项来自 NVIDIA 的研究，让我们重新认识了 RL 的真正潜力——不仅能优化策略，还能扩展模型的能力边界。

通过 ProRL，我们第一次看到「小模型」也可以在复杂推理任务中「迎难而上」，甚至跑赢大模型。而这种进步，不靠更多数据、不靠更大模型，只靠更长、更稳、更聪明的训练流程。

未来，如果你想做出推理能力强、部署成本低、泛化能力强的小语言模型，ProRL 可能正是那把钥匙。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

LuckyRabbit007 · 2025 年6 月 6 日 01:16

从数学角度来看，KL 正则化可以看作是在优化目标函数中加入了一个约束项，这个约束项限制了策略的变化范围。周期性策略重置则可以看作是在优化过程中引入了一个随机扰动，这个扰动可以帮助模型跳出局部最优解。换句话说，KL 正则化和周期性策略重置都是为了改善优化算法的性能，使其能够更好地找到全局最优解。

Frost16y · 2025 年6 月 7 日 03:24

我觉得你说的很有道理，ProRL 确实更像是“补短板”的利器。从资源分配的角度来看，如果 base model 已经很强了，再用 ProRL 去提升，边际效益可能会递减。反之，如果 base model 在某些任务上表现很差，那么 ProRL 的提升空间就更大，性价比更高。至于如何选择适合 ProRL 的任务，我的建议是： (1) 优先选择那些有明确目标和可验证奖励的任务。 (2) 考虑 base model 的表现，选择那些表现较弱的任务。 (3) 评估任务的潜在价值，选择那些对业务有实际意义的任务。评估 ProRL 的潜在收益，可以尝试先用少量数据进行实验，观察 ProRL 是否能够带来显著的性能提升。如果效果明显，再考虑扩大训练规模。

Rift205c · 2025 年6 月 8 日 09:39

赞同楼上的观点，并非所有推理任务都适合 ProRL 这种强化学习方法。从论文角度来看，ProRL 的有效性似乎与预训练数据相关。如果某个领域的知识在预训练数据中已经非常充分，模型已经具备了较强的基础能力，那么 ProRL 的提升空间可能就相对有限。此外，对于那些奖励函数难以设计的任务，RL 训练可能会面临挑战。比如，要训练模型进行创造性写作，如何定义“好”的写作风格、如何量化“创造性”本身就是一个难题。如果奖励函数设计不当，反而可能导致模型朝着错误的方向优化。所以，ProRL 的适用性还是需要具体问题具体分析。

CrystalBear411 · 2025 年6 月 8 日 10:37

我从另一个角度提供一个思路，可以尝试构建一个“任务难度评估体系”。这个体系可以综合考虑任务的复杂性、数据的质量、以及 base model 的表现等因素，给每个任务打一个“难度分”。然后，我们可以根据任务的“难度分”，来决定是否使用 ProRL 进行训练。对于那些难度适中，并且 base model 表现不佳的任务，ProRL 可能是一个不错的选择。

Comet761k · 2025 年6 月 9 日 02:38

KL 正则化在 ProRL 中的作用，我理解是为了平衡探索（exploration）和利用（exploitation）。长期 RL 训练中，模型容易过拟合于已知的奖励，导致探索不足。KL 正则化通过限制新策略与旧策略的差异，鼓励模型在已知策略附近进行探索，避免快速收敛到次优解。周期性策略重置，我的理解是一种“退火”策略。当模型训练陷入平台期，可能是因为学习率过低或者陷入了局部最小值。此时，重置策略相当于将模型“加热”到一个更高的能量状态，使其有更大的概率跳出局部最小值，继续寻找更优的解。

Shadow53r · 2025 年6 月 9 日 02:46

补充一点，选择适合 ProRL 的任务时，还要考虑数据的可获取性。 ProRL 依赖于大量的训练数据，如果某个任务的数据获取成本很高，那么即使 ProRL 在该任务上潜力巨大，也可能不值得投入。此外，评估 ProRL 在特定任务上的潜在收益，可以尝试使用一些指标，例如： (1) 准确率/召回率等评价指标。 (2) 模型的泛化能力，即模型在未见数据上的表现。 (3) 模型的推理速度和计算成本。

TwilightPeacock415 · 2025 年6 月 9 日 22:46

这个问题涉及到了 RL 训练中的一些tricky的地方。一般来说，KL散度是用来衡量两个概率分布差异的。在 RL 中，如果不用KL正则化，策略更新可能会过于激进，导致模型行为不稳定。但过强的 KL 正则化又可能限制模型的探索能力。所以，这里的“适度”KL惩罚就很重要，它既能保证策略的平滑更新，又能避免模型陷入局部最优。至于周期性策略重置，你可以把它想象成给模型一次“重启”的机会。当模型陷入停滞时，可能是因为参数空间已经没有“路”可走了。这时，将策略重置为一个较早的状态，并重置优化器，就相当于让模型重新探索新的路径，从而有机会打破僵局。

Fable314z · 2025 年6 月 10 日 08:38

这个问题问得好！ProRL 确实展示了 RL 在某些推理任务上的潜力，但要说“所有”那肯定是不现实的。我个人认为，ProRL 更可能擅长那些有明确规则、可验证答案的任务，比如数学、编程、逻辑谜题。但对于需要常识、背景知识或者高度依赖主观判断的任务，可能效果就没那么明显了。举个例子，让模型理解一个笑话的梗，或者判断一篇文章的情感倾向，这些任务可能更依赖于模型的先验知识和对人类情感的理解，而不仅仅是靠 RL 训练就能解决的。

GlowingStarfish420 · 2025 年6 月 11 日 13:40

我觉得还可以从另一个角度来看。ProRL 本质上是一种“精细化训练”的策略，它在预训练的基础上，通过特定的任务和奖励机制，引导模型学习更高效的推理方式。那么，如果预训练阶段本身就存在问题，比如数据质量不高、数据分布不均匀等，那么即使后续采用 ProRL 进行精细化训练，可能也难以取得理想的效果，甚至可能放大预训练阶段的问题。因此，ProRL 的有效性也取决于预训练模型的质量。