LLM+RL：从后训练重回预训练，潜力能否走得更远？

almosthuman2014 · 2025 年6 月 28 日 13:22

探讨LLM+RL结合的新趋势，RL从后训练走向了预训练。虽然潜力巨大，但理论、技术和任务上仍面临诸多挑战。

原文标题：从后训练回到预训练，LLM+RL 的潜力兑现有有机会走更远吗？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650976372&idx=1&sn=3bc58b707459073b081f8d71ce0d83ab&

冷月清谈：

本文探讨了强化学习（RL）与大型语言模型（LLM）结合的发展趋势，重点分析了RL从后训练阶段扩展到预训练阶段的潜力。文章指出，尽管RL通过将文本生成转化为序贯决策问题，并引入奖励机制，为LLM带来了新的希望，但RL自身固有的局限性和挑战依然存在。微软研究院等机构提出的“Reinforcement Pre-Training（RPT）”将RL应用于预训练，通过任务结果的奖励机制，在部分推理基准上超越了传统训练模型。然而，RL在预训练中的应用仍面临训练语料验证、计算资源需求等挑战。总的来说，LLM+RL的道路充满希望，但也面临诸多理论和实践的考验。

怜星夜思：

1、文章提到强化学习在LLM预训练中，可以将NTP（下个词元预测）任务重塑为一个可验证的推理任务，这具体是怎么实现的？你能否用更通俗的例子解释一下？
2、文章里说“RL的奖励信号（reward）则不需要监督着提供「专家级答案」，将监督信息从「生成式」退化为「验证式」，降低了对质量和标注难度的要求”，这句话该如何理解？这对于实际应用来说有什么好处？
3、文章提到RL在LLM中应用仍然存在局限性，例如需要大量计算资源。除了计算资源，你认为LLM+RL还面临哪些挑战？

原文内容

机器之心PRO · 会员通讯 Week 26

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1.从后训练回到预训练，LLM+RL 的潜力兑现有有机会走更远吗？

都是 NPT，用 RL 做预训练的潜力更大吗？为什么强化学习里很少有预训练模型？最流行的 RL 范式有何理论缺陷？已有成效的后训练 RL 实现存在什么问题？

2. 硅谷 AI Leaders 近期「暴论」大盘点！

未来订阅 ChatGPT 就送人形机器人？AGI 为什么可能永远无法实现？为什么 AI 比程序员更显性价比？行业大模型真的没必要吗？做好研究不如写好推文？OpenAI 和 Nvidia 的「AI 工厂」有何区别？

本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 9 项，国外方面 9 项。

本期通讯总计 23143 字，可免费试读至 9%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 从后训练回到预训练，LLM+RL 的潜力兑现有有机会走更远吗？

引言：RL 与 LLM 结合是重要的技术发展方向，其应用从后训练阶段延伸至预训练阶段。与自回归（AR）同为优化「下一个词元预测」（NTP）的局部概率的建模方法，RL 的引入将文本生成过程重构为序贯决策问题，让 LLM 生成 token 时需要在历史文本的关联上增加对未来「累积奖励」的评估。这种延展看似为 LLM+RL 的路线带来更多希望，但 RL 本身存在的局限和挑战仍是亟待解决的问题。

从后训练到预训练，RL 在 LLM 中的潜力是「越来越大」，还是道路坎坷？

1、LLM 在演进中长期依赖的监督学习范式通常依赖人类提供的、从输入到输出的完整监督信号进行学习。这种路径对监督数据的需求和监督信号正确性的要求，让强化学习成为了一种可能的解决方案，并得到大量探索。[1-1]

① LLM 预训练对监督数据的需求趋于无穷，且需要覆盖尽可能所有遇到的问题，同时要求监督信号必须准确无误，从而保证模型正确性。

② 两项要求在现实中均难以实现，原因在于高质量人类标注数据生产成本高昂且效率优先，同时人类知识本身存在边界和偏见。这些局限导致需要一种方法来解决高效&低成本获取数据，同时放宽监督信号质量要求的方法来改善。

③ 强化学习的特征在于数据由模型和环境交互自发生成，可解决数据来源的限制；RL 的奖励信号（reward）则不需要监督着提供「专家级答案」，将监督信息从「生成式」退化为「验证式」，降低了对质量和标注难度的要求。

2、强化学习在 LLM 中的应用，最初集中在后训练（Post-training）阶段。其中的代表性技术是基于人类反馈的强化学习（RLHF），而后发展出 RLAIF、PPO、DPO 和近期较为流行的 RLVR 等工艺。

3、近期，微软研究院和清北研究者的「Reinforcement Pre-Training（RPT）」将 RL 的应用范围从后训练进一步扩展到了预训练阶段。[1-2]

① 在传统自监督学习的基础上，引入了基于任务结果的奖励机制，将结果导向的信号融入了模型的基础学习过程，其训练的模型在部分推理基准上表现超越了体量更大的、采用传统方式训练的模型。

4、RL 从模型后训练走向预训练的探索和尝试为 LLM 突破极限带来新希望，但是这些方法的已知局限在被逐渐缓解的同时，LLM+RL 在理论、技术实现和任务上的局限也在被逐步发掘，导致 LLM+RL 的路线看似前途光明，实则道路坎坷。

都是 NTP，用 RL 做预训练有哪些门道？

1、微软研究院、清华和北大的研究者提出的 RPT 证明了 LLM 预训练的 NTP（下个词元预测）任务可以被重塑为一个可验证的推理任务，解锁强化学习对标注数据的依赖，将传统用于 NTP 的海量无标注文本数据，转化为适用于通用强化学习的大规模训练资源，引起许多关注。[1-2]

① NTP 是大多数 LLM 的基石，其目标是最大化预测语料库中下一个 token 的概率，本质上是让模型学习 token 间的贡献关系。这种方法在需要深度推理的复杂场景可能会鼓励模型「死记硬背」而非去「理解」。

② RPT 的核心思想是将每个 NTP 步骤都转变为需要推理才能解决的问题，模型会先生成一段 CoT，然后给出预测的 token，由此规避了 RLHF 以来告知了数据，RLVR 受限于标准答案等局限。

2、虽然 RPT 在一定程度上展现了 RL 在预训练阶段的潜力，但该工作的训练语料、训练设置尚未在更广泛的文本、以和基础模型上得以验证，且 RL 训练需要大量计算资源的局限仍然存在。

3、在 RPT 之前，用 RL 进行 LLM 预训练的课题在 2022 年甚至更早就已得到关注。彼时，研究者从多个角度总结了 RL 中少有预训练模型的原因，如南京大学 AI 学院副院长在知乎话题中给出了较为全面的观点。[1-3]

ScarletTiger123 · 2025 年7 月 2 日 23:10

简单来说，以前我们需要告诉模型什么是“正确答案”，现在只需要判断模型给出的答案“是否正确”就行了。好处就是减少了对高质量标注数据的依赖，降低了成本。例如，以前我们需要给模型提供“北京的著名景点是故宫”，现在只需要判断模型给出的“北京的著名景点是…故宫”是否正确即可。

CloudySky415 · 2025 年7 月 3 日 17:22

这个问题问得好！形象点说，传统的LLM预训练就像是让学生背诵课文，只管背下来，不管理解不理解。而RL预训练则像是让学生做推理题，需要分析问题、找到线索、才能得出答案。通过将NTP转化为推理任务，LLM不再是单纯的“复读机”，而是具备了一定的“思考”能力。但这只是个开始，毕竟真正的推理能力还需要更复杂的训练和机制。

SummerSun956 · 2025 年7 月 4 日 12:06

我认为最大的挑战是泛化能力。RL在特定任务上表现很好，但在新任务上的表现可能很差。这需要我们想办法提高模型的泛化能力，比如采用元学习、多任务学习等方法。此外，RL的安全性也是个问题，我们需要确保模型不会做出有害的行为。

CrystalBear411 · 2025 年7 月 4 日 14:43

这就好比教小孩，以前要手把手教他写字，现在只要他写出来的字不离谱就行。降低了标注难度，意味着我们可以用更少的资源，更快地训练模型。实际应用中，我们可以利用用户反馈、点赞、评论等间接信号作为奖励，让模型自主学习，而不需要大量专家标注。

Pulse48v · 2025 年7 月 5 日 22:16

这句话的关键在于“生成式”和“验证式”的转换。生成式需要提供完整的、高质量的信息，而验证式只需要判断结果是否符合标准。这种转变降低了对监督数据的要求，使得我们可以利用更多非专家数据进行训练，从而降低成本，提高效率。在实际应用中，这意味着我们可以更容易地将RL应用于各种场景，例如对话系统、推荐系统等。但也要注意，验证式信号可能存在偏差，需要仔细设计奖励机制。

SpringFlower865 · 2025 年7 月 6 日 04:35

我觉得最关键的还是可解释性。RL模型往往是个黑盒，我们很难理解它为什么会做出某个决策。这给模型的debugging和改进带来了困难。此外，如何将人类的知识融入到RL模型中，也是个挑战。目前的研究主要依赖于数据驱动的方法，缺乏知识引导。

MorningDew906 · 2025 年7 月 7 日 13:59

除了计算资源，RL的奖励函数设计也是个大问题。奖励函数设计不好，模型可能学到一些奇怪的策略，比如为了获得高分，疯狂重复某个词语。另外，RL的探索性也是个挑战，模型需要不断尝试，才能找到最优策略，这需要时间和计算资源。还有，RL的稳定性也是个问题，训练过程可能不稳定，需要仔细调参。

Fable314z · 2025 年7 月 7 日 20:30

这个可以理解成以前我们让LLM硬背答案，现在我们教它怎么思考。以前NTP直接预测下一个词，现在RPT让模型先生成一段CoT（Chain of Thought），也就是思考过程，然后再根据CoT给出预测的token。就像考试，以前直接填答案，现在要写解题步骤。

RoaringTiger218 · 2025 年7 月 7 日 23:39

实际上就是把填空题变成了简答题。以前的NTP就像是直接给一个句子“今天天气真__”，模型直接填“好”；现在的RPT呢，模型会先思考：“今天是晴天，阳光明媚，心情不错”，然后给出答案“好”。多了个思考过程，模型就不容易死记硬背了。