LLM+RL:从后训练重回预训练,潜力能否走得更远?

探讨LLM+RL结合的新趋势,RL从后训练走向了预训练。虽然潜力巨大,但理论、技术和任务上仍面临诸多挑战。

原文标题:从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?

原文作者:机器之心

冷月清谈:

本文探讨了强化学习(RL)与大型语言模型(LLM)结合的发展趋势,重点分析了RL从后训练阶段扩展到预训练阶段的潜力。文章指出,尽管RL通过将文本生成转化为序贯决策问题,并引入奖励机制,为LLM带来了新的希望,但RL自身固有的局限性和挑战依然存在。微软研究院等机构提出的“Reinforcement Pre-Training(RPT)”将RL应用于预训练,通过任务结果的奖励机制,在部分推理基准上超越了传统训练模型。然而,RL在预训练中的应用仍面临训练语料验证、计算资源需求等挑战。总的来说,LLM+RL的道路充满希望,但也面临诸多理论和实践的考验。

怜星夜思:

1、文章提到强化学习在LLM预训练中,可以将NTP(下个词元预测)任务重塑为一个可验证的推理任务,这具体是怎么实现的?你能否用更通俗的例子解释一下?
2、文章里说“RL的奖励信号(reward)则不需要监督着提供「专家级答案」,将监督信息从「生成式」退化为「验证式」,降低了对质量和标注难度的要求”,这句话该如何理解?这对于实际应用来说有什么好处?
3、文章提到RL在LLM中应用仍然存在局限性,例如需要大量计算资源。除了计算资源,你认为LLM+RL还面临哪些挑战?

原文内容

机器之心PRO · 会员通讯 Week 26

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1.从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?

都是 NPT,用 RL 做预训练的潜力更大吗?为什么强化学习里很少有预训练模型?最流行的 RL 范式有何理论缺陷? 已有成效的后训练 RL 实现存在什么问题?

2. 硅谷 AI Leaders 近期「暴论」大盘点!

未来订阅 ChatGPT 就送人形机器人?AGI 为什么可能永远无法实现?为什么 AI 比程序员更显性价比?行业大模型真的没必要吗?做好研究不如写好推文?OpenAI 和 Nvidia 的「AI 工厂」有何区别?


本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 9 项,国外方面 9 项。
本期通讯总计 23143 字,可免费试读至 9% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?

引言:RL 与 LLM 结合是重要的技术发展方向,其应用从后训练阶段延伸至预训练阶段。与自回归(AR)同为优化「下一个词元预测」(NTP)的局部概率的建模方法,RL 的引入将文本生成过程重构为序贯决策问题,让 LLM 生成 token 时需要在历史文本的关联上增加对未来「累积奖励」的评估。这种延展看似为 LLM+RL 的路线带来更多希望,但 RL 本身存在的局限和挑战仍是亟待解决的问题。

从后训练到预训练,RL 在 LLM 中的潜力「越来越大」,还是道路坎坷

1、LLM 在演进中长期依赖的监督学习范式通常依赖人类提供的、从输入到输出的完整监督信号进行学习。这种路径对监督数据的需求和监督信号正确性的要求,让强化学习成为了一种可能的解决方案,并得到大量探索。[1-1]

① LLM 预训练对监督数据的需求趋于无穷,且需要覆盖尽可能所有遇到的问题,同时要求监督信号必须准确无误,从而保证模型正确性。

② 两项要求在现实中均难以实现,原因在于高质量人类标注数据生产成本高昂且效率优先,同时人类知识本身存在边界和偏见。这些局限导致需要一种方法来解决高效&低成本获取数据,同时放宽监督信号质量要求的方法来改善。

③ 强化学习的特征在于数据由模型和环境交互自发生成,可解决数据来源的限制;RL 的奖励信号(reward)则不需要监督着提供「专家级答案」,将监督信息从「生成式」退化为「验证式」,降低了对质量和标注难度的要求。

2、强化学习在 LLM 中的应用,最初集中在后训练(Post-training)阶段。其中的代表性技术是基于人类反馈的强化学习(RLHF),而后发展出 RLAIF、PPO、DPO 和近期较为流行的 RLVR 等工艺。

3、近期,微软研究院和清北研究者的「Reinforcement Pre-Training(RPT)」将 RL 的应用范围从后训练进一步扩展到了预训练阶段。[1-2]

① 在传统自监督学习的基础上,引入了基于任务结果的奖励机制,将结果导向的信号融入了模型的基础学习过程,其训练的模型在部分推理基准上表现超越了体量更大的、采用传统方式训练的模型。

4、RL 从模型后训练走向预训练的探索和尝试为 LLM 突破极限带来新希望,但是这些方法的已知局限在被逐渐缓解的同时,LLM+RL 在理论、技术实现和任务上的局限也在被逐步发掘,导致 LLM+RL 的路线看似前途光明,实则道路坎坷。

都是 NTP,用 RL 做预训练有哪些门道?

1、微软研究院、清华和北大的研究者提出的 RPT 证明了 LLM 预训练的 NTP(下个词元预测)任务可以被重塑为一个可验证的推理任务,解锁强化学习对标注数据的依赖,将传统用于 NTP 的海量无标注文本数据,转化为适用于通用强化学习的大规模训练资源,引起许多关注。[1-2]

① NTP 是大多数 LLM 的基石,其目标是最大化预测语料库中下一个 token 的概率,本质上是让模型学习 token 间的贡献关系。这种方法在需要深度推理的复杂场景可能会鼓励模型「死记硬背」而非去「理解」。

② RPT 的核心思想是将每个 NTP 步骤都转变为需要推理才能解决的问题,模型会先生成一段 CoT,然后给出预测的 token,由此规避了 RLHF 以来告知了数据,RLVR 受限于标准答案等局限。

2、虽然 RPT 在一定程度上展现了 RL 在预训练阶段的潜力,但该工作的训练语料、训练设置尚未在更广泛的文本、以和基础模型上得以验证,且 RL 训练需要大量计算资源的局限仍然存在。

3、在 RPT 之前,用 RL 进行 LLM 预训练的课题在 2022 年甚至更早就已得到关注。彼时,研究者从多个角度总结了 RL 中少有预训练模型的原因,如南京大学 AI 学院副院长在知乎话题中给出了较为全面的观点。[1-3]

简单来说,以前我们需要告诉模型什么是“正确答案”,现在只需要判断模型给出的答案“是否正确”就行了。好处就是减少了对高质量标注数据的依赖,降低了成本。例如,以前我们需要给模型提供“北京的著名景点是故宫”,现在只需要判断模型给出的“北京的著名景点是…故宫”是否正确即可。

这个问题问得好!形象点说,传统的LLM预训练就像是让学生背诵课文,只管背下来,不管理解不理解。而RL预训练则像是让学生做推理题,需要分析问题、找到线索、才能得出答案。通过将NTP转化为推理任务,LLM不再是单纯的“复读机”,而是具备了一定的“思考”能力。但这只是个开始,毕竟真正的推理能力还需要更复杂的训练和机制。

我认为最大的挑战是泛化能力。RL在特定任务上表现很好,但在新任务上的表现可能很差。这需要我们想办法提高模型的泛化能力,比如采用元学习、多任务学习等方法。此外,RL的安全性也是个问题,我们需要确保模型不会做出有害的行为。

这就好比教小孩,以前要手把手教他写字,现在只要他写出来的字不离谱就行。降低了标注难度,意味着我们可以用更少的资源,更快地训练模型。实际应用中,我们可以利用用户反馈、点赞、评论等间接信号作为奖励,让模型自主学习,而不需要大量专家标注。

这句话的关键在于“生成式”和“验证式”的转换。生成式需要提供完整的、高质量的信息,而验证式只需要判断结果是否符合标准。这种转变降低了对监督数据的要求,使得我们可以利用更多非专家数据进行训练,从而降低成本,提高效率。在实际应用中,这意味着我们可以更容易地将RL应用于各种场景,例如对话系统、推荐系统等。但也要注意,验证式信号可能存在偏差,需要仔细设计奖励机制。

我觉得最关键的还是可解释性。RL模型往往是个黑盒,我们很难理解它为什么会做出某个决策。这给模型的debugging和改进带来了困难。此外,如何将人类的知识融入到RL模型中,也是个挑战。目前的研究主要依赖于数据驱动的方法,缺乏知识引导。

除了计算资源,RL的奖励函数设计也是个大问题。奖励函数设计不好,模型可能学到一些奇怪的策略,比如为了获得高分,疯狂重复某个词语。另外,RL的探索性也是个挑战,模型需要不断尝试,才能找到最优策略,这需要时间和计算资源。还有,RL的稳定性也是个问题,训练过程可能不稳定,需要仔细调参。

这个可以理解成以前我们让LLM硬背答案,现在我们教它怎么思考。以前NTP直接预测下一个词,现在RPT让模型先生成一段CoT(Chain of Thought),也就是思考过程,然后再根据CoT给出预测的token。就像考试,以前直接填答案,现在要写解题步骤。

实际上就是把填空题变成了简答题。以前的NTP就像是直接给一个句子“今天天气真__”,模型直接填“好”;现在的RPT呢,模型会先思考:“今天是晴天,阳光明媚,心情不错”,然后给出答案“好”。多了个思考过程,模型就不容易死记硬背了。