LLM 性能新突破口:强化学习的 Scaling Law 潜力巨大

强化学习或成LLM性能突破口,但其Scaling Law尚处早期阶段,奖励稀疏性和Reward model的泛化性、连续性是关键挑战。

原文标题:RL for LLMs,强化学习的 Scaling Law 才刚刚起步?

原文作者:机器之心

冷月清谈:

本文探讨了强化学习(RL)在提升大型语言模型(LLM)性能方面的潜力。通过DeepSeek和清华大学的研究,提出了“自我原则批评调整(SPCT)”方法,以及o1模型利用强化学习提升推理能力的实践,揭示了RL在后训练阶段的重要性。文章指出,LLM依赖于“Next token prediction”,缺乏深度规划和长期预测能力,而RL能够提供“Internal World Model”,弥补这一缺陷。类似于LLM与强化学习的关系可以理解为乘法关系,预训练提供基础理解能力,强化学习优化决策能力。文章还概括了使用RL训练LLM的三个步骤:奖励模型训练、基于偏好的微调和策略优化。尽管RL在LLM后训练中作用显著,但强化学习的Scaling Law仍处于起步阶段,面临奖励稀疏性等难题,Reward model的泛化性和连续性是关键。

怜星夜思:

1、文章提到RL可以为LLM提供“Internal World Model”,这个“Internal World Model”具体指的是什么?它与LLM自身的知识库有什么区别?
2、文章中将LLM与强化学习的关系形容为“乘法关系”,如果缺乏高质量的预训练,仅仅依赖RL,LLM的能力会受到怎样的限制?
3、文章提到了Reward model的泛化性和连续性是关键重点,为什么这两个特性如此重要?如果Reward model的泛化性不好,会产生什么问题?

原文内容

机器之心PRO · 会员通讯 Week 15

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1. RL for LLMs,强化学习的 Scaling Law 才刚刚起步?

为什么说 LLM 性能的下一个突破点是强化学习的 Scale?RL 是如何增强 LLM 的能力的?预训练与 RL 缺一不可,为什么单纯的 RL 并不能提高 LLM 的「智力」?RL 的 Scaling Law 才刚刚起步,有哪些关键难点?近期主流的 LLM 是如何通过强化学习来增强决策能力的?...

2. Anthropic 首席科学家的 AI「视界」如何判别 AGI 进程?

什么是 AI「视界」?AI「视界」正在如何快速进步?Anthropic 一直在关注 DeepSeek?Kaplan 对 Scaling Law 为何仍保持乐观?Anthropic 和 DeepMind 如何辨析「AGI 的加速时间表」?


...本期完整版通讯含 2 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 4 项,国外方面 12 项。
本期通讯总计 21036 字,可免费试读至 8% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  RL for LLMs,强化学习的 Scaling Law 才刚刚起步?

日期:4 月 11 日

预训练模型 x 强化学习=智能?

1、近期、来自 DeepSeek、清华大学的研究者发表了一项关于提升通用奖励模型(GRM)在推理阶段的可扩展性  的技术论文。研究者提出了名为「自我原则批评调整(SPCT)」的方法,通过拒绝式微调和基于规则的在线强化学习,使 GRM 通过动态生成原则和批评优化奖励生成。[1-1] 

2、在 o1 模型推出后,LLM 的 Scaling Laws 范式从预训练阶段转向后训练即推理阶段,通过更多的强化学习(训练时计算)和更多的思考时间(测试时计算)来持续提高 o1 的性能。

① 即 o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

② o1 开启了通过强化学习来实现 LLM 推理能力显著提升的路线,同样,DeepSeek-R1 系列模型也进一步验证了通过纯强化学习训练(无需监督微调)实现 LLM 推理能力的跃升。

3、LLM 本身依赖于「Next token prediction」机制,类似于概率模型,虽知识丰富但缺乏深度规划和长期结果预测能力,易陷入短视决策。而强化学习则起到补充作用,为 LLM 提供「Internal World Model」(内心世界模型),使 LLM 能够模拟不同推理路径的潜在结果、通过评估路径优劣并选择更优解,从而实现更系统化的长期规划,LLM 与 RL 的结合是提升复杂问题解决能力的关键。

4、清华叉院助理教授吴翼在一档播客节目中将 LLM 与强化学习的关系形容为「乘法关系」。强化学习虽然在决策能力上表现出色,但其本身无法提供理解能力。理解能力的构建需要依赖预训练模型,而强化学习则在此基础上进一步优化决策能力。两者的关系可以被形容为「乘法关系」,只有在预训练阶段构建了强大的理解能力、记忆能力和逻辑能力,强化学习才能充分发挥其潜力,最终实现一个完整的智能体。[1-2] 

5、在来自墨尔本大学、浙江大学等机构发布的综述论文《Reinforcement Learning Enhanced LLMs: A Survey》中,使用 RL 训练 LLMs 的过程可以大致分为三个主要步骤:

① 首先是奖励模型的训练。在微调之前,训练一个奖励模型(或奖励函数)来近似人类偏好并评估不同的 LLM 输出;

② 其次是基于偏好的微调。在每次微调迭代中,大型语言模型会为给定指令生成多个响应,每个响应都使用训练好的奖励模型进行评分;

③ 最后是策略优化,通过强化学习优化技术,根据偏好分数更新模型的权重,以提升响应生成。将强化学习纳入大型语言模型,使模型能够基于不同的偏好分数动态调整,而不是仅限于单一的预定答案。

RL 的 Scaling Law 才刚刚起步,有哪些关键难点?

1、尽管强化学习的 Post-Training 成为当前提升 LLM 性能的突破点。但强化学习算法仍有很大的改进空间,强化学习的 Scaling Law 才刚刚起步。

2、所谓的「强化学习的 Scaling Law」 指如何通过增加计算资源(如并行化处理、GPU 加速等)、训练样本或模型规模,来提升强化学习模型的性能。不同于传统的 Scaling Laws 范式,使用更多的数据和算力来实现模型性能的提升,强化学习的 Scaling Law 的影响因素更为复杂,包括样本吞吐量、模型参数量、训练环境的复杂度等。

3、目前,强化学习的 Scaling Law 面临的一大难题是奖励稀疏性,Reward model(奖励模型)是强化学习中的关键模块,生成准确的奖励信号至关重要。Reward model 要想实现泛化性和连续性成为关键重点。

问题:文章中将LLM与强化学习的关系形容为“乘法关系”,如果缺乏高质量的预训练,仅仅依赖RL,LLM的能力会受到怎样的限制?

解答一(偏学术):如果缺乏高质量的预训练,LLM将缺乏对世界知识的理解、记忆和逻辑推理能力。此时,即使通过RL进行优化,也只能在非常有限和特定的任务中表现良好,难以泛化到更广泛的领域。RL的优化效果会受到预训练模型质量的制约,最终的智能水平将大打折扣。

解答二(侧重实践):这就好比教一个什么都不懂的小孩直接玩高难度的游戏,他可能学会一些操作技巧,但根本理解不了游戏规则和策略。没有预训练,RL训练出来的LLM就像一个只会重复动作的机器人,无法真正理解和解决问题。

解答三(偏口语):没有预训练就像盖房子没有地基,直接在沙子上建高楼,风一吹就倒了! RL再厉害,也只能在预训练的基础上锦上添花,没有预训练这个“1”,后面的强化学习就是“0”。

问题:文章提到了Reward model的泛化性和连续性是关键重点,为什么这两个特性如此重要?如果Reward model的泛化性不好,会产生什么问题?

解答一(偏学术):泛化性指的是Reward model在未见过的数据上的表现能力,连续性指的是奖励信号变化的平滑程度。如果泛化性不好,Reward model就只能在训练数据上表现良好,无法对真实世界中复杂多变的场景做出准确评估,导致LLM学习到错误的策略。缺乏连续性会导致奖励信号波动剧烈,造成训练不稳定,难以收敛到最优解。

解答二(类比生活):Reward model就像一个评分员,泛化性好比见多识广,能对各种情况做出合理评价;连续性好比评分标准一致,不会忽高忽低。如果一个评分员只见过特定类型的作品,那他对其他类型的作品的评价肯定不客观,这就会误导选手。

解答三(抖机灵):Reward model的泛化性不好?那不就是“刻板印象”嘛!LLM学习了这种有偏见的Reward model,输出的结果肯定也会带有偏见,到时候别怪它乱说话!

问题:文章提到RL可以为LLM提供“Internal World Model”,这个“Internal World Model”具体指的是什么?它与LLM自身的知识库有什么区别?

解答一(偏学术):Internal World Model是指LLM通过强化学习构建的,用于模拟不同推理路径及其结果的模型。它使得LLM能够评估各种行动方案的潜在结果并选择最优方案。区别在于:LLM的知识库主要来源于预训练数据,是静态的、被动学习的知识集合;而Internal World Model是动态的,通过与环境互动主动学习的决策模型。

解答二(偏口语):可以理解为LLM通过强化学习,在大脑里构建了一个“沙盘”或者“模拟器”。LLM的知识库就像是从书本上学来的知识,而Internal World Model则是通过实践获得的经验,可以用来预测未来,指导行动。

解答三(抖机灵):LLM的知识库是“知道”,Internal World Model是“会”。知道很多道理,但不会做决定,那不就是说的我吗?有了Internal World Model,LLM就像开了天眼,能预知未来了!