前OpenAI CTO新公司Thinking Machines Lab的技术理念揭秘:大模型后训练策略是“少量SFT+大量RL”,并重视高吞吐量和灵活的团队协作。
原文标题:大模型江湖,算法与工程孰执生意牛耳?
原文作者:机器之心
冷月清谈:
怜星夜思:
2、文章中提到后训练要关注高吞吐量,除了增加 Batch Size,还有什么其他的工程优化手段可以提高大模型的推理效率?
3、文章提到了团队协作的问题,当团队规模扩大时,如何保证各个小组独立改进的部分能够顺利整合到主模型中,避免出现灾难性的后果?
原文内容
机器之心PRO · 会员通讯 Week 12
--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---
要事解读① 大模型江湖,算法与工程孰执生意牛耳?
1、近期,Thingking Machines Lab 的研究科学家兼工程师 Luke Metz 于拉美人工智能会议 KHIPU 2025 发表主题演讲。
① 2025 年 2 月 19 日,前 OpenAI CTO Mira Murati 宣布成立人工智能研究和产品公司「Thinking Machines Lab」。其豪华的团队阵容引起业内大量关注,但目前尚未公开任何实际项目。
2、该场演讲以「Large scale RL on language models」为题,探讨了预训练与后训练技术的工艺和见解,并「非常模糊」地分享了 Thingking Machines Lab 近期的进展。
① Luke Metz 的演讲主要围绕模型后训练的相关工艺展开。他以海绵为比喻,预训练的目的是在海绵中尽可能多的信息,而后训练则是为了让海绵以特定的人设/目的/需求把对应的信息呈现出来,因此工艺也更为复杂。
3、Luke Metz 强调了模型后训练的核心策略是整合从演示中学习(SFT)和强化学习(RL)两种技术。两者以「少少 SFT+大量 RL」的配比相结合往往能带来更好的效果。
① SFT 本质上是让模型从演示中学习,结束少量经过筛选和标注的演示数据为模型呈现任务执行的基础行为模式,让模型得到良好的初始策略(Do a bit of SFT to get a good initial policy)。
② 强化学习则是后训练的核心构成,奖励函数则是决定模型学习方向的关键因素。在 SFT 搭建的基础之上,通过精心设计的奖励函数,为模型行为提供精确导向,通过持续试错让模型逐步摸索出解决复杂任务的最优策略,(RL a bunch to maximize performance)
③ 结合 SFT 与 RL,以「Do a bit of SFT to get a good initial policy,RL a bunch to maximize performance」的模式设计往往会得到让人经验的结果(works surprisingly well)。
4、Luke Metz 还在演讲中讨论了产品、计算资源和软件系统于后训练之间的关系,并分享了其团队对于适配后训练推理目标(Inference Demand)的设计理念。
① 软件系统在后训练阶段的复杂性显著增加。与预训练阶段侧重于大规模数据并行处理和模型参数初始化计算不同,后训练阶段因涉及强化学习、多种数据类型处理以及复杂评估流程,要求软件系统具备更灵活、可扩展的架构。
② 相较于预训练,后训练需要将推理作为训练过程的一部分,因而和以往的推理目标(Inference Demand)不同。
③ Metz 强调,提供推理能力的产品通常关注低延迟表现(low-Latency),因为用户不希望等待过长时间。但对于 RL 和后训练,其目标是从硬件中获得最佳性能,因此需要尽可能提高吞吐量(High throughput)。推理目标的差异将会改变很多设计决策,也会导致系统架构的差异。
④ 在后训练的推理目标下,Metz 的设计经验是「Batch Size 越大越好」(Get big batch sizes as much as you can)。
5、Luke Metz 在有关组织复杂性的话题中分享了其团队在 OpenAI 开始就面临的问题、尝试解决方案和当前的阶段性进展。(但没有指出是否是 Thingking Machines Lab)
① 他以自己在 OpenAI 的经历为例,其团队只有大约五个人,但随着模型功能的不断增加,团队规模迅速扩大到了 100 多人。这种快速的团队扩张带来了新的问题,因为现在有大量人员需要在同一个模型上进行协作。
② 团队尝试通过建立一种机制来解决这个问题,这种机制允许各个小组独立改进模型的不同部分,然后将这些改进整合到一个主模型中。他们将这个主模型称为「主线模型」。
③ 这种方法的核心在于,各个小组可以在较小的模型上、使用较少的数据或特定的评估集上进行实验,如果某个小组的改进通过了这些测试,那么这些改进就会被整合到主线模型中。然而,这种方法也有其局限性,因为当模型规模扩大时,一些在小规模实验中看似有效的方法可能会突然失效,导致灾难性的后果。
④ Metz 还提到,当出现问题时,团队需要有一种机制来快速回滚到之前的状态。但是,这种回滚机制并不总是有效,因为有时候问题的根源可能并不明确。
6、此外,Luke Metz 在演讲中还分享了奖励优化、监督微调(SFT)与强化学习(RL)的结合使用、不同的 RL 方法、在链式思维和工具使用等领域的应用、评估方法、产品集成、计算需求以及组织挑战等多个方面。
表:Thinking Machines Lab 创始团队成员名单[1-2]
「出走版 OpenAI」 后训练的生意经:少少 SFT+大量 RL?[1-1]

