深度解读RL后训练：Rollout过程的效率瓶颈与效果优化

almosthuman2014 · 2025 年11 月 29 日 14:58

RL后训练中，Rollout环节是效率瓶颈与效果关键。理解并优化Rollout，提升LLM能力。

原文标题：被轻视的Rollout过程，是后训练的性能瓶颈，还是RL的ROI突破口？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651004882&idx=1&sn=45cf000b8c592daa9af551e0fb2d78dd&

冷月清谈：

在大型语言模型（LLM）的后训练阶段，强化学习（RL）已成为提升模型能力的核心技术路径。而在这个过程中，"Rollout"环节被发现是资源消耗的核心，占据了RL后训练总时间的70%甚至更高，同时它也是决定训练效果的关键变量。Rollout特指模型基于当前策略，从特定Prompt开始，生成完整或部分回答序列的过程。它与我们日常所说的推理（Inference）存在本质区别：推理追求单次生成的准确与效率，而Rollout旨在为训练提供多样化、有价值的轨迹样本，其数据生成后需回流至训练流程，更强调批量性和探索性。文章指出，Rollout轨迹的质量直接决定RL训练的最终效果，劣质轨迹可能导致模型陷入局部最优。其计算效率的困境源于生成逻辑的串行特性与任务分布的长尾特性，导致计算资源出现“泡沫”现象。当前业界正通过多种方式，如提高计算效率和改善轨迹质量来优化Rollout，例如英伟达提出的BroRL范式，旨在通过扩展Rollout规模提升计算和数据效率。

怜星夜思：

1、文章提到Rollout环节占据了RL后训练时间的70%以上，这对于资源有限的团队来说是个巨大的挑战。除了文章里提及的一些宏观研究方向，大家在日常开发中，有没有什么更“接地气”的方法来优化Rollout效率，或者降低其对资源的依赖呢？
2、文章强调Rollout的“轨迹质量”直接决定RL训练效果，劣质轨迹会导致模型陷入局部最优。除了过滤掉已经生成的劣质轨迹，大家觉得我们还能从哪些方面入手，让模型在Rollout阶段就能主动生成更高质量、更有探索性的轨迹，而不是等到训练后期再“纠正”？
3、Rollout和Inference在技术逻辑上共享Transformer架构的解码过程，但目标和计算模式有差异。那么，Inference领域的一些热门优化技术，比如投机采样（Speculative Decoding）或者更高效的KV Cache管理，能直接或间接应用到Rollout中，并带来哪些潜在的好处或挑战呢？

原文内容

机器之心PRO · 会员通讯 Week 48

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 被轻视的Rollout过程，是后训练的性能瓶颈，还是RL的ROI突破口？

Rollout 对 RL 后训练的 ROI 有何影响？为什么 Rollout 会占据 RL 后训练时间的 70%+？Rollout 和 Inference 有何区别？Rollout 如何实现 Scaling？近期工作如何改善 Rollout 计算效率？如何从根本提升 Rollout 对 RL 的训练效果？...

2. 2026 年，大模型未知的「能力拐点」能否实现可持续的业务增长？

2026 年 AI 真能独立上班 8 小时？OpenAI 内部开始强调「进入战时状态、不再是默认赢家」？企业优先的 Anthropic，会在 OpenAI 之前盈利？Google、Meta 砸出的这轮 Capex，能换来多少「非泡沫」的 AI 增长？...

3. Sam Altman 为何认为「极速」比「廉价 Token」更值钱？

为何专家级用户愿为「毫秒级延迟」而非「低成本 Token」买单？「任务连贯性」如何取代「准确率」成为新的评价指标？在万物互联的时代，为何 OpenAI 要打造一台「断网」也能用的新计算机？人类精心设计的 Agent 工作流，反而是阻碍模型智力涌现的最大绊脚石？「Let it figure it out」才是顶级 AI Agent 的最终解？...

本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递，其中技术方面 10 项，国内方面 9 项，国外方面 11 项。

本期通讯总计 25180 字，可免费试读至 7%

消耗 288 微信豆可兑换完整本期解读（约合人民币 28.8 元）

要事解读① 被轻视的Rollout过程，是后训练的性能瓶颈，还是RL的ROI突破口？

引言：2025 年，强化学习（RL）已成为 LLM 后训练的核心技术路径。越来越多的研究工作发现 Rollout 环节即使 RL 后训练流程的资源消耗核心，也是决定训练效果的关键变量。围绕这一核心环节，近期有诸多探索尝试通过改善 Rollout 来实现更优的 RL 训练方案。

同时影响效率与效果，Rollout 或是 RL 后训练「投入产出比」的关键？

1、2025 年里，LLM 领域的研究重心已从预训练规模竞赛转向后训练能力深化，其中强化学习（RL）成为突破模型推理边界的关键路径，也让业界开始聚焦 RL 流程中的关键环节优化。[1-1]

① 在此趋势下，RL 后训练不再局限于人类偏好对齐（RLHF），包含 OpenAI o3 系列、DeepSeek-R1、Qwen2.5-Math 等工作均展示了可验证奖励的强化学习（RLVR）对提升 LLM 推理能力的帮助。

2、在 RL 后训练的「生成 - 评估 - 更新」流程中，使用预训练 LLM 生成答案的 Rollout 的环节是影响 RL 训练效率和效果的关键因素，并且计算消耗最大的环节，因而引发了对这一环节的关注。[1-2] [1-3]

① 多项研究发现，Rollout 是 RL 后训练阶段的耗能大户，如港科大和阿里团队的「RollPacker 」论文分析发现 Rollout 环节占了 RL 后训练时间的 70%；字节和上海交大「RhymeRL」证明 Rollout 阶段占了 84%-91% 的时间。

3、Rollout 是源自 RL 的术语。在 LLM 的语境下，Rollout 特指模型基于当前的策略（Policy），从某个状态（Prompt）开始，生成完整或部分回答序列（Trajectory）的过程。[1-4]

① Rollout 和 Inference 共享 LLM 自回归生成的核心技术逻辑，二者均依赖 Transformer 架构的解码过程，且都会通过 KV Cache 缓存 Key-Value 矩阵加速生成（避免重复计算前文注意力）。然而，两者在核心目标、数据流向与计算模式上均有差异。

② Inference 追求 “单次生成的准确性与效率”，数据流向是单向的 “输入 - 输出”；而 Rollout 的目标是 “为训练提供多样化、有价值的轨迹样本”，数据生成后需回流至训练流程，且需通过多轮采样、多样性增强等策略确保样本质量，计算模式更强调 “批量性与探索性” 而非单次性能。

4、除了作为 “耗能大户”，Rollout 的轨迹质量直接决定 RL 训练的最终效果。劣质轨迹会导致模型陷入局部最优，优质轨迹则能激活模型的探索能力与推理潜力。

① 阿里巴巴「Roll」团队的工作发现，在数学推理 RL 训练中，采用随机采样 Rollout（轨迹与任务目标对齐度仅 41%）的模型，即使训练步数达到优质轨迹组的 2 倍，MATH 数据集准确率仍低 18%。[1-5]

② 蚂蚁的 Ling Team 则在 Ring-1T 万亿参数模型的训练中发现，未经过滤的 Rollout 轨迹（含错误推理步骤、逻辑断裂片段）会导致梯度计算偏差指数级累积。[1-6]

5、伴随业内对 Rollout 的环节的重视，有许多工作尝试从提高计算效率、改善 Rollout 轨迹质量等方面着手，探索更优的 RL 后训练方案。

花样改善计算效率，Rollout 也能 Scaling？

1、Rollout 环节的计算效率困境，本质是 “生成逻辑的串行特性” 与 “任务分布的长尾特性” 之间的根本性矛盾，因 Rollout 长尾延迟问题导致计算资源的「泡沫」（Bubble）现象。由此，许多探索工作都在试图从不同的角度提高计算效率。

① 「长尾延迟」指 “少量长请求占据多数耗时的分布失衡现象”，Rollout 即某些请求需要较长时间生成，导致所有 GPU 都需要等待最慢的请求，大量设备在等待期内处于空闲状态，也就是出现了「泡沫」。[1-8]

2、英伟达的研究者在 11 月提出了 BroRL 范式，通过扩展 Rollout 规模的方式让该环节更具计算与数据效率（Compute-and Data-Efficient），在更短时间内完成更高质量的训练，且 Scaling 上限更高。[1-7]