Mid-training 范式助力 Llama 追平 Qwen,破解 RL 奥秘

研究团队提出 Mid-training 范式,解决 Llama 模型在强化学习上的难题,使其性能成功追平 Qwen,为 AI 系统开发提供新思路。

原文标题:首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!

原文作者:机器之心

冷月清谈:

上海创智学院和上海交通大学的研究团队提出了一种创新的中期训练(mid-training)策略,旨在弥合 Llama 和 Qwen 模型在强化学习(RL)适应性上的差距。研究发现,Llama 模型在直接进行 RL 训练时常遇到困难,如重复输出或过早给出答案,而 Qwen 系列模型则表现出更强的 RL 适应性。通过大量可控的 mid-training 实验,研究团队发现高质量的数学语料库(如 MegaMath-Web-Pro)和适当的数据格式(QA 样式数据和指令数据)对提升模型性能至关重要。同时,长链推理具有双刃剑效应,需要通过特定技术手段来解决训练不稳定问题。基于这些发现,研究团队提出了一个两阶段的训练方案,包括构建强推理基座和分支专业化训练,最终成功打造了 OctoThinker 系列模型。实验结果表明,OctoThinker 模型在数学推理任务上取得了显著提升,甚至可以与 Qwen2.5 模型相媲美,为开发 reasoning 能力 AI 系统提供了新的技术路径。

怜星夜思:

1、文章提到高质量数学语料库对提升模型性能至关重要,你认为除了文章中提到的 MegaMath-Web-Pro,还有哪些潜在的高质量数学语料库来源?它们的特点是什么?
2、文章中提到长链推理具有双刃剑效应,既能提升推理深度,也可能引发模型训练不稳定。那么,除了文章中提到的方法,你认为还有哪些方法可以有效缓解长链推理带来的训练不稳定问题?
3、文章提出了 OctoThinker 的两阶段训练方案,并取得了显著效果。你认为这种 mid-training 范式是否具有普适性?它可以应用到哪些其他的 NLP 任务中?

原文内容


近期,一份来自上海创智学院、上海交通大学的前沿研究论文吸引了人工智能领域的广泛关注。该论文深入探讨了不同基础语言模型家族(如 Llama 和 Qwen)在强化学习(RL)训练中迥异表现的背后原因,并提出创新性的中期训练(mid-training)策略,成功地将 Llama 模型改造成高度适配强化学习的推理基础模型,显著缩小了其与天生擅长 RL 扩展的 Qwen 模型之间的性能差距,为下一代 reasoning 能力 AI 系统的开发提供了关键的科学基础和技术路径。


论文发布后在社交媒体引发广泛关注,Meta AI 研究科学家、即将赴 UMass Amherst 任助理教授的 Wenting Zhao 率先盛赞:“Truly impressed by how an academic lab just figured out a lot of mysteries in mid-training to close the RL gap between Llama and Qwen。” 此外,卡内基梅隆大学副教授 Graham Neubig、MIT CSAIL/Databricks Research 研究科学家,DSPy 项目的开发者 Omar Khattab 以及 AI2 数据负责人 Loca Soldaini 也共同肯定了这项系统性分析的重要价值。来自 Pleias AI Lab 的研究员 Alexander Doria 指出,他们的独立实验也证明,只要配合适当的数据预处理,任何模型都能显著提升 RLVR 或 RL 性能,进一步佐证了该方法的普适性。


此外,和 Octothinker 一同发布的 MegaMath-Web-Pro-Max 数据集发布即获得下载热潮,使用者覆盖了 MIT、EPFL、UW、Columbia、NUS、CMU、Princeton、THU、HKUST 等诸多顶尖高校,以及 Apple、Microsoft、TII、Moonshot、DatologyAI、AI2、IBM、Cohere、Tencent 等知名科研机构和企业,体现了学术界和工业界对这一工作的高度重视。



  • 论文链接:https://arxiv.org/abs/2506.20512

  • 代码仓库:https://github.com/GAIR-NLP/OctoThinker

  • 开源模型 & 数据:https://huggingface.co/OctoThinker


研究团队通过大规模 mid-training 成功将 Llama 模型改造成 highly RL-compatible 的推理基础模型,在数学推理上可以与 Qwen 媲美。


研究背景


将大规模强化学习(RL)引入语言模型显著提升了复杂推理能力,尤其是在数学竞赛题解等高难度任务上。然而,近期的各项研究呈现出一系列耐人寻味的现象:(i) 只有 Qwen 系列基础模型表现出近乎 “魔法般” 的 RL 提升;(ii) 关键的 Aha moment 似乎主要在数学场景中出现;(iii) 不同评测设置往往暗含偏差,影响对 RL 成效的判断;(iv) RL 在下游看似 “岁月静好”,却在很大程度上依赖上游的 Pre-/Mid-training 质量 ^[1]。


与此同时,团队和其他研究者们都发现,尽管 Qwen 在 RL 扩展上高度稳健,Llama 却频繁出现提前给出答案和重复输出,难以获得同等级的性能增益。这一系列对比引出了核心科学问题:哪些基座特性决定了模型对 RL scaling 的适应性?Mid-training 能否作为可控干预手段,弥合不同基座在 RL 中的表现鸿沟?


为了探索这些问题,团队毫无保留地交出了一份详尽的技术报告记录了他们的研究过程,和一份完全开源的数据方案和基于 Llama 充分强化性能的新系列模型 OctoThinker。


核心问题:为什么 RL 训练在 Llama 上频频失效?


当 Qwen 系列模型通过强化学习(如 PPO、GRPO)在数学推理任务上获得显著提升时,同体量的 Llama 模型却常陷入重复输出或过早给出答案的困境。如下图所示,Llama 系列模型在直接进行强化学习训练的时候,总是会遇到 Reward Hacking、表现提升有限等一系列问题。



深入挖掘:通过可控的中期训练探索关键因素


研究团队通过对 Llama-3.2-3B 进行大量的可控 mid-training 实验(每次实验训练 20B tokens),然后进行强化学习训练观察训练动态。




中等训练策略的关键发现


  • 高质量数学语料库的重要性:研究发现,像 MegaMath-Web-Pro 这样的高质量数学语料库,相较于 FineMath-4plus 等现有替代方案,能显著提升基础模型和 RL 性能。例如,在使用 MegaMath-Web-Pro 时,模型在下游 RL 任务中的表现明显优于使用 FineMath-4plus 的情况。

  • QA 格式数据与指令数据的增益:在高质量数学预训练语料库基础上,加入 QA 样式数据(尤其是长链推理示例)可增强 RL 效果,而少量指令数据的引入能进一步释放 QA 数据潜力。研究发现,指令数据可以帮助模型更好地理解任务要求,从而在 RL 阶段表现更佳。

  • 长链推理的双刃剑效应:长链推理虽能提升推理深度,但也可能引发模型响应冗长及 RL 训练不稳定问题,凸显数据格式化的重要性。例如,在实验中发现,模型在处理长链推理数据时容易出现输出过长或训练过程中的性能波动。为此研究团队通过以下方案来解决训练不稳定问题:


  • 设计指令增强提示模板,抑制重复输出(相比基础模板错误率↓37%)

  • 设置渐进最大响应长度调度器,按照训练进度解决长链推理引发的训练不稳定


  • 中等训练规模扩展的效益:增加中等训练数据量可带来更强劲的下游 RL 性能,即使基础模型评估中未明显体现这些增益。这表明,中等训练阶段的扩展对于提升模型的最终 RL 表现具有重要意义。


自建高质量数学语料库 

MegaMath-Web-Pro-Max


在准备语料时,团队还发现了另一个问题,即开源高质量语料的缺乏。以预训练语料为例,目前最高质量的数学语料 MegaMath-Web-Pro 包含了不到 20B tokens,但如果混合质量稍低的 FineMath 语料,则容易出现 RL 训练时的不稳定。


为了支持大规模消融研究和中期训练,研究团队创建了 MegaMath-Web-Pro-Max。该语料库通过一个高效的分类器从 MegaMath-Web 中召回文档,并进一步利用一个大语言模型进行精炼构建。


具体而言,研究团队从 MegaMath-Web 语料库中按文档的年份分层,均匀随机采样了数百万篇文档,并使用 Llama-3.1-70B-instruct 对其进行标注。每篇文档根据其在数学学习中的实用程度,被打分为 0 到 5 分,评分过程使用特定的评分提示(见论文附录)。研究团队采用启发式方法从模型的评论中提取评分:得分低于 3 的文档被标注为负例,得分在 3 分及以上的文档被视为正例。研究团队观察到,现有的分类器(如 inemath-classifier)在数据收集过程中对文本提取器的选择非常敏感。


因此,研究团队训练了自己的分类器,并选择效率较高的 fasttext 作为分类器。与 MegaMath 的发现一致,研究团队发现预处理步骤对召回性能至关重要。研究团队的预处理流程包括将文本转换为小写、过滤过长的单词,以及去除换行符和多余的非字母数字字符。


如下图所示,研究团队按照 MegaMath-Web 提出的逐年数据集比较设定,评估了不同召回阈值下所召回语料的质量。召回阈值决定了数据质量与数量之间的权衡:较高的阈值(如 0.9)带来更高的数据质量,但保留的 token 数量较少。最终,研究团队选择了 0.4 作为召回阈值。


图:研究团队重新召回的数据与 MegaMath-Web 的按照 Common Crawl 年份逐年数据质量对比(不同的 fasttext 阈值)。


考虑到许多文档存在噪声大、结构差等问题,研究团队使用 Llama-3.1-70B-instruct 对文本进行了精炼,所用提示设计借鉴了 MegaMath-Web-Pro。最终构建的 MegaMath-Web-Pro-Max 数据集包含的 token 数量约为 MegaMath-Web-Pro 的 5.5 倍。预训练过程中的实证评估表明,MegaMath-Web-Pro-Max 在保持数据质量的同时,具备成为大规模中期训练基础语料的潜力。


此外,研究团队也尝试通过从常见数学问题求解数据集中引入长链式思维数据来扩充正例种子集合,以提升分类器召回推理密集型内容的能力。然而,这种方法最终仅保留了约 20B tokens,研究团队认为其规模不足,因此未被采用。


🛠️ 突破性方案:OctoThinker 的两阶段

「稳定 - 衰减」训练方案


基于上述发现,研究者提出两阶段中等训练策略:


第一阶段:构建强推理基座(200B tokens)


使用恒定学习率对 Llama 模型进行 200B tokens 训练,主要依赖高质量预训练语料库(如 MegaMath-Web-Pro 和 DCLM-Baselines),辅以少量合成数据,构建稳固的推理基础。这一阶段的目标是使模型在大规模数据上逐步提升推理能力,为后续的 RL 训练打下坚实基础,产出:OctoThinker-Base-Stable 系列基模型;


第二阶段:分支专业化训练(20B tokens)


学习率衰减(余弦衰减至初始 LR 的 10%),引入不同数据混合(短链推理、长链推理及其混合),训练三个分支模型,塑造多样化模型行为。这一阶段旨在通过数据多样性和学习率调整,进一步提升模型的推理能力和适应性。


三大推理分支:



OctoThinker 基础模型系列的显著提升


经两阶段中等训练后的 OctoThinker 基础模型系列,在数学推理基准测试中表现出色,相较于原始 Llama 基础模型,在所有模型尺寸上均实现了 10%-20% 的显著性能提升,为 RL 扩展奠定了坚实基础。例如,在 GSM8K 和 MATH500 等基准测试中,OctoThinker 基座模型的准确率和推理深度均有明显提升。


图: OctoThinker 中期训练后的数学榜单表现跑分,图中所示为 1B 规模的模型结果。


图: OctoThinker 中期训练后的数学榜单表现跑分,图中所示为 3B 规模的模型结果。


图: OctoThinker 中期训练后的数学榜单表现跑分,图中所示为 8B 规模的模型结果。


OctoThinker-Zero 家族在 RL 训练中的卓越表现


进一步对 OctoThinker 基础模型进行 RL 训练后,生成的 OctoThinker-Zero 家族(包括短链、混合链和长链推理分支)在数学推理任务中展现出与 Qwen2.5 模型相当的性能。特别是 OctoThinker-Long-Zero 分支,在 3B 模型规格上,成功媲美以强大推理能力著称的 Qwen2.5-3B 模型,有力证明了中等训练策略对提升 Llama 模型 RL 兼容性的有效性。在多个数学推理基准测试中,OctoThinker-Zero 模型的表现与 Qwen2.5 模型不相上下,甚至在某些任务上略有超越。


图: OctoThinker 系列、Qwen-2.5、Llama-3.2 在 RL 训练中的数学基准测试动态曲线。


未来展望


研究团队计划在多个方向持续探索:一是进一步精炼数学预训练语料库以增强中等训练效果;二是采用开放配方设计无需从强大长链推理模型蒸馏的 RL 友好型基础模型;三是深入解耦 QA 格式与内容的独立贡献;四是拓展 OctoThinker 家族,增加如工具集成推理等新分支,以期为预训练与强化学习的交互机制提供更深入洞见。


[1]: 互联网博主 “AI 实话实说” 总结的 “RL” 乱象 — https://www.xiaohongshu.com/user/profile/623bfead000000001000bf09



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我认为mid-training的普适性在于它提供了一种更灵活的训练策略。与传统的 pre-train → fine-tune 模式相比,mid-training允许我们在更大的数据集上进行更长时间的训练,从而使模型更好地学习到数据的内在结构和规律。这种方法可能适用于需要模型具备较强泛化能力的场景,例如零样本学习(zero-shot learning)或小样本学习(few-shot learning)。

我认为可以借鉴一些解决梯度消失/爆炸问题的技巧,例如使用梯度裁剪(gradient clipping)来限制梯度的范围,或者使用残差连接(residual connections)来缓解梯度在长链传播中的衰减。此外,还可以尝试使用一些 attention 机制,让模型更加关注长链推理中的关键步骤。

我觉得可以尝试引入 curriculum learning 的思想,先让模型学习短链推理,再逐步过渡到长链推理,这样可以降低训练难度,避免模型一开始就 overwhelmed。也可以用一些正则化方法,比如 dropout 或者 weight decay,来提高模型的泛化能力,减少对训练数据的过拟合。

想象一下,如果我们要训练一个可以写诗的模型。传统的做法可能是直接用大量的诗歌数据进行 fine-tuning。但是,如果我们在 fine-tuning 之前,先用一些关于文学理论、诗歌结构、韵律格律的知识进行 mid-training,是不是可以帮助模型更好地理解诗歌的本质,从而写出更高质量的诗歌呢?我觉得这种思路可以应用到很多创造性的 NLP 任务中。

我认为Stack Exchange旗下的 Mathematics 和 MathOverflow板块也能提供不错的语料,这两个站点的特点是内容由用户生成,经过同行评审,质量相对较高,并且覆盖了各个层次的数学知识。缺点是数据比较分散,需要进行清洗和整理。

从更广义的角度来看,一些高质量的数学教材和习题集,尤其是那些经过时间考验的经典教材,也是很好的语料来源。这些教材内容严谨、系统性强,能够帮助模型更好地理解数学概念和推理方法。不过,获取数字化版本并进行有效处理可能存在一定的难度。

与其头痛医头,不如想想能不能把长链推理分解成多个短链推理的组合。如果能找到一种有效的分解方法,就可以把一个复杂的问题拆解成多个简单的问题,分别解决后再组合起来。这有点像软件工程里面的模块化设计,可以降低问题的复杂度。

除了 MegaMath-Web-Pro,我觉得 Wolfram Alpha 的知识库和 arXiv 上面的数学论文都是潜在的高质量数学语料库来源。Wolfram Alpha 胜在知识 organized,arXiv 胜在专业性强,但是如何把这些非结构化的数据变成模型可以有效学习的语料,是个挑战。

我觉得 mid-training 这种范式很有潜力,本质上它是在 pre-training 和 fine-tuning 之间增加了一个可控的中间层,可以更好地引导模型学习特定的知识和能力。我觉得它很适合用在那些需要特定领域知识的任务上,比如医学问答、金融分析等等。通过在特定领域的语料上进行 mid-training,可以显著提升模型在该领域的表现。