清华&蚂蚁开源AReaL-boba:低成本、高效率的强化学习框架,人人可炼

蚂蚁&清华开源AReaL-boba强化学习框架,200美金复刻QwQ-32B!训练快、成本低,人人可参与。

原文标题:200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

原文作者:机器之心

冷月清谈:

蚂蚁技术研究院和清华大学交叉信息院联合开源了强化学习训练框架AReaL-boba。该框架旨在降低大语言模型强化学习训练的门槛,具有训练速度快、成本低的特点。AReaL-boba通过集成SGLang框架和一系列工程优化,显著提升了训练吞吐,并使用200条数据复刻了QwQ-32B。该框架不仅开源了推理模型,还开源了训练数据和脚本,确保了可复现性。AReaL-boba还集成了SGLang推理框架,在不同模型尺寸上都实现了训练速度的提升。7B模型在数学推理能力上刷新了AIME分数纪录。该团队也开源了训练数据以及全部的训练和评估脚本,以确保人人可复现。

怜星夜思:

1、AReaL-boba宣称可以用极低的成本(200美元)复现QwQ-32B的推理结果,你觉得这对于小型团队或者个人开发者来说意味着什么?他们可以利用这个框架做些什么之前做不到的事情?
2、AReaL-boba的核心在于强化学习,你认为强化学习在大语言模型的发展中扮演什么角色?它主要解决了大语言模型的哪些问题?
3、AReaL-boba集成了SGLang推理框架,这对于提升训练吞吐有哪些帮助?你认为未来还有哪些技术可以进一步提升强化学习训练的效率?

原文内容


由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。然而,针对大语言模型的大规模强化学习训练门槛一直很高:


  • 流程复杂、涉及模块多(生成、训练、奖励判定等),为实现高效稳定的分布式训练带来很多挑战;

  • R1/o1 类推理模型的输出长度很长(超过 10K),并且随着训练持续变化,很容易造成显存和效率瓶颈;

  • 开源社区缺乏高质量强化学习训练数据,以及完整可复现的训练流程。


本周,蚂蚁技术研究院和清华大学交叉信息院吴翼团队,联合发布了训练速度最快最稳定的开源强化学习训练框架 AReaL(Ant Reasoning RL),并公开全部数据和完成可复现的训练脚本。在最新的 AReaL v0.2 版本 AReaL-boba 中,其 7B 模型数学推理分数刷新同尺寸模型 AIME 分数纪录,并且仅仅使用 200 条数据复刻 QwQ-32B,以不到 200 美金成本实现最强推理训练效果。


  • 项目链接:https://github.com/inclusionAI/AReaL
  • HuggingFace数据模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a


关于 AReaL-boba


AReaL 源自开源项目 ReaLHF,旨在让每个人都能用强化学习轻松训练自己的推理模型和智能体。AReaL 承诺完全开放与可复现,团队将持续发布与训练 LRM 相关的所有代码、数据集和训练流程。所有核心组件全部开源,开发者可无阻碍地使用、验证和改进 AReaL。


本次最新版本boba的命名一方面源自团队对珍珠奶茶的偏爱,另一面也是希望强化学习技术能如奶茶成为大众饮品一般,渗透至 AI 开发的每个日常场景,普惠整个社区。


AReaL-boba 发布亮点


训练速度最快的开源框架


AReaL-boba 是首个全面拥抱 xAI 公司所采用的 SGLang 推理框架的开源训练系统,对比初代 AReaL 训练大幅度提升训练吞吐:通过集成 SGLang 框架及多项工程优化,AReaL-boba 可以无缝适配各种计算资源下的强化学习训练,实现吞吐在 1.5B 模型尺寸上速度提升 35%,在 7B 模型速度提升 60%,32B 模型速度提升 73%。


图 1:AreaL-boba 对比初代 AReaL 训练大幅度提升训练吞吐


使用 AReaL-boba 即可以 128 张 H800 规模在 1 天内训练完成 SOTA 1.5B 推理模型,以 256 张 H800 规模在 2 天内完成 SOTA 7B 推理模型训练。


AReaL 希望让整个社区不论单机器,还是大规模分布式训练,都可以轻松高效率驾驭强化学习。


7B 模型数学推理分数断崖领先


AReaL 团队以 Qwen-R1-Distill-7B 模型为基础模型,通过大规模强化学习训练,即可在 2 天内取得领域最佳的数学推理能力,实现 AIME 2024 61.9 分、AIME 2025 48.3 分,刷新开源社区记录,也大幅超越了 OpenAI o1-preview。相比基础模型,AReaL-boba 通过强化学习让模型能力实现跃升 —— 在 AIME 2024 上提升 6.9 分,在 AIME 2025 提升 8.6 分 —— 再次证明了 RL Scaling 的价值。


表 1: 同类参数模型的不同基准测试分数


同时 AReaL-boba 不仅开源了推理模型,也开源所有的训练数据 AReaL-boba-106k,以及全部的训练脚本和评估脚本,确保人人可复现。在项目官方仓库,AReaL 团队也放出了极其详细的技术笔记,总结了大量训练中的关键点,包括 PPO 超参数、奖励函数设置、正则化设置、长度上限设置等等。 


通过创新性数据蒸馏技术,200 条数据复现 QwQ-32B


在 32B 模型尺寸上,AReaL 团队进一步精简训练数据并发布数据集 AReaL-boba-SFT-200 以及相关训练脚本。基于 R1-Distill-Qwen-32B,AReaL-boba 使用仅仅 200 条数据并以轻量级 SFT 的方式,在 AIME 2024 上复刻了 QwQ-32B 的推理结果,相当于仅仅使用了 200 美金的计算成本,让所有人都可以以极低的成本实现最强的推理训练效果。


表 2:同类参数模型的 AIME 2024 分数


结语


AReaL 团队的核心成员均来自于蚂蚁研究院强化学习实验室以及交叉信息研究院吴翼团队,项目也借鉴了大量优秀的开源项目,比如 DeepScaleR、SGLang、QwQ、Open-Reasoner-Zero、OpenRLHF、veRL、Light-R1 和 DAPO。作为国内第一个完整开源(数据、代码、模型、脚本全开源)的强化学习项目团队,AReaL 希望能真正实现 AI 训练的普惠。


AReaL 团队在项目列表中也列出了团队后续的开源计划和目标,包括异步训练、训练吞吐优化、数据集和算法升级,以及代码和 Agent 智能体能力支持。让我们期待 AReaL 团队的下一个 release,猜猜是哪一款奶茶呢?


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

SGLang的集成,我认为主要是解决了生成和训练过程中效率瓶颈的问题。它通过更高效的调度和执行,减少了不必要的计算和内存开销,从而提升了整体的训练吞吐。

未来,我认为以下技术有潜力进一步提升强化学习训练效率:

* 异步训练: 允许多个actor并行与环境交互,收集数据,从而加速训练过程。
* 模型并行: 将大型模型分解到多个设备上进行训练,解决显存瓶颈。
* 知识蒸馏: 将大型模型的知识迁移到小型模型上,降低计算成本。
* 更高效的探索策略: 探索更有效的探索策略,更快地找到最优解。
* 硬件加速: 利用新的硬件架构(如TPU、NPU)加速计算。

这些技术的不断发展,将使强化学习训练更加高效、便捷。

对于小型团队和个人开发者来说,AReaL-boba的出现简直是福音!这意味着他们也能以极低的成本参与到大语言模型的训练和优化中来,打破了之前只有大型机构才能玩转RLHF的局面。之前,如果没有大量的计算资源和数据,想在推理能力上有所突破几乎不可能。但现在,他们可以利用AReaL-boba,针对特定领域或任务,用少量数据就能训练出高性能的模型,比如开发更专业的客服机器人、更懂行的行业专家AI等。想象一下,一个小型教育机构可以用它来优化AI辅导模型,或者一个独立游戏开发者可以用它来训练更智能的NPC,这些都是以前难以想象的!

简单理解,SGLang就像是给RL训练加了个“涡轮增压”,让数据处理和模型推理的速度更快了。但是,光有“涡轮增压”还不够,还得有更好的“发动机”才行。我觉得未来提升效率的关键在于算法创新,比如能不能搞出更智能的采样方法,减少无效的训练数据?或者能不能设计出更有效的奖励函数,让模型更快地找到正确的方向?这些才是根本性的问题。

200刀就能复现32B的模型?我反正是持谨慎乐观态度。虽然文章里说的是“复刻推理结果”,但具体效果怎么样还得看实际测评。不过,如果真能达到这个水平,那绝对是AI平民化的一个里程碑。以后说不定人人都能定制自己的专属AI了,想想还有点小激动!

别忘了量化技术!把模型参数从float32变成int8甚至更低,能大幅减少显存占用和计算量。当然,量化可能会带来精度损失,但只要控制得当,对最终效果的影响其实很小。而且,现在已经有很多成熟的量化工具和技术了,用起来也很方便。我觉得这是个性价比很高的优化方向。

从学术角度来看,AReaL-boba的低成本复现能力,降低了强化学习研究的实验门槛。研究者可以更便捷地验证新的RL算法,探索不同的模型架构和训练策略,加速整个领域的发展。此外,它也有助于推动领域知识的迁移学习。例如,在数学推理能力上训练的模型,经过适当的调整,可能可以应用于其他逻辑推理任务。我认为这对于AI的未来发展具有重要意义。

谢邀,利益相关,简单说两句。
强化学习在LLM里,主要就是解决一个“更上一层楼”的问题。预训练让LLM有了基本的能力,监督学习让LLM学会了模仿,但是想让LLM真正理解人类的需求、生成高质量的内容,还得靠强化学习。它通过奖励和惩罚,引导LLM朝着我们期望的方向发展,最终让它成为一个更powerful的工具。

我觉得强化学习最厉害的地方在于,它能让大语言模型“自己学习,自我进化”。以前我们训练模型,都是用大量标注好的数据“喂”给它,但这种方法成本高,而且模型学到的东西也比较固定。而强化学习,就像让模型在一个虚拟世界里“玩游戏”,通过不断尝试和反馈,它能自己找到最优的策略,变得越来越聪明。说白了,就是让AI学会了“举一反三”,这才是真正智能的关键。

强化学习(RL)在大语言模型(LLM)发展中扮演着至关重要的角色,它就像一位耐心的老师,引导LLM更好地理解人类的意图。主要解决了以下几个关键问题:

1. 对齐问题(Alignment Problem): RL通过人类反馈(RLHF)或奖励模型(Reward Model)使LLM的输出与人类价值观和偏好对齐,避免生成有害、不准确或不符合伦理的内容。相当于给LLM设定了明确的目标和行为规范。
2. 生成质量提升: RL可以优化LLM的生成策略,使其生成更流畅、连贯、信息量更丰富、更具创造性的文本。例如,在对话系统中,RL可以训练LLM生成更自然、更吸引人的回复。
3. 领域知识学习: RL可以引导LLM学习特定领域的知识和技能,例如数学推理、代码生成等。通过与环境的交互和奖励机制,LLM可以不断提升在该领域的表现。

总而言之,强化学习是提升LLM智能水平、使其更好地服务于人类的关键技术。