SPIRAL:零和游戏自对弈,语言模型推理能力自主进化的新路径

SPIRAL通过零和游戏自对弈,让语言模型自主提升推理能力,无需人工标注。库恩扑克训练竟能显著提升数学推理!

原文标题:SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

原文作者:机器之心

冷月清谈:

SPIRAL是新加坡国立大学等机构联合推出的一种创新语言模型训练框架,旨在通过让模型在零和游戏中进行“自对弈”,自主发现并强化通用的推理模式,从而摆脱对传统人工标注推理数据集的重度依赖

该研究的核心洞察在于,游戏提供了廉价且可验证的胜负反馈机制,非常适合作为强化学习训练的试炼场。实验结果令人瞩目:仅仅通过库恩扑克这一简单的牌类游戏进行训练,模型的数学推理能力平均提升了8.7%,在Minerva Math基准测试上更是跃升了18.1个百分点,而在此训练过程中,模型从未接触任何数学题目。

SPIRAL框架精心选择了井字棋、库恩扑克和简单谈判等具有不同认知需求的零和游戏作为训练环境。通过自对弈,模型与它的对手能够同步进化,形成一种难度自适应的训练课程,有效克服了与固定对手或随机对手训练时可能出现的学习停滞或崩溃问题。

研究团队深入分析发现,有三种核心推理模式——期望值计算、逐案分析和模式识别——在游戏训练中得到培养,并成功迁移至数学推理任务。这表明不同游戏能够特化培养特定的认知技能,且多游戏训练能产生强大的协同效应。

为确保训练的稳定与高效,SPIRAL开发了分布式在线多智能体强化学习系统,并引入了关键技术“角色条件优势估计(RAE)”,有效解决了模型在训练过程中出现的“思维崩溃”问题,保证了推理轨迹的持续生成和性能的稳定提升。

SPIRAL的影响力不仅限于基础模型,它甚至能进一步提升诸如DeepSeek-R1-Distill-Qwen-7B这样已具备强大推理能力模型的表现。研究认为,这种跨领域迁移之所以成立,是由于竞争压力促使模型发展真正的推理能力而非记忆,游戏提供了纯净的推理环境,且结构化输出(如``格式)为不同领域间的知识迁移搭建了桥梁。

这项工作对强化学习研究具有重要启示,证明了游戏作为语言模型推理训练场的巨大潜力。它不仅提供了一种无需海量标注数据的新训练范式,更关键的是,它验证了预训练模型中原本就存在的通用推理模式可以通过竞争压力被有效筛选和强化。尽管目前仍面临计算资源需求大、性能提升瓶颈等挑战,SPIRAL为自主AI的发展方向指明了新的道路,暗示复杂的智能可能通过简单的竞争环境自然涌现。

怜星夜思:

1、SPIRAL目前主要是在零和游戏里头训练模型,那未来有没有可能扩展到更复杂的、非零和或者合作型的游戏里去?如果可以,这种推广会给模型带来哪些新的能力,又会有啥潜在的挑战呢?
2、文章里提到,SPIRAL有点像是个‘激活器’,把模型‘本来就有的’推理能力给激发出来了。那这会不会暗示我们,其实现在的LLM,尤其是那些大规模的,它们内在的推理潜力早就非常大了,只是我们以前没找对方法去‘释放’它?这对于我们未来设计模型或者训练模型有啥启发没?
3、最让人觉得不可思议的是,一个模型只玩扑克牌,居然能在数学考试里表现得更好。除了论文里说的那些竞争压力、纯净环境和结构化输出,大家觉得还有没有其他更深层次的原因,能解释这种跨领域的神奇迁移现象?

原文内容


本论文由新加坡国立大学、A*STAR 前沿人工智能研究中心、东北大学、Sea AI Lab、Plastic Labs、华盛顿大学的研究者合作完成。刘博、Leon Guertler、余知乐、刘梓辰为论文共同第一作者。刘博是新加坡国立大学博士生,研究方向为可扩展的自主提升,致力于构建能在未知环境中智能决策的自主智能体。Leon Guertler 是 A*STAR 前沿人工智能研究中心研究员,专注于小型高效语言模型研究。余知乐是东北大学博士生,研究方向为语言模型的对齐和后训练。刘梓辰是新加坡国立大学和 Sea AI Lab 的联合培养博士生,主要研究语言模型的强化学习训练。通讯作者 Natasha Jaques 是华盛顿大学教授,在人机交互和多智能体强化学习领域有深厚造诣。


近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。


然而,当前的推理增强方法面临着根本性的可扩展性瓶颈:它们严重依赖精心设计的奖励函数、特定领域的数据集和专家监督。每个新的推理领域都需要专家制定评估指标、策划训练问题。这种人工密集的过程在追求更通用智能的道路上变得越来越不可持续。


来自新加坡国立大学、A*STAR、东北大学等机构的联合研究团队提出了 SPIRAL(Self-Play on zero-sum games Incentivizes Reasoning via multi-Agent multi-turn reinforcement Learning),通过让模型在零和游戏中与自己对弈,自主发现并强化可泛化的推理模式,完全摆脱了对人工监督的依赖。



  • 论文标题: SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

  • 论文链接: https://huggingface.co/papers/2506.24119

  • 代码链接: https://github.com/spiral-rl/spiral


游戏作为推理训练场:从扑克到数学的惊人跨越


研究团队的核心洞察是:如果强化学习能够从预训练语言模型中选择出可泛化的思维链(Chain-of-Thought, CoT)模式,那么游戏为这一过程提供了完美的试炼场:它们通过输赢结果提供廉价、可验证的奖励,无需人工标注。通过在这些游戏上进行自对弈,强化学习能够自动发现哪些 CoT 模式在多样化的竞争场景中获得成功,并逐步强化这些模式,创造了一个自主的推理能力提升系统。


最令人惊讶的发现是:仅通过库恩扑克(Kuhn Poker)训练,模型的数学推理能力平均提升了 8.7%,在 Minerva Math 基准测试上更是跃升了 18.1 个百分点!要知道,在整个训练过程中,模型从未见过任何数学题目、方程式或学术问题。



SPIRAL 框架:让竞争驱动智能涌现


多回合零和游戏的独特价值


SPIRAL 选择了三种具有不同认知需求的游戏作为训练环境:


  • 井字棋(TicTacToe):需要空间模式识别和对抗性规划。玩家必须识别获胜配置、阻止对手威胁并规划多步策略。研究团队假设这些技能会迁移到几何问题求解和空间可视化任务。


  • 库恩扑克(Kuhn Poker):一个最小化的扑克变体,只有三张牌(J、Q、K),玩家在隐藏信息下进行下注。成功需要概率计算、对手建模和不确定性下的决策。这些能力预期会迁移到涉及概率、期望值和战略不确定性的问题。


  • 简单谈判(Simple Negotiation):一个资源交易游戏,两个玩家交换具有相反估值的木材和黄金以最大化投资组合价值。成功需要多步规划、心智理论建模和通过提议与反提议进行战略沟通。


自对弈的魔力:永不停歇的进化


与固定对手训练相比,自对弈具有独特优势。研究发现:


  • 对抗强大的固定对手(Gemini-2.0-Flash-Lite):初始胜率为 0%(无学习信号),最终停滞在 62.5%(开发出固定的对抗策略)。

  • 对抗随机对手:完全崩溃,由于「回合诅咒」使得完成有效游戏变得极其困难。

  • 自对弈:始终保持 50-52% 的胜率,确认对手与学习者完美同步进化。


这种自适应的难度调整是关键所在。随着模型改进,它的对手也在改进,创造了一个自动调整的课程体系。



从游戏到数学:推理模式的神奇迁移


三种核心推理模式的发现


通过分析数千个游戏轨迹和数学解题过程,研究团队发现了三种在游戏中产生并迁移到数学推理的核心模式:



  • 期望值计算:在游戏中从 15% 增长到 78% 的使用率,迁移到数学问题时保持 28% 的使用率。例如,在扑克中计算「跟注的期望值 = 获胜概率 × 2 - 失败概率 × 2」,这种思维直接应用于数学中的概率和优化问题。


  • 逐案分析:在扑克决策中出现率达 72%,以 71% 的高保真度迁移到数学问题求解。游戏中的「情况 1:弃牌损失 1 筹码;情况 2:跟注但失败损失 2 筹码」模式,完美对应数学中的分类讨论方法。


  • 模式识别:展现出放大效应——游戏中 35% 的使用率在数学领域增长到 45%。这表明游戏训练增强了模型本就存在的数学模式识别能力。


不同游戏培养不同技能


实验发现,不同游戏确实培养了专门化的认知能力:


  • 井字棋专家在空间推理游戏 Snake 上达到 56% 胜率。

  • 库恩扑克大师在概率游戏 Pig Dice 上取得惊人的 91.7% 胜率。

  • 简单谈判专家在战略优化游戏上表现出色。



更有趣的是,当结合多个游戏训练时,技能产生协同效应。在 Liar's Dice 上,单一游戏专家只能达到 12-25% 的胜率,而多游戏训练模型达到 51.4%。



技术创新:让自对弈稳定高效


分布式在线多智能体强化学习系统


为了实现 SPIRAL,研究团队开发了一个真正的在线多智能体、多回合强化学习系统,用于微调大语言模型。该系统采用分布式 actor-learner 架构,能够跨多个双人零和语言游戏进行全参数更新的在线自对弈。



角色条件优势估计(RAE):防止思维崩溃的关键


研究中一个关键发现是,没有适当的方差减少技术,模型会遭受「思维崩溃」——在 200 步后停止生成推理轨迹,收敛到最小输出如「<think></think><answer>bet</answer>」。


角色条件优势估计(RAE)通过为每个游戏和角色维护单独的基线来解决这个问题。它考虑了角色特定的不对称性(如井字棋中的先手优势),确保梯度更新反映真正的学习信号而不是位置固有的优势。



实验表明,没有 RAE,数学性能从 35% 崩溃到 12%(相对下降 66%),梯度范数趋近于零。RAE 在整个训练过程中保持稳定的梯度和推理生成。


广泛影响:强模型也能受益


SPIRAL 不仅对基础模型有效。在 DeepSeek-R1-Distill-Qwen-7B(一个已经在推理基准测试上达到 59.7% 的强大模型)上应用多游戏 SPIRAL 训练后,性能提升到 61.7%。特别值得注意的是,AIME 2025 的分数从 36.7% 跃升至 46.7%,足足提升了 10 个百分点!



这表明竞争性自对弈能够解锁传统训练未能捕获的推理能力,即使在最先进的模型中也是如此。


深入分析:为什么游戏能教会数学?


研究团队认为,这种跨领域迁移之所以可能,有三个关键因素:


  • 竞争压力剥离记忆依赖:自对弈对手不断进化,迫使模型发展真正的推理能力而非模式匹配。在传统的监督学习中,模型可能通过记忆特定模式来「作弊」,但在对抗不断变化的对手时,只有真正的推理策略才能持续获胜。


  • 游戏提供纯净的推理环境:游戏规则简单明确,不需要复杂的领域知识,让模型能专注学习基本的认知操作(枚举、评估、综合),这些操作能够有效泛化。库恩扑克中的「如果对手有 K,我应该弃牌」的推理结构,与数学中的条件推理具有相同的逻辑框架。


  • 结构化输出搭建领域桥梁:在游戏中学习的 <think> 格式提供了一个推理支架,模型在数学问题中会重用这种结构。这种格式化的思考过程成为了跨领域知识迁移的载体。


对强化学习研究的启示


SPIRAL 的独特贡献在于展示了游戏作为推理训练场的潜力。虽然 DeepSeek-R1 等模型已经证明强化学习能显著提升推理能力,但 SPIRAL 走得更远:它完全摆脱了对数学题库、人工评分的依赖,仅凭游戏输赢这一简单信号就实现了可观的推理提升。


研究还揭示了多智能体强化学习在语言模型训练中的独特价值。与单智能体设置相比,多智能体环境提供了更丰富的学习信号和更鲁棒的训练动态。这为未来的研究开辟了新方向:


  • 混合博弈类型:结合零和、合作和混合动机游戏,可能培养更全面的推理能力。

  • 元游戏学习:让模型不仅玩游戏,还能创造新游戏,实现真正的创造性推理。

  • 跨模态游戏:将语言游戏扩展到包含视觉、音频等多模态信息,培养更丰富的认知能力。


实践意义与局限性


实践意义


对于希望提升模型推理能力的研究者和工程师,SPIRAL 提供了一种全新的思路。不需要收集大量高质量的推理数据,只需要设计合适的游戏环境。研究团队已经开源了完整的代码实现,包括分布式训练框架和游戏环境接口。


更重要的是,SPIRAL 验证了一个关键假设:预训练模型中已经包含了各种推理模式,强化学习的作用是从这些模式中筛选和强化那些真正可泛化的思维链。这改变了我们对模型能力提升的理解。我们不是向模型灌输新的推理方法,而是通过竞争压力让有效的推理策略自然胜出,无效的被淘汰。游戏环境就像一个进化选择器,只有真正通用的推理模式才能在不断变化的对手面前存活下来。


当前局限


尽管取得了显著成果,SPIRAL 仍有一些局限性需要在未来工作中解决:


  • 游戏环境依赖:虽然消除了人工策划问题的需求,但仍需要设计游戏环境。

  • 计算资源需求:每个实验需要 8 块 H100 GPU 运行 25 小时,这对许多研究团队来说是个挑战。

  • 性能瓶颈:在长时间训练后,性能提升会趋于平缓,需要新的技术突破。

  • 评估局限:当前评估主要集中在学术基准测试,对现实世界推理任务的影响还需进一步验证。


结语


SPIRAL 的工作不仅仅是一个技术突破,更代表了对智能本质的新理解。它表明,复杂的推理能力可能不需要通过精心设计的课程来教授,而是可以通过简单的竞争环境自然涌现。


当我们看到一个只会下库恩扑克的模型突然在数学考试中表现更好时,我们不禁要问:智能的本质到底是什么?也许,正如 SPIRAL 所展示的,智能不是关于掌握特定知识,而是关于发展可以跨越领域边界的思维模式。


这项研究为自主 AI 发展指明了一个充满希望的方向。在这个方向上,AI 系统通过相互竞争不断进化,发现我们从未想象过的推理策略,最终可能超越人类设计的任何课程体系。正如研究团队在论文中所说:「这只是将自对弈嵌入语言模型训练的第一步尝试。」


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

针对问题二:
我觉得就像我们人一样,很多时候不是学不会,而是没被“逼”到那个份儿上,或者没遇到合适的场景去发挥。大模型可能也是这样,它看过了那么多书、那么多的逻辑推演,但那些知识碎片散落在各处,SPIRAL就是个“催化剂”,通过那种激烈的游戏对抗,把模型体内的“武功秘籍”串起来,变成一套实用的“武林绝学”。这给我们最大的启发就是,以后训练模型,可能不只是喂数据,还要想办法“磨练”它,让它自己学着去把知识融会贯通,而不是我们手把手教它每一个推理步骤。

针对问题一:
我觉得完全可以!现在AI都在聊通用智能了,如果只会在零和游戏里争输赢,那不就只学会了“宫斗”?拓展到非零和甚至合作游戏,AI就能学会“共赢”,甚至“牺牲小我成全大我”。这会让AI在现实世界里更有用,比如在商业谈判、科学合作、或者甚至灾难救援中,它就能提出更符合多方利益的方案。新的挑战嘛,就是奖励设计会变得很复杂,因为收益不再是简单的“你输我赢”,而是有很多博弈和妥协的空间,怎么让AI理解“双赢”的价值,这本身就是个难题。

针对问题一:
从学术角度看,将SPIRAL的自对弈范式扩展到非零和(如囚徒困境、资源共享)或合作博弈(如组队解决问题、集体目标达成)是强化学习领域的一个极具前景的方向。零和博弈侧重于对抗与优化自身收益最大化,而混合/合作博弈则能培养模型更为复杂的社会智能与协同能力,例如策略妥协、信任建立、信息共享、以及在不确定性下的多方优化。潜在挑战包括:奖励函数的设计将从单一的胜负拓展为更复杂的群体效用或个体贡献评估;多代理间的通信与协调机制可能需要更精密的建模;并且,理解和模拟“信任”、“欺骗”等抽象概念对现有的LLM而言仍是巨大挑战。但机遇在于,这可能推动LLM迈向更通用、更具社会智能的AI,例如在多方谈判、共同科研或复杂任务分配中的应用。

针对问题二:
哈哈,这不就是程序员常说的“重构”吗?代码写了一堆,功能都能实现,但结构混乱、耦合严重。SPIRAL就是那个“重构工具”,通过自对弈这种“压力测试”,自动帮你优化代码结构(推理模式),让它变得更清晰、更通用、复用性更强。以前我们觉得LLM像个“大海绵”,吸进去多少知识就记住多少。现在看来,它更像个“压缩包”,里面藏着各种未经解压的“思考模块”,SPIRAL就是那个正确的“解压密码”。真是有点“大道至简”的意味啊!以后设计模型,搞不好重点不是堆参数,而是设计怎么让它更好地“自我迭代”和“自我优化”!

针对问题二:
这个问题触及了LLM能力的本质。SPIRAL的成果确实强烈暗示,大型预训练模型在海量文本数据中可能已经“内化”了某种形式的逻辑结构和关联模式,这些模式并非特定于某种领域(如数学),而是更底层的认知骨架。游戏作为一种高度结构化、规则明确的微观世界,恰好提供了一个“干净”的环境,让模型能够通过试错和反馈,将这些潜在的“骨架”激活并强化为可操作的、可泛化的推理链。这可能意味着LLM不仅是“知识的压缩器”,更是“逻辑的过滤器”或“推理潜力的放大器”。对我们而言,今后或许更应专注于如何设计出能最大限度“解锁”或“激励”这些潜在能力的训练范式,而非一味地堆叠更多数据或参数,这或许能提升训练效率和模型普适性。

针对问题三:
脑洞一下,这会不会是“AI的直觉”?就像我们人类,有时候做数学题不是一步步算出来的,而是“感觉”出来的,尤其是一些天才。可能在扑克游戏中,模型被逼着在海量对局里形成了某种对因果关系、概率分布的“直觉判断”,这种直觉超越了具体的游戏规则,成为一种更高级的、近乎“悟道”的推理能力。然后当它面对数学题时,虽然知识不一样,但底层对“合理性”的判断、对“最优路径”的探寻,却在用着同一种“直觉”。这简直是“一招鲜,吃遍天”的AI版!

针对问题一:
哈哈,这个我脑洞大开一下。要是AI能玩那种需要组队打怪、互相协作的MMORPG游戏,那肯定能学会怎么“带飞萌新”、怎么“背刺队友”(开玩笑的!),或者怎么在资源有限的情况下跟队友协商分配。这种推广听起来就特别酷!想象一下,未来的AI可能会在多主体协作任务中表现得更像一个真正的团队成员,而不是只会单打独斗。挑战嘛,就是万一它们学坏了,在游戏里搞垄断、搞欺诈,或者学会了“摸鱼”,那可咋整?:joy:

针对问题三:
我认为,除了论文提到的三点,还有几个可能的原因。首先,游戏,特别是抽象度较高的策略游戏,其决策过程往往能够被归纳为一系列具有普适性的逻辑操作,例如条件判断(IF-ELSE)、迭代(循环)、递归、概率推断、状态空间搜索、以及对“最优解”的近似追求。这些操作是构成高级数学推理的底层基石。其次,自对弈机制带来的“无限数据”和“实时反馈”是非常关键的,它提供了一个近乎完美的梯度下降环境,让模型能在一个动态优化的“自适应课程”中不断迭代其推理策略,从而真正内化这些逻辑。最后,人类语言本身在表达思维链时,往往会形成一种抽象且通用的句式结构(如“如果…那么…”,“因为…所以…”),游戏训练可能强化了模型对这些句式结构与实际逻辑操作之间映射关系的理解,使得这些结构化的思考模式更容易在不同领域间迁移。

针对问题三:
欸,我觉得这跟我们人类学东西有点像。比如,一个棋手,他可能数学成绩不一定多好,但他下棋时那种对局势的判断、对未来几步的预测、对概率的直觉,这些思维模式本身就是一种非常高级的抽象推理能力。库恩扑克虽然规则简单,但它模拟了不确定性下的决策、对手心理的博弈,这些能力一旦练出来,就能迁移到其他需要严谨逻辑思考的领域,比如数学。说白了,就是游戏训练了一种“核心的思考能力”,而不是具体的知识点,所以能跨界!