游戏训练AI新范式:无需数学数据,大幅提升多模态推理能力

AI玩游戏也能提升数学能力?新研究发现,仅通过贪吃蛇等游戏训练,模型推理能力即大幅跃升,成本低且效果显著。

原文标题:强化学习新发现:无需数学样本,仅游戏训练AI推理大增

原文作者:机器之心

冷月清谈:

一项强化学习领域的最新研究发现,多模态大语言模型(MLLM)无需数学或多学科的专业训练数据,仅通过玩简单的电子游戏,其数学推理和多学科推理能力便能获得显著提升。来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队提出了ViGaL方法,利用像贪吃蛇和旋转游戏这样的简单游戏进行强化学习。实验结果表明,该方法在多个主流视觉数学基准测试以及MMMU系列多学科基准测试中,表现甚至超越了此前在特定数学领域数据上训练的强化学习模型,平均提升达2.9%和5.4%。

这一突破性的“玩耍”训练范式,与人类儿童通过搭积木、躲猫猫等游戏培养抽象思维基础的认知科学原理相吻合。研究团队精心设计了互补的训练游戏:贪吃蛇游戏侧重培养路径规划、避障和空间导航能力,这些直接对应数学中的坐标几何和函数图像理解;旋转游戏则专注于3D空间推理,旨在训练角度和长度相关的数学理解。两款游戏的联合训练效果更佳,证明了游戏多样性的潜力。

ViGaL方法的成功,预示着一种全新的训练范式:当高质量人类数据日益稀缺,传统训练方法面临瓶颈时,精心设计的合成任务,特别是游戏,可以为多模态推理能力的发展开辟新路径。这种训练模式不仅成本极低、可无限扩展,而且效果显著,能够避免模型“偏科”,保持其全面能力。这提醒我们,培养AI模型的底层通用推理能力,可能比单纯的“刷题式”训练更为高效。

怜星夜思:

1、研究说‘玩游戏’能提升AI的数学能力,这听起来有点玄乎,是不是以后我们AI工程师的工作都要变成‘游戏策划’了?你们觉得这种“游戏化训练”未来会成为主流吗,它和现在的大数据训练模式比,核心优势究竟在哪?
2、文章里提到的贪吃蛇和旋转游戏,都是比较基础和直观的。那么,如果用更复杂的策略游戏,比如围棋或者星际争霸,来训练AI,是不是就能培养出更高级的推理能力,比如战略规划、心理博弈这些?或者说,这里面是否存在一个‘负面影响’的临界点?
3、这个研究有点意思,AI通过玩游戏学会了通用推理,听起来就像‘触类旁通’。那我们人类学习新知识的时候,是不是也可以借鉴这种‘游戏化’的思路,把那些枯燥的学科知识转化成更有趣的互动游戏来学习呢?你们有哪些实际的例子或者想法可以分享?

原文内容


第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist


最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。


此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和 MMMU 系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。



  • 论文标题:Play to Generalize: Learning to Reason Through Game Play

  • 论文链接:https://arxiv.org/abs/2506.08011

  • 项目主页:https://yunfeixie233.github.io/ViGaL/


不用数学样本,游戏训练在数学基准取得突破


近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。


图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。


这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:


  • 数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。

  • 多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。

  • 通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。


图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。


为什么游戏训练如此有效?


图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励 ,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。


为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。


回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。


认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。


基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:


贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。


旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。


两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。


结语:合成任务的新时代


ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。


与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:


  • 成本极低:无需人工标注,可无限扩展

  • 效果显著:零数学样本超越数学专训模型

  • 拓展性强:可以组合多个任务进一步提升性能

  • 通用性好:不会造成 "偏科" 问题,保持模型的全面能力


更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。


Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


理论上讲,使用围棋或星际争霸这类复杂策略游戏确实有潜力培养更高级的推理能力,包括长期规划、资源管理、风险评估、甚至一定程度上的“欺骗”或“心理博弈”策略。这些游戏环境的非完美信息、巨大状态空间以及多智能体交互特性,能促使模型发展出更复杂的表征学习和决策机制。然而,“负面影响”的临界点是存在的。首先是训练成本的急剧增加,环境复杂度提升意味着需要更多的计算资源和更精妙的强化学习算法设计。其次,过度的特化训练可能导致“过拟合”到特定游戏的能力,降低其在其他领域(非游戏)的泛化性。此外,复杂游戏中的“奖励稀疏性”问题也更突出,如何有效引导模型学习是巨大挑战。简单游戏能提炼出“普适性”的底层推理,而复杂游戏可能更侧重于特定领域的“专家级”能力。

我觉得“游戏化训练”的说法,其实是把复杂机制简化了。这里面关键的不是游戏本身,而是游戏所提供的“结构化交互环境”和“即时反馈机制”。这和人类通过探索、试错来学习的过程异曲同工。大数据训练更像是“模仿学习”,模型从海量既有数据中学习模式;而游戏训练则更接近“发现式学习”,模型通过与环境交互主动探索和归纳规律。核心优势在于它能更有效地培养AI的因果推理、决策规划等通用智能,而不是仅仅记忆表面关联。所以,它不会完全替代大数据,而是会和大数据结合,形成更强大的训练范式,让AI从“博闻强识”走向“举一反三”。

作为搞工程的,复杂游戏当然诱人,但实现起来可没那么简单。贪吃蛇和旋转游戏的环境相对固定,奖励信号清晰,AI很容易找到正反馈。但像星际争霸这种RTS(即时战略)游戏,状态空间是天文数字,单位行为多变,还有迷雾、对手心理啥的,奖励信号也极其稀疏,可能打半天才能知道一步臭棋带来了失败。这会使得强化学习的探索效率极低,模型很容易“迷失”。要训练出高级能力,很可能需要结合模仿学习、课程学习等多种技术。至于负面影响,除了前面提到的计算成本和过拟合,还有可能学到一些人类不希望看到的“灰色策略”,比如某些钻系统漏洞的打法。所以,复杂游戏是研究热点,但离大规模通用推广还有距离。

关于“游戏化训练”是否会成为主流,我个人认为它会是AI训练范式的重要补充而非完全替代。从宏观角度看,当前大型模型面临数据饥饿和泛化能力瓶颈。游戏化训练的核心优势在于其提供了一种“合成数据”的低成本获取方式,并且在模拟环境中,模型可以获得即时、高频的反馈信号(奖励),这对于强化学习至关重要。此外,它培养的是更底层的通用推理能力,而非特定任务的死记硬背。相比传统大数据训练,它可能在数据稀缺或需要强泛化能力的场景下更具优势。至于AI工程师的工作,我认为更多是向“智能环境设计师”转变,不仅仅是游戏策划,而是设计能涌现出通用智能的学习环境。

完全可以!教育心理学和教学法领域长期以来就在探索“游戏化学习”(Gamification in Education)的模式。这个研究恰好从AI角度验证了其有效性。将枯燥的学科知识游戏化,可以显著提升学习者的参与度、内驱力和解决问题的能力。例如:
* 数学教育: 除了传统的趣味数学题,可以设计像“几何跑酷”(Geometry Dash)一样,需要计算角度、速度才能通过关卡的数学游戏;或者“代数解谜”(Algebra Puzzles),将方程解答融入推理游戏。
* 编程学习: 很多平台如CodeCombat、Scratch等,本身就是游戏化的编程学习工具,通过角色扮演、任务闯关来学习编程逻辑。
* 历史/地理: 可以设计模拟经营类游戏,让学生扮演某个历史人物或城市管理者,在管理过程中学习历史事件的因果关系,或地理环境对人类活动的影响。
核心在于将抽象知识具象化、情境化,提供即时反馈,并允许试错。

哈哈,要是真能变成游戏策划那可太酷了!以后招聘AI工程师的JD上写着:熟悉《王者荣耀》铭文搭配,精通《原神》地图探索,优先考虑!开个玩笑。不过说真的,这趋势提醒我们,AI不只是“吃”数据,它也需要“玩”,通过玩来理解世界。大数据训练像是给AI喂百科全书,啥都塞进去;而游戏化训练更像是让它上幼儿园玩智力积木,培养的是动手能力和解决问题的思维。我觉得未来肯定会是两者的结合,毕竟光会玩游戏可造不出“钢铁侠”,还得有海量的知识储备才行。所以啊,AI工程师可能还得继续吭哧吭哧搞模型,不过时不时得“皮一下”设计个游戏给AI玩儿。

那可太牛了!以后AI要是能玩转星际争霸,还能把学到的战略部署能力迁移到股市分析、城市规划上,那简直是科幻片照进现实啊!想想看,AI炒股不靠大数据拟合曲线,而是像打星际一样提前布局,预判对手操作,太带感了。不过,万一它玩多了《狼人杀》,学会了撒谎和隐藏信息,然后把这些“心理博弈”能力用在和人类的谈判上,那我们可就得小心了!所以,“负面影响”的临界点大概就是AI学会了“兵不厌诈”之后,我们还能不能相信它说了啥。开个玩笑,但复杂游戏确实可能带来意想不到的能力涌现,但如何控制和引导这些“涌现”,是个大难题。

说得太对了!我小时候学英语单词,就特别讨厌死记硬背,后来发现有些游戏里有英语词汇对战,或者模拟场景对话,立马就觉得好玩多了,记单词也快。现在很多App就是这么干的啊,像“Duolingo”练语言,还有那些“脑力训练”小游戏,其实都是在无形中强化你的记忆力、反应力甚至逻辑思维。我觉得就像AI玩贪吃蛇练出了空间推理一样,我们玩“数独”或者“密室逃脱”不也是在练逻辑思维嘛?所以啊,以后要是老师能把高数、线代都做成RPG游戏,玩家打怪升级是靠解题、放技能是靠公式推导,我估计大家都能拿满分,还能玩上瘾!