游戏代码驱动多模态大模型推理能力提升:复旦NLP实验室与字节跳动联合研究

复旦&字节研究发现,用游戏代码合成数据,能有效提升多模态大模型在几何、图表等方面的通用推理能力。训练数据集已开源。

原文标题:以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理

原文作者:机器之心

冷月清谈:

复旦NLP实验室与字节跳动智能服务团队的最新研究表明,通过游戏代码自动合成视觉推理数据,可以有效提升视觉语言模型(VLMs)的通用推理能力。研究团队提出了Code2Logic方法,该方法利用游戏代码的明确规则、因果推理链和易生成性,通过LLM自动生成大规模、多样化的GameQA数据集。实验结果表明,在GameQA上进行强化学习训练不仅能显著提升模型在域内和域外游戏上的表现,还能在通用视觉语言推理基准上获得明显提升。该研究还揭示了游戏多样性和样本多样性对模型泛化性能的积极影响,并深入分析了VLMs在3D空间感知、模式识别、策略规划等方面的推理瓶颈。

怜星夜思:

1、文章中提到游戏数据在提升AI的通用推理能力方面超越了几何数据集,这是否意味着我们在AI训练中应该更加重视模拟真实世界的复杂场景,而不仅仅是针对特定任务的数据?
2、Code2Logic方法通过游戏代码自动生成训练数据,这种思路是否可以应用到其他领域,例如自动驾驶、智能制造等?如果可以,可能面临哪些挑战?
3、文章中提到VLMs在3D空间感知和策略规划方面存在瓶颈,你认为未来应该如何改进模型结构或训练方法,以提升这些能力?

原文内容


如果告诉你,AI在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信吗?


复旦NLP实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现:游戏不仅是娱乐工具,更是训练AI推理能力的宝贵资源。

   


  • 标题:

    Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning

  • 论文链接:

    https://arxiv.org/abs/2505.13886

  • 代码仓库:

    https://github.com/tongjingqi/Code2Logic

  • 数据和模型:

    https://huggingface.co/Code2Logic

 

引言


高质量多模态推理数据的极度稀缺,制约了视觉语言模型(VLMs)复杂推理能力的提升。那么,有没有一种低成本又可靠的方法来大规模生成这些数据呢?


复旦与字节的研究团队创新性地提出了一个巧妙的思路:利用游戏代码自动合成视觉推理数据。


 图1:GameQA 数据集中各游戏类别的代表性游戏: 3D 重建、七巧板(变体)、数独和推箱子。各游戏展示两个视觉问答示例,包含当前游戏状态图片,相应的问题,以及逐步推理过程和答案。

 

从游戏代码到推理数据:

Code2Logic的奇思妙想


为什么选择游戏代码?研究团队发现,游戏具有三个独特优势首先,游戏天然具有明确定义的规则且结果易于验证,确保生成数据的准确性;其次,游戏代码编码了状态转换逻辑,天然包含因果推理链;最后,游戏代码可通过大语言模型(LLM)轻松生成,成本极低。


基于这一洞察,团队提出了Code2Logic方法,借助LLM通过三个核心步骤将游戏代码中的隐式推理转化为显式的多模态推理数据,如图2所示:


第一步:游戏代码构建。通过LLM(如Claude 3.5GPT 4o)自动生成游戏代码,如仅需一行提示词即可构建完整的推箱子(Sokoban游戏逻辑


第二步:QA模板设计从游戏代码中提取各种推理模式,设计相应的任务及其问答模板。


第三步:数据引擎构构建自动化程序,重用游戏核心代码(如move函数逻辑),批量生成符合模板的问答实例。数据生成过程完全自动化,且推理过程与答案正确性由代码执行保证。

 

图2:Code2Logic方法流程示意

 

GameQA可扩展的多模态推理数据集


利用Code2Logic方法,研究团队构建了GameQA数据集,具有以下核心优势:


大规模且多样。涵盖4大认知能力类别,30个游戏,158个推理任务,14万个问答对,如图1和图3所示。


可扩展和成本极低数据引擎可用Code2Logic方法低成本构建,代码构建完成后便能无限生成新样本,源源不断地产生数据。


难度设置合理。通过设置代码参数,游戏任务难度可控制为EasyMediumHard三级,同时视觉输入即游戏状态复杂性也有三级的设置。这种细粒度的难度设置便于系统评估模型能力。


图3:GameQA30个游戏,分为4个认知能力类别。域外游戏不参与模型训练

   

表1:GameQA域内和域外游戏的评测结果。在GameQA域内游戏测试集上,理工科本科生的准确率有84.75%,而先进的Claude-3.5-Sonnet只有47.69%,仅为人类准确率的一半,Gemini-2.5-Pro58.95%也与人类有较大差距。在GameQA上训练可显著提升模型在域内外测试集上的表现。

 

核心发现:游戏数据驱动的通用能力提升


在游戏数据上训练后的能力提升泛化效果如何?研究中最令人惊喜的发现是:仅使用GameQA进行强化学习训练,在域内测试集上取得显著提升的同时,模型不但在域外游戏上展现出强大泛化能力(表1),而且还在通用视觉语言推理基准上获得了明显提升


从表2的从评测结果可见,在GameQA上进行GRPO训练后,四个开源多模态模型均在7个通用视觉语言推理基准上获得性能提升,特别是Qwen2.5-VL-7B取得了最显著的2.33%平均提升

 

表2:通用视觉语言推理基准上的评测结果。模型在GameQAGRPO训练后可泛化到通用视觉语言推理基准。

 

训练效果:GameQA击败几何数据集


为进一步探究GameQA的价值,研究团队设计了对照实验:用5K GameQA样本与8K样本的几何推理数据集进行对比训练,如3所示。结果出人意料:尽管数据量更少且领域不匹配,GameQA训练的模型在通用视觉语言推理基准上表现更优。


在数学相关测试(MathVista: 68.70% vs 67.63%)中,游戏数据竟然超过了对口的几何数据。这一结果表明,游戏中的认知多样性和推理复杂性,具有强通用性和迁移能力。


表3:GameQA 5K )与几何推理数据集 Multimodal-Open-R1 8K )对比训练评测结果

 

深度剖析:GRPO如何提升模型能力?


为理解强化学习如何改善模型性能,研究团队随机采样了案例进行了细致的人工分析结果显示,GRPO训练后,模型在视觉感知和文本推理两个方面都有显著提升。


如图4,从GameQA测试集和通用视觉语言推理基准中随机采样共790个测试样本,人工比较模型在训练前后的回答,最终得出:在GameQA数据上,10.94%的案例视觉感知得到提升,14.95%的案例文本推理得到提升。在通用视觉语言推理基准上,这两个数据分别为13.57%8.57%


图4:GRPO 对视觉感知和文本推理的影响。从 GameQA 与通用视觉语言推理基准分别随机选取 650 例与 140 例进行人工分析。左右两边分别为游戏任务和通用视觉语言推理基准上的表现变化。

 

Scaling effect

游戏多样性与样本多样性的影响


通过系统性实验,研究团队还揭示了两个重要的Scaling effect,即游戏多样性与样本多样性的影响,如图5所示:


随着游戏种类变多,域外泛化效果变强使用20种游戏训练的模型在未见游戏上提升1.80%,在通用基准上提升1.20%,均优于使用4种或10种游戏的配置。


样本多样性与域外泛化效果正相关对比三种训练配置(5K样本×1轮 vs 1K样本×5轮 vs 0.5K样本×10轮),结果显示接触更多不同样本比重复学习少量样本更有效。


这两个Scaling effect表明,GameQA的多样性与可扩展性优势,能够直接带来模型在通用推理任务上更强的泛化性能

 

图5:Qwen2.5-VL-3BGameQA上训练,游戏种类数与样本多样性的Scaling effect

 

案例分析:VLMs的推理瓶颈在哪里?


通过对模型错误的细致分析,研究团队也发现了VLMs推理能力的关键缺陷,包括:


3D空间感知是最大短板3D迷宫等游戏中,模型经常混淆高度关系,将图像中位置较上的物体误判为具有更高的Z坐标。这反映出当前模型在3D空间理解上的根本性缺陷,如图6所示。


在识别模式与定位物体上存在显著困难。在游戏视觉场景不是标准的网格化结构(如祖玛、纸牌类游戏)时这一困难还会加剧。


多次看图时容易出错。在需多次识图的任务中,模型起初识别正确,但随后易受已有文本干扰,导致图文不符。


策略规划能力欠缺面对一些需要寻找最优解的任务(如求解推箱子最优策略),模型既缺乏人类的直觉洞察来剪枝无用分支,也无法进行大规模搜索遍历,导致表现不佳。

 

图6:3D迷宫中GPT 4o混淆物体高度

 

 结论


本研究提出了一种新颖的方法(Code2Logic),首次利用游戏代码合成多模态推理数据。


基于此方法,构建了GameQA数据集,该数据集具有低成本与可扩展、难度设置合理、规模大且多样性高的特点,为多模态大模型的训练与评估提供了理想的数据来源。


同时,研究团队首次验证了仅通过游戏问答任务进行强化学习,便能显著提升多模态大模型在域外任务的通用推理能力,这不仅验证了GameQA的泛化性,也进一步证实了游戏作为可验证环境,用于提升模型通用智能的潜力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

从我个人的角度,非常赞同这个观点。真实世界场景的复杂性远超我们想象,而游戏作为一种可控的模拟环境,能够提供更丰富的认知多样性和推理复杂性。这可能比单纯针对特定任务的数据集更能锻炼AI的『大脑』,就像人类学习一样,不能只靠刷题,更要理解知识背后的逻辑和应用。

绝对可以!自动驾驶和智能制造都是非常适合应用这种思路的领域。自动驾驶可以利用游戏引擎生成各种交通场景,用于训练自动驾驶算法;智能制造可以模拟生产线上的各种操作,用于优化生产流程。关键在于找到合适的『游戏代码』或者规则引擎,并设计出合理的QA模板。

我觉得两种数据都很重要,不能绝对地说哪个更好。几何数据集可能在某些特定任务上更有效率,但游戏数据提供的泛化能力确实很有潜力。未来的趋势可能是结合两者,用几何数据做基础训练,再用游戏数据做进阶训练,这样才能培养出更强大的AI。

这个发现挺有意思的,让我想到了课程设计里的迁移学习。游戏数据之所以work,可能因为它包含了更多的隐性知识,而这些知识恰好是几何数据所缺乏的。所以,关键不在于数据类型,而在于数据中所蕴含的信息量和泛化能力。

3D空间感知确实是VLMs的一个弱项。我觉得可以尝试引入更多的3D信息,比如深度图、点云数据等,并设计专门的模块来处理这些信息。另外,可以借鉴计算机图形学中的一些技术,比如光线追踪、体素化等,来增强模型对3D场景的理解。

除了模型结构和训练方法,数据也很重要。可以构建更多包含3D信息和需要策略规划的数据集,用于训练VLMs。另外,可以尝试使用对抗生成网络(GAN)来生成更逼真的3D场景,以增强模型的泛化能力。

我觉得最大的挑战在于如何保证生成数据的质量和真实性。游戏环境毕竟是简化的,跟真实世界还有差距。如果生成的数据偏差太大,可能会导致AI在真实场景中表现不佳,甚至出现安全问题。所以,需要一套严格的验证机制来评估生成数据的质量。

策略规划方面,可以考虑引入强化学习的方法。通过让模型在环境中不断试错,学习最优的策略。另外,可以借鉴AlphaGo的经验,将蒙特卡洛树搜索等算法引入到VLMs中,以提升其搜索能力和规划能力。

除了数据质量,成本也是一个重要考虑因素。虽然游戏代码生成数据的成本相对较低,但设计QA模板、构建数据引擎、验证数据质量都需要投入大量的人力和物力。对于一些复杂的领域,可能需要更高级的AI技术来辅助生成数据,这又会增加额外的成本。