世界模型热潮下的「冷思考」:邢波团队直指五大痛点,提出全新PAN范式

揭示世界模型五大局限,CMU等团队提出PAN新范式,迈向通用AI的灵活模拟与推理。

原文标题:「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式

原文作者:机器之心

冷月清谈:

文章深度剖析了当前AI领域“世界模型”的局限性,由CMU等机构研究人员揭示了构建世界模型的五大“硬伤”:数据、表征、架构、目标和用途。针对现有模型仅依赖感官数据、连续表征、确定性预测、潜在空间损失及MPC(模型预测控制)等流行主张,文章逐一提出批判。
研究指出,文本数据在抽象概念方面不可或缺,应当融合多模态数据;单靠连续表征不足以应对噪声,需结合离散符号;移除解码器的自回归架构易脱节,应采用分层生成式潜在预测(GLP);潜在空间损失有崩溃风险,数据空间生成损失更稳定可靠;MPC计算开销大、视野有限,而强化学习(RL)作为仿真器训练智能体更通用高效。
在此基础上,论文提出了全新的PAN(Physical, Agentic, and Nested AGI System)世界模型架构。它融合了所有体验模式数据,结合连续与离散表示,基于增强LLM和扩散模型的层次化GLP,并采用观察数据为基础的生成损失,利用RL优化智能体。PAN旨在模拟现实中所有可能性,作为内部沙盒,实现更接近人类的灵活推理和战略规划。

怜星夜思:

1、文章强调了文本数据在抽象概念上的重要性,认为通用AI不能偏重单一模态。那未来通用AI的世界模型究竟应该如何有效地融合“视频、音频、嗅觉”这类感官数据与“文本”这类高级抽象数据呢?这不同模态信息在大模型内部如何协调统一?
2、论文提到“移除解码器会导致模型学习到的潜在表示与真实世界脱节,难以诊断,甚至可能崩溃到无意义的解”。这反映了AI模型“可解释性”和“鲁棒性”的问题。在未来复杂的世界模型中,我们应该如何保证其“透明可调试”,而非一个“黑箱”?
3、文章多次以人类认知为例来对比当前AI的不足,并提到PAN模型更接近人类推理的灵活性。你觉得AI要达到真正意义上的AGI,除了技术架构上的进步,还需要在哪些方面学习或模拟人类认知?我们是否能完全复制人类的思维模式?

原文内容

机器之心报道

编辑:泽南、+0

现在的世界模型,值得批判。


我们知道,大语言模型(LLM)是通过预测对话的下一个单词的形式产生输出的。由此产生的对话、推理甚至创作能力已经接近人类智力水平。


但目前看起来,ChatGPT 等大模型与真正的 AGI 还有肉眼可见的差距。如果我们能够完美地模拟环境中每一个可能的未来,是否就可以创造出强大的 AI 了?回想一下人类:与 ChatGPT 不同,人类的能力组成有具体技能、深度复杂能力的区分。


模拟推理的案例:一个人(可能是自私的)通过心理模拟多个可能结果来帮助一个哭泣的人。


人类可以执行广泛的复杂任务,所有这些任务都基于相同的人类大脑认知架构。是否存在一个人工智能系统也能完成所有这些任务呢?


近日,来自卡耐基梅隆大学(CMU)、沙特穆罕默德・本・扎耶德人工智能大学(MBZUAI)、加州大学圣迭戈分校(UCSD)的研究者们探讨了当前 AI 领域最前沿方向 —— 世界模型(World Models)的局限性。



  • 论文:Critiques of World Models

  • 论文链接:https://arxiv.org/abs/2507.05169


研究人员指出了构建、训练世界模型的五个重点方面:1)识别并准备包含目标世界信息的训练数据;2)采用一种通用表征空间来表示潜在世界状态,其含义可能比直接观察到的数据更为丰富;3)设计能够有效对表征进行推理的架构;4)选择能正确指导模型训练的目标函数;5)确定如何在决策系统中运用世界模型。


基于此,作者提出了一种全新的世界模型架构 PAN(Physical, Agentic, and Nested AGI System),基于分层、多级和混合连续 / 离散表示,并采用了生成式和自监督学习框架。


研究者表示,PAN 世界模型的详细信息及结果会很快在另一篇论文中展示。MBZUAI 校长、CMU 教授邢波在论文提交后转推了这篇论文,并表示 PAN 模型即将发布 27B 的第一版,这将是第一个可运行的通用世界模器。



对世界模型的批判


一个以 Yann LeCun 为代表的学派在构建世界模型的五个维度 —— 数据、表征、架构、目标和用途


该学派还为世界模型提出了如图 4 所示的替代框架,其核心思想可以概括为「预测下一个表征」,而非「预测下一个数据」:



无文本预训练:该框架完全摒弃了文本数据,转而采用如视频、音频、嗅觉等连续的感官数据。


固定维度的连续状态嵌入:给定感官输入 o,一个编码器 h 将世界状态估计为一个具有固定维度的抽象连续嵌入

 (例如,图片)。


编码器 - 编码器架构:世界模型 f 基于动作输入 a,以一种确定性的方式预测下一个状态嵌入 

。值得注意的是,该架构不使用解码器 g 来重构下一个观测 图片,而是再次应用编码器 h 处理真实的下一观测 图片,从而生成  作为监督学习的真实目标。


潜在空间中的重构损失:该框架并非通过比较重构的下一感官输入 图片 与真实数据 图片 来进行监督,而是将学习建立在预测的下一状态 图片 与自举生成的真实目标 图片 之间的偏差之上(例如,使用 L2 损失 图片)。


通过模型预测控制(MPC)选择动作:给定当前观测 图片,该框架倾向于先提出一个初始的动作序列 

,然后使用世界模型 f 模拟未来的状态 ,并最终基于目标进展  来优化这一动作序列。


尽管这些思路确实对当前世界模型的一些实践提出了合理的问题,并描绘了吸引人的解决方案,但作者认为,当以实现智能体推理和决策为目的,去构建通用、可扩展且鲁棒的世界模型时,其每一项基本假设都会引入严重的局限性


作者沿着他们构建世界模型的五个维度,对他们提出的主张和建议逐一进行分析性批判。下面对每个观点进行了概述,感兴趣的读者可以阅读原文。


数据:关键在于信息密度,而非数据量


待批判的主张:感官输入优于文本输入,因为来自物理世界的数据量远超文本(例如,一个四岁的孩子就已经处理了 1.1×10¹ 字节的视觉数据,而用于训练现代大语言模型的所有文本数据加起来也仅仅约 0.9×10¹ 字节)。


作者的观点:


尽管视频等感官数据量大,但其信息冗余度高、语义含量低。相比之下,自然语言是人类经验的高度压缩和抽象形式,它不仅能描述物理现实,还能编码如「正义」、「动机」等无法直接观察的抽象概念,并承载了人类的集体知识。


因此,通往通用人工智能的道路不能偏重于任何单一模态。视频、文本、音频等不同模态反映了经验的不同层面:视频捕捉物理动态,而文本编码抽象概念。一个成功的世界模型必须融合所有这些分层的数据,才能全面理解世界并处理多样化的任务,忽略任何一个层面都会导致关键信息的缺失。


表示:连续?离散?还是两者兼有? 


待批判的主张:世界状态应由连续嵌入来表征,而非离散的词元,以便于进行基于梯度的优化。


作者的观点:


仅用连续嵌入来表示世界状态是脆弱的,因为它难以应对感官数据中固有的噪声和高变异性 。人类认知通过将原始感知归类为离散概念来解决此问题,而语言就是这些离散概念的载体,为抽象和推理提供了稳定、可组合的基础 。


理论上,离散符号序列(即「语言」)足以表达连续数据中任意精度的信息,并且如图 5 所示,通过增加序列长度来扩展其表达能力,远比扩大词汇表更高效 。



因此,最佳路径是采用混合表示 。这种方法结合了离散符号的稳健性、可解释性和结构化推理能力,同时利用连续嵌入来捕捉细微的感官细节,从而实现优势互补 。


架构:自回归生成并非敌人 


待批判的主张:自回归生成模型(例如 LLM)注定会失败,因为它们最终必然会犯错,并且无法对结果的不确定性进行建模。


作者的观点:


如论文图 6(左半部分)所示,这种被批判的「编码器 - 编码器架构」在潜在空间中进行「确定性的下一嵌入预测」 ,但它在功能上仍是自回归的,需要递归地预测未来状态,因此并未真正避免其声称要解决的误差累积问题 。更关键的是,通过移除解码器来避免重构观察数据,会导致模型学习到的潜在表示与真实世界脱节,难以诊断,甚至可能崩溃到无意义的解 。



更好的方案不是抛弃生成模型,而是采用分层的生成式潜在预测(GLP)架构,这在图 6(右半部分)中得到了展示  。该架构包含一个解码器用于「生成式重构」 ,其核心是一个由「增强的 LLM + 扩散模型」构成的分层世界模型 。这种设计既能通过生成式解码器确保模型与真实数据挂钩,又能通过分层抽象来隔离底层噪声,实现更鲁棒、更强大的推理 。


目标:在数据空间还是潜在空间中学习? 


待批判的主张:概率性的数据重构目标(例如编码器 - 解码器方案)是行不通的,因为这类目标难以处理,并且会迫使模型去预测不相关的细节。


作者的观点:


如图 7(左半部分)所示,在潜在空间计算重构损失的方法,理论上存在「平凡解崩溃」的风险 ,即模型可以轻易将所有输入映射为常数来使损失为零,从而什么也学不到 。为了防止崩溃,这类模型不得不依赖复杂且难以调试的正则化项。



相比之下,基于数据空间的生成式重构目标函数,如图 7(右半部分)所示,要求模型预测并重构出真实的下一刻观察数据,并通过「生成式损失」进行监督 。这从根本上避免了崩溃问题 ,为模型提供了稳定、可靠且有意义的监督信号 。



图 8 进一步从理论上解释了,潜在空间损失只是生成式损失的一个宽松的「上界代理」 。这意味着,即使一个模型的潜在损失很低,也不能保证它在真实世界中的预测是准确的,因为它可能遗漏了对任务至关重要的信息 。


用途:模型预测控制(MPC)还是强化学习(RL)? 


待批判的主张:世界模型应该用于模型预测控制(MPC),而不是强化学习(RL)框架,因为后者需要过多的试验次数。


作者的观点:


如论文图 9(左半部分)所示,MPC 在决策时需要反复进行「模拟下一个潜在状态」和「基于目标优化动作」的循环 ,这导致其计算开销巨大,难以应对快速变化的环境,并且通常视野有限,难以进行长时程战略规划 。



强化学习(RL)提供了一个更通用、灵活且可扩展的范式,如图 9(右半部分)所示 。它将世界模型作为一个「模拟器」,让一个独立的智能体模型在其中探索并学习 。这个过程是用于「基于目标用 RL 优化智能体模型」 ,将巨大的计算成本从「决策时」转移到了「训练时」 。这使智能体不仅能快速行动,还能通过学习积累长期回报,进行更具战略性的长远规划 。


PAN 世界模型


基于对现有世界模型框架的批评,作者得出了关于通用世界模型设计原则。PAN 架构基于以下设计原则:1)涵盖所有体验模式的数据;2)结合连续与离散表示;3)基于增强的大语言模型(LLM)主干的分层生成建模,以及生成式潜在预测架构;4)以观察数据为基础的生成损失;5)利用世界模型通过强化学习(RL)来模拟体验,以训练智能体。


一个真正多功能且通用的世界模型必须基于能够反映现实世界推理需求全部复杂性的任务。总体而言,PAN 通过其分层、多级和混合表示架构,以及编码器 - 解码器管道,将感知、行动、信念、模拟信念和模拟世界等要素串联起来。作为通用生成模型,PAN 能够模拟现实世界中可操作的可能性,使智能体能够进行有目的的推理。PAN 并不回避原始感知输入的多样性,而是将其模块化和组织化,从而实现对每一层体验的更丰富内部模拟,增强智能体的推理和规划能力。


在训练时,PAN 需要首先通过自我监督(例如使用大语言模型处理文本数据,使用扩散模型处理视频数据)独立预训练每个模块。这些特定于模态和级别的模块在后训练阶段通过多模态数据、级联嵌入和梯度传播进行对齐或整合。


PAN 架构的一大优势在于其数据处理效率,这得益于其采用的多尺度和分层的世界观。事实上,PAN 的预训练 - 对齐 / 集成策略能够充分利用感觉信息简历知识基础,利用 LLM 促进跨模态的泛化能力。


作者概述了一种利用世界模型进行模拟推理的智能体架构。PAN 自然地融入这一范式,不仅作为视频生成器,更作为一个丰富的内部沙盒,用于模拟、实验和预见未来。


最后,作者认为,世界模型不是关于视频或虚拟现实的生成,而是关于模拟现实世界中所有可能性,因此,目前的范式和努力仍然是原始的。作者希望,通过批判性、分析性和建设性的剖析一些关于如何构建世界模型的流行思想,以及 PAN 架构,能够激发理论和实施更强大世界模型的进一步发展。


由 PAN 世界模型驱动的模拟推理智能体。与依赖反应策略的传统强化学习智能体,或在决策时刻昂贵地模拟未来的模型预测控制(MPC)智能体不同,其利用了 PAN 生成的预计算模拟缓存。在决策过程中,智能体根据当前的信念和预期结果选择行动,从而实现更高效、灵活和有目的的规划方式。这种方式更接近人类推理的灵活性。


更详细内容,请查阅论文原文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这可不是简单的加GPU就能解决的!我觉得AI要像人,首先得学会“举一反三”,我们学一个概念,看到类似的就能联想到;其次是“情绪”,不是说让AI也哭笑,而是理解情绪对于决策的重要性;还有“好奇心”,我们人类很多学习动力都源于好奇。至于能不能完全复制人类思维嘛……我觉得难,因为人类思维不光是逻辑,还有直觉、潜意识、甚至那么一点点“天马行空”的随机性,这些东西计算机怎么模拟?

确保未来世界模型“透明可调试”是AI可信性(Trustworthy AI)领域的关键挑战。可能的路径包括:1) 可解释AI(XAI)技术:开发更先进的后hoc解释器,或设计固有的可解释模型结构,比如符号-神经混合系统;2) 鲁棒性验证:通过对抗性测试、形式化验证等方法,确保模型在各种未知或扰动环境下的预测稳定性;3) 分层模块化设计:像PAN这样,将复杂模型分解为层级清晰、功能独立的模块,每个模块可独立测试和诊断,从而缩小故障定位范围。

“黑箱”?那不就是AI版的“薛定谔的猫”吗?你永远不知道它在里面干啥!我觉得要让它“透明”,除非给它装个“碎碎念”模式,它每算一步都得把心理活动念叨出来;或者整个“忏悔墙”,每次出bug就自动生成一份“错误分析报告及自我批评”。再不行就给它整个“AI摄像头”,24小时监控它的“脑活动”,看它是不是背着我们偷偷摸摸地学坏!开玩笑的啦,但真的希望未来的AI能像个“开放源代码”的机器人,至少让工程师能看懂它的“内部逻辑”。

对于通用AI的世界模型如何融合多模态数据,学术界目前探索的方向有很多。一个核心思路是构建统一的语义空间,将不同模态的原始数据通过各自的编码器映射到这个公共语义空间中,例如通过对比学习(如CLIP)或自监督学习(如MAE)。更进一步,可以采用分层融合策略,底层处理原始感官信号,上层则处理语言等抽象符号,通过注意力机制或门控机制实现跨模态的信息对齐与协同推理。PAN模型也暗示了这种分层多级的处理方式。

除了架构进步,AI要迈向AGI,需在人类认知核心能力上深入学习或模拟:1) 常识推理与因果理解:人类依赖丰富的常识和因果关系理解世界,现有AI在这方面仍显不足;2) 元认知能力:自我监控、自我评估、学习如何学习的能力;3) 情感与动机:虽然备受争议,但情感在人类决策、学习和社交中扮演关键角色;4) 具身智能:通过与真实世界的交互获取经验理解物理定律和社会规则。完全复制人类思维模式涉及哲学和生物学层面,目前更多是借鉴其原理而非完全复制。

这问题问到点子上了!就像我们人,看(视觉)、听(听觉)、闻(嗅觉),还能读写(文本),这些信息在大脑里肯定不是独立运行的。可能未来AI也会像大脑一样,搞个“多感觉融合中心”,各种数据汇聚过来,就像个信息处理的总指挥。文本可能就是高级的语言信号,用来理解概念和逻辑,而图像视频就是基础的环境感知。说不定他们会设计一种新的“语言”,把所有模态的信息都翻译成这种语言来内部沟通。

哎呀,你这是在问AI怎么学会“闻”着味儿写诗,或者“摸”着东西讲笑话啊!我觉得嘛,可能就像我们玩Minecraft,所有的世界都是由方块组成的,但能搭出别墅也能搭出像素画。AI也许会把所有“感官体验”都变成那种特定的“AI方块”,然后文本就是用这些方块搭出来的“高级指令”。至于协调嘛,就看谁是那个最厉害的“建筑师”了——也许是个超大的神经网络,能把声音的方块和文字的方块巧妙地组合起来,简直是“五感大融合,一‘脑’通世界”!

这个问题特实际!现在好多大模型就是个“黑箱”,它咋想的你根本不知道。就像你问一个特别聪明的孩子为啥算得这么快,他可能也说不上来。要做到“透明可调试”,我觉得得让AI“说”出它的思考过程,或者至少能回溯它做决策的“痕迹”。想象一下,一个AI犯错了,我们能点一下“时光倒流”,看看它之前是怎么一步步错下去的,那才叫真的方便。