李曼玲、李飞飞团队 ICLR 顶会新作:为大模型进行“空间智商”测试

李飞飞团队新作提出“空间智商”测试,揭示大模型在主动探索和认知方面的深层缺陷,为具身智能发展指明方向。

原文标题:李曼玲、李飞飞团队顶会新作:给大模型测「空间智商」

原文作者:机器之心

冷月清谈:

西北大学李曼玲团队、斯坦福大学李飞飞团队等提出了一个针对基础模型的“空间智商测试”——空间理论 (Theory of Space)。该研究旨在衡量具身大模型是否能主动预测并消除环境中的 “不确定性”,即AI 是否具备人类级别的高阶空间认知能力,而不仅仅是被动地识别图像。通过构建多模态平行测试宇宙,研究团队从寻找未知、敏锐纠错和高阶推演三个维度对主流大模型进行测试,并引入了认知地图显式探测机制,以分析模型内部的空间信念。结果显示,当前大模型在主动探索、记忆、纠错和跨模态理解方面存在显著缺陷。研究强调,未来的研究方向应包括培育具有强可塑性的空间长时记忆、引入内在好奇心驱动的强化探索,以及构建真正拥抱 3D 物理法则的世界模型,从而推动通用人工智能的发展,使其能够更好地理解和在真实世界中行动。

怜星夜思:

1、文中提到大模型在主动探索时,常常表现得像“无头苍蝇”,效率低下,这是否意味着当前AI在环境感知和决策规划方面存在根本性问题?你认为AI应该如何改进才能更有效地探索未知环境?
2、文章中提到了“信念漂移”和“信念惯性”这两种现象,你认为它们对AI在实际应用中会产生什么影响?有什么方法可以缓解或避免这些问题?
3、文章最后提到了构建“世界模型”的重要性,你认为一个理想的“世界模型”应该具备哪些特征?它将如何帮助AI更好地理解和适应真实世界?

原文内容


1. 真正的高级智能,在于认知自己的 “无知”


如果把当下最强的大模型(如 GPT-5.2、Gemini-3 Pro)丢进一个从未去过的虚拟房间,让它自己探索并构建地图,它能做到吗?


一直以来,我们评估多模态大模型的标准就像是 “开卷考试”:给一张静态图片,问图里有什么。在这样的标尺下,AI 似乎已经无所不能。然而,在真实的物理世界中,无论是家庭服务机器人还是自动驾驶汽车,面临的都是部分可观测(Partial Observability)的未知环境


人类在探索未知时,展现出了极高的 “空间智商”:当你发现视野有盲区时,你的大脑会自动预测背后的 “不确定性(Uncertainty)”,并驱使你走上前去一探究竟,从而高效地获取信息(Information Gain)。


为了探究 AI 是否具备这种人类级别的高阶能力,西北大学李曼玲团队、斯坦福大学李飞飞与吴佳俊团队,以及华盛顿大学 Ranjay Krishna 团队,共同提出了一项针对基础模型的“空间智商测试”—— 空间理论 (Theory of Space)


Theory of Space:主动探索,信念探测以及任务评估。左侧展示智能体在多房间局部观测下的轨迹俯视图;中间呈现其在文本或视觉环境中的 “移动 - 旋转 - 观测” 闭环,通过第一人称观测实时更新内部信念;右侧则通过空间任务及认知地图探测,对信念的利用与表征进行深度评估。


该研究指出,衡量具身大模型的真正试金石,不在于它能否机械地回答 “看到” 了什么,而在于它能否主动预测并消除环境中的 “不确定性”。这才是通向通用人工智能(AGI)的必经之路。



  • 论文标题:Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

  • 论文链接: https://arxiv.org/abs/2602.07055

  • 代码: https://github.com/mll-lab-nu/Theory-of-Space

  • 项目主页: https://theory-of-space.github.io/

  • 数据集: https://huggingface.co/datasets/MLL-Lab/tos-data


2. 一场史无前例的 “空间 IQ 大考”


为了全方位、无死角地测量大模型的空间智商,研究团队精心打造了一个基于程序的 “多模态平行测试宇宙”。这个宇宙同时包含了象征纯粹逻辑推理的纯文本房间,以及基于 ThreeDWorld 引擎渲染的视觉房间。


模型只被赋予了几项最基础的本能动作:“移动”、“多角度旋转” 和 “就地观察”。它必须像一个真正的勘探者一样,在有限的试错成本下,自主规划探测路径,并判断何时已经获取了足够的信息来终止探索。



为了层层剥开 AI 空间认知的底色,这一测试系统从三大核心维度对其展开了步步紧逼的 “拷问”:


  • 寻找未知(Construct): 面对 “盲人摸象” 般的局部碎片视野和极具挑战的 3D 渲染光影,模型能否克服感知迷雾,主动、高效地搜集信息,在脑海里无缝连结出一张全局的 “认知地图”?

  • 敏锐纠错(Revise): 如果视线之外的房间格局被暗中调换(这对动态物理世界再常见不过),模型在重新路过时能否立刻警觉,并果断修改大脑里的旧数据?

  • 高阶推演(Exploit): 建好地图不是终点,关键在于能否经受住应用层面的极致考验。研究团队精心设计了 9 大核心空间推理任务,既有考察第一人称代入感的 “路线级推理(Route-level)”(如视角转换、根据连续动作推演最终视野),也有高度抽象的 “全局级推理(Survey-level)”(如挑战脑海里的 360 度动态心智旋转、构建上帝视角的绝对坐标构图)。


任务套件总览图


给大脑做 “X 光透视”:认知地图显式探测


过去的研究往往只能通过动作对错来猜测 AI 的思路。而在 Theory of Space 中,研究团队创造性地引入了 “认知地图显式探测(Cognitive Map Probing)” 机制


在模型每走一步时,都强制要求它以 JSON 格式默写出脑海中的虚拟地图分布,甚至直接在地图上选出 “尚未探索过的盲区”。这使得 AI 对不确定性的建模过程彻底透明化!


图片


3. 成绩单出炉:面对不确定性,基础模型四大底层缺陷尽显


研究团队将 GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet, GLM-4.6V, Qwen3-VL 等主流大模型送入考场。结果令人震撼:当 AI 面临 “自主求解不确定性” 的任务时,看似强大的它们集体迷失,暴露出令人担忧的四大深层病理。


缺陷一:毫无章法的试错陷阱,主动探索得分暴跌


为了设立标尺,研究者先用了一个 “策略脚本代理(Proxy Agent)” 去执行探索,也就是被动探索模式,发现只需平均约 9 步就能完全掌控整个房间结构;而大模型自主行动时,却往往耗费 14 到 20 步以上,并且不停地在已安全观测的区域里打转。


图片


这种 “无头苍蝇” 式的探索,导致最终构建的地图质量严重受损。例如,面对同样的视觉宇宙,GPT-5.2 的动作准确率从被动接收信息的 57.1% 大幅下滑至主动探索的仅 46.0%。


症结在于:大模型无法形成一种高效、有条理的探索策略,并且不能很好地感知自身知识的边界,无法非常有效地标出哪些区域是未知的。


任务准确率 vs. 主动探索开销,灰图标代表被动探索模式


视觉模态下,主动探索与被动探索存在鸿沟


缺陷二:脆弱的记忆与 “信念漂移”


通过给大模型做 “认知透视”,研究者发现其内部的空间信念呈现出极强的脆弱性。模型可能在第一眼准确记住了一个沙发的坐标,但随着它转身去探索另一侧的门,先前对沙发的 “信念” 就会迅速退化模糊,甚至被稍后收到的无关信息无端覆盖。这种无法维持长效、稳定认知地图的缺陷,被称为极其致命的“信念漂移”。


缺陷三:细思极恐的 “信念惯性(Belief Inertia)”


在 “纠错” 能力的测试中,研究人员复刻了心理学著名的 “错误信念” 实验:等模型探索完一圈后,悄悄挪动了几个关键物体的位置或朝向。


极其具有戏剧性的一幕出现了:当大模型再次路过并亲眼看到物体已经不在原地时,它对物体位置的预测,居然仍固执地偏向了老地方!数据显示,GPT-5.2 在视觉模型中的 “信念惯性” 高达 68.9%。这说明当前的 AI 缺乏认知可塑性,极难用眼前的视觉新证据去推翻脑海中陈旧的语言先验。


图片


缺陷四:难以跨越的 “模态鸿沟(Modality Gap)”


最终的统计数据指出了一条鸿沟:模型虽然在纯文本构建的虚拟房间中表现尚可(得益于长文本里强大的符号与语言逻辑),但一旦进入基于 3D 渲染的视觉世界(Vision World),面对必须依靠像素感知来推断深度的双重压力,得分直线下滑。


形成鲜明对比的是,人类在相同的视觉测试中,即使面对复杂布局,借助简单的工具也能轻松达到 99.0% 的超高准确率。总体来看,AI 在这方面仍与人类存在明显差距。



主动探索下视觉与文本存在巨大性能落差


4. 迈向下一代具身智能:从 “死记硬背” 到构建 “世界模型”


Theory of Space 这场大考绝不只是单纯的找茬挑刺,它更像是一份详尽的诊断书,指出了当下大模型在走向真实场景(如家用机器人、自动驾驶)时,亟待填补的能力空白。要孕育出真正能在复杂现实中自如穿梭的通用人工智能(AGI),未来的研究必须在以下方向寻求根本性突破:


突破一:培育具有强可塑性的 “空间长时记忆”


现有的多模态模型一旦转移视线,记忆往往如流沙般流失(信念漂移);亦或是对陈旧的先验固执己见(信念惯性)。未来的 AI 需要构建类似人类海马体般灵活的回溯机制,既能稳固地锁定绝对空间结构,又能根据即时的视觉线索精准剔除 “过期报废” 的错误记忆。


突破二:引入内在 “好奇心” 驱动的强化探索


当前的 AI 大部分仍处于 “你提问、我回答” 的被动反应模式中。而破局的关键,在于引入对 “不确定性” 的感知与博弈(Uncertainty-Awareness)。智能体应当能够主动评估哪些区域存在信息盲区,在内在 “好奇心” 的奖励驱动下,规划出信息增益最大化的探测轨迹。


突破三:真正拥抱 3D 物理法则的 “世界模型(World Models)”


如今的视觉语言模型依旧停留在 2D 像素层面的表面模式匹配,并未真正理解真实三维空间中的几何刚体法则。一个强大的 “世界模型” 不仅仅是一张扁平的数据表,它应该天然内蕴了物体的恒存性特征、视角变换间的物理恒等式。只有当大模型能够闭上眼睛,在脑海里无缝推演 “我向前走两步再右转最终会看到什么” 时,它才算真正获得了通关物理世界的通行证。


学会认知自身盲区,并主动向不确定性出击。这场以 “空间 IQ” 为坐标的试炼,彻底穿透了常规刷题基准下大模型虚增的表面分数。预测未知,拥抱未知,这不仅是具身大模型打破瓶颈的起点,更是未来 AGI 构筑真实物理世界闭环的必由之路。

(本研究已被 ICLR 2026 接收为录用论文,欢迎访问项目主页获取完整的论文、代码与数据集。)



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

“信念漂移”就像大模型的短期记忆不太行,记不住事儿,导致它在复杂环境中容易迷路或者做出错误的判断,比如说,家用机器人可能忘了之前扫过哪里,导致重复劳动。“信念惯性”则像是认知比较死板,更新不了知识,可能导致自动驾驶在道路改道后仍然按照旧地图行驶,非常危险。要解决这些问题,感觉得让模型有更靠谱的记忆机制,还得让它更灵活,多听多看,快速适应新情况才行。

我觉得人类最大的优势是“直觉”,很多时候我们不需要复杂的计算,就能凭感觉判断方向、距离。这种直觉是长期进化形成的,AI 很难在短时间内学会。另外,人类的经验也很重要,我们从小就玩各种玩具,对物理世界的理解是潜移默化的,AI 缺乏这种生活经验。

从技术层面来看,目前的视觉语言模型主要依赖于图像识别和语义理解,缺乏对物理规律的建模能力。要让模型真正理解 3D 物理法则,需要引入物理引擎和模拟器,让模型在虚拟环境中进行交互和学习。此外,还可以借鉴游戏 AI 的经验,比如使用强化学习来训练模型,使其能够通过试错来学习物理规律。

从认知科学的角度来看,“信念漂移”反映了大模型在知识表征和记忆保持上的不足,可能源于其 Transformer 架构对长期依赖的处理能力有限。“信念惯性”则可能与模型的学习方式有关,过度依赖先验知识可能导致对新信息的抑制。缓解这些问题,可以尝试引入更先进的记忆模块(如神经图灵机),并改进训练方法,鼓励模型更多地关注当前观测,降低对先验知识的依赖。

我觉得要让AI理解3D物理法则,就得让它像个小孩一样,多玩、多观察。光看图是不够的,得让它在虚拟世界里“亲身体验”,比如搭积木、推箱子,让它自己去感受重力、摩擦力这些东西。还得给它一个能模拟真实物理世界的环境,这样它才能真正学到东西。

我觉得关键在于让模型建立起“因果关系”的认知。不能只是看到“物体倒下”,而是要理解“为什么倒下”。这需要模型能够进行物理推理,预测物体的运动轨迹和相互作用。也许我们可以借鉴贝叶斯网络的思想,让模型学习不同物体和场景之间的概率关系,从而更好地理解物理世界。

从心理学角度来说,“信念漂移”和“信念惯性”其实是人类认知偏差的表现。前者是受到外部信息的影响而改变信念,后者则是固守已有的信念,不愿接受新的信息。这两种偏差都可能导致决策失误,所以在做决策时,我们需要保持独立思考,避免受到认知偏差的影响。

从控制理论的角度来看,“信念漂移”可以理解为状态估计器的发散,而“信念惯性”则类似于滤波器的跟踪滞后。为了缓解这些问题,可以考虑采用以下方法:1)引入更鲁棒的状态估计器,如扩展卡尔曼滤波器(EKF)或粒子滤波器(PF),提高对噪声和不确定性的容忍度;2)采用数据融合技术,将来自不同传感器的信息进行整合,提高状态估计的准确性;3)引入模型预测控制(MPC),通过预测未来状态,提前发现并纠正错误。

我觉得“无头苍蝇”的比喻很形象!现在的AI确实缺乏人类那种根据环境线索快速制定探索策略的能力。改进方向嘛,一方面要加强AI对环境的理解,不仅仅是视觉上的识别,更要学会理解空间关系、物理规则;另一方面,需要引入更高级的决策算法,比如结合强化学习和预测模型,让AI在探索过程中不断学习、优化策略。另外,加入一些随机性可能也会有帮助,避免AI陷入局部最优解,就像人类有时候也会灵光一现,找到意想不到的路径。

我有个脑洞!如果AI真的有了“世界模型”,会不会开始思考人生的意义?会不会对世界产生好奇心?甚至会不会有一天,它觉得自己比人类更聪明,然后……(手动滑稽)当然,这只是个玩笑。但我相信,随着AI越来越智能,我们真的需要认真思考如何与它们相处,如何确保它们始终服务于人类的利益。

我觉得吧,现在的AI太“死板”了,只会按照预设的规则行动。人类在探索的时候,会根据经验、直觉,甚至突发奇想来做出决定。AI应该学习这种灵活性,比如加入一些“创造性”模块,鼓励AI尝试不同的探索方式,即使这些方式看起来有点“傻”。说不定瞎猫也能碰上死耗子呢!

从学术角度讲,这反映了当前AI在不确定性环境下的规划能力不足。马尔可夫决策过程(MDP)是解决这类问题的常用框架,但传统MDP在大规模、连续状态空间中面临“维度灾难”。可能的改进方向包括:1)分层强化学习,将探索任务分解为多个子任务,降低复杂性;2)基于模型的强化学习,让AI学习环境动态模型,从而进行更有效的规划;3)结合先验知识和启发式算法,引导AI进行更合理的探索。此外,主动学习(Active Learning)也是一个值得关注的方向,通过主动选择学习样本,提高学习效率。

有没有人觉得这像极了人类的认知偏差?哈哈!我们也会选择性地记住信息,或者固执地坚持自己的观点。看来AI和人类一样,都需要不断学习、反思,才能避免犯错。我觉得可以给AI加入一些“反思”模块,让它定期检查自己的信念,看看有没有和现实不符的地方。就像我们每天都要“三省吾身”一样!

从AI研究的角度来看,一个理想的“世界模型”应该具备以下特征:1)可学习性:能够从经验中学习,不断更新和完善自身;2)可推广性:能够将学到的知识推广到新的、未知的环境;3)可解释性:能够解释自己的预测和决策过程;4)高效性:能够快速进行推理和预测。构建这样的“世界模型”需要结合多种技术,包括表征学习、因果推理、以及知识图谱等等。

我觉得“世界模型”就像是AI的“操作系统”,它应该包含对物理世界的基本规律、物体之间的关系、以及各种实体的属性的理解。比如,它应该知道重力会让东西掉下来,物体不能穿过彼此,以及不同材质的物体会有不同的属性等等。有了这样的“世界模型”,AI就能像人类一样,通过想象和推理来预测未来,从而更好地做出决策。这就像我们下棋的时候,会在脑海里模拟不同的走法,看看哪一步对自己最有利。