李曼玲、李飞飞团队 ICLR 顶会新作：为大模型进行“空间智商”测试

almosthuman2014 · 2026 年3 月 8 日 12:01

李飞飞团队新作提出“空间智商”测试，揭示大模型在主动探索和认知方面的深层缺陷，为具身智能发展指明方向。

原文标题：李曼玲、李飞飞团队顶会新作：给大模型测「空间智商」

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651020388&idx=3&sn=aa2cc0f123a909ab9c2fcbd755133390&

冷月清谈：

西北大学李曼玲团队、斯坦福大学李飞飞团队等提出了一个针对基础模型的“空间智商测试”——空间理论 (Theory of Space)。该研究旨在衡量具身大模型是否能主动预测并消除环境中的 “不确定性”，即AI 是否具备人类级别的高阶空间认知能力，而不仅仅是被动地识别图像。通过构建多模态平行测试宇宙，研究团队从寻找未知、敏锐纠错和高阶推演三个维度对主流大模型进行测试，并引入了认知地图显式探测机制，以分析模型内部的空间信念。结果显示，当前大模型在主动探索、记忆、纠错和跨模态理解方面存在显著缺陷。研究强调，未来的研究方向应包括培育具有强可塑性的空间长时记忆、引入内在好奇心驱动的强化探索，以及构建真正拥抱 3D 物理法则的世界模型，从而推动通用人工智能的发展，使其能够更好地理解和在真实世界中行动。

怜星夜思：

1、文中提到大模型在主动探索时，常常表现得像“无头苍蝇”，效率低下，这是否意味着当前AI在环境感知和决策规划方面存在根本性问题？你认为AI应该如何改进才能更有效地探索未知环境？
2、文章中提到了“信念漂移”和“信念惯性”这两种现象，你认为它们对AI在实际应用中会产生什么影响？有什么方法可以缓解或避免这些问题？
3、文章最后提到了构建“世界模型”的重要性，你认为一个理想的“世界模型”应该具备哪些特征？它将如何帮助AI更好地理解和适应真实世界？

原文内容

1. 真正的高级智能，在于认知自己的 “无知”

如果把当下最强的大模型（如 GPT-5.2、Gemini-3 Pro）丢进一个从未去过的虚拟房间，让它自己探索并构建地图，它能做到吗？

一直以来，我们评估多模态大模型的标准就像是 “开卷考试”：给一张静态图片，问图里有什么。在这样的标尺下，AI 似乎已经无所不能。然而，在真实的物理世界中，无论是家庭服务机器人还是自动驾驶汽车，面临的都是部分可观测（Partial Observability）的未知环境。

人类在探索未知时，展现出了极高的 “空间智商”：当你发现视野有盲区时，你的大脑会自动预测背后的 “不确定性（Uncertainty）”，并驱使你走上前去一探究竟，从而高效地获取信息（Information Gain）。

为了探究 AI 是否具备这种人类级别的高阶能力，西北大学李曼玲团队、斯坦福大学李飞飞与吴佳俊团队，以及华盛顿大学 Ranjay Krishna 团队，共同提出了一项针对基础模型的“空间智商测试”—— 空间理论 (Theory of Space)。

Theory of Space：主动探索，信念探测以及任务评估。左侧展示智能体在多房间局部观测下的轨迹俯视图；中间呈现其在文本或视觉环境中的 “移动 - 旋转 - 观测” 闭环，通过第一人称观测实时更新内部信念；右侧则通过空间任务及认知地图探测，对信念的利用与表征进行深度评估。

该研究指出，衡量具身大模型的真正试金石，不在于它能否机械地回答 “看到” 了什么，而在于它能否主动预测并消除环境中的 “不确定性”。这才是通向通用人工智能（AGI）的必经之路。

论文标题：Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
论文链接： https://arxiv.org/abs/2602.07055
代码： https://github.com/mll-lab-nu/Theory-of-Space
项目主页： https://theory-of-space.github.io/
数据集： https://huggingface.co/datasets/MLL-Lab/tos-data

2. 一场史无前例的 “空间 IQ 大考”

为了全方位、无死角地测量大模型的空间智商，研究团队精心打造了一个基于程序的 “多模态平行测试宇宙”。这个宇宙同时包含了象征纯粹逻辑推理的纯文本房间，以及基于 ThreeDWorld 引擎渲染的视觉房间。

模型只被赋予了几项最基础的本能动作：“移动”、“多角度旋转” 和 “就地观察”。它必须像一个真正的勘探者一样，在有限的试错成本下，自主规划探测路径，并判断何时已经获取了足够的信息来终止探索。

为了层层剥开 AI 空间认知的底色，这一测试系统从三大核心维度对其展开了步步紧逼的 “拷问”：

寻找未知（Construct）：面对 “盲人摸象” 般的局部碎片视野和极具挑战的 3D 渲染光影，模型能否克服感知迷雾，主动、高效地搜集信息，在脑海里无缝连结出一张全局的 “认知地图”？
敏锐纠错（Revise）：如果视线之外的房间格局被暗中调换（这对动态物理世界再常见不过），模型在重新路过时能否立刻警觉，并果断修改大脑里的旧数据？
高阶推演（Exploit）：建好地图不是终点，关键在于能否经受住应用层面的极致考验。研究团队精心设计了 9 大核心空间推理任务，既有考察第一人称代入感的 “路线级推理（Route-level）”（如视角转换、根据连续动作推演最终视野），也有高度抽象的 “全局级推理（Survey-level）”（如挑战脑海里的 360 度动态心智旋转、构建上帝视角的绝对坐标构图）。

任务套件总览图

给大脑做 “X 光透视”：认知地图显式探测

过去的研究往往只能通过动作对错来猜测 AI 的思路。而在 Theory of Space 中，研究团队创造性地引入了 “认知地图显式探测（Cognitive Map Probing）” 机制。

在模型每走一步时，都强制要求它以 JSON 格式默写出脑海中的虚拟地图分布，甚至直接在地图上选出 “尚未探索过的盲区”。这使得 AI 对不确定性的建模过程彻底透明化！

3. 成绩单出炉：面对不确定性，基础模型四大底层缺陷尽显

研究团队将 GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet, GLM-4.6V, Qwen3-VL 等主流大模型送入考场。结果令人震撼：当 AI 面临 “自主求解不确定性” 的任务时，看似强大的它们集体迷失，暴露出令人担忧的四大深层病理。

缺陷一：毫无章法的试错陷阱，主动探索得分暴跌

为了设立标尺，研究者先用了一个 “策略脚本代理（Proxy Agent）” 去执行探索，也就是被动探索模式，发现只需平均约 9 步就能完全掌控整个房间结构；而大模型自主行动时，却往往耗费 14 到 20 步以上，并且不停地在已安全观测的区域里打转。

这种 “无头苍蝇” 式的探索，导致最终构建的地图质量严重受损。例如，面对同样的视觉宇宙，GPT-5.2 的动作准确率从被动接收信息的 57.1% 大幅下滑至主动探索的仅 46.0%。

症结在于：大模型无法形成一种高效、有条理的探索策略，并且不能很好地感知自身知识的边界，无法非常有效地标出哪些区域是未知的。

任务准确率 vs. 主动探索开销，灰图标代表被动探索模式

视觉模态下，主动探索与被动探索存在鸿沟

缺陷二：脆弱的记忆与 “信念漂移”

通过给大模型做 “认知透视”，研究者发现其内部的空间信念呈现出极强的脆弱性。模型可能在第一眼准确记住了一个沙发的坐标，但随着它转身去探索另一侧的门，先前对沙发的 “信念” 就会迅速退化模糊，甚至被稍后收到的无关信息无端覆盖。这种无法维持长效、稳定认知地图的缺陷，被称为极其致命的“信念漂移”。

缺陷三：细思极恐的 “信念惯性（Belief Inertia）”

在 “纠错” 能力的测试中，研究人员复刻了心理学著名的 “错误信念” 实验：等模型探索完一圈后，悄悄挪动了几个关键物体的位置或朝向。

极其具有戏剧性的一幕出现了：当大模型再次路过并亲眼看到物体已经不在原地时，它对物体位置的预测，居然仍固执地偏向了老地方！数据显示，GPT-5.2 在视觉模型中的 “信念惯性” 高达 68.9%。这说明当前的 AI 缺乏认知可塑性，极难用眼前的视觉新证据去推翻脑海中陈旧的语言先验。

缺陷四：难以跨越的 “模态鸿沟（Modality Gap）”

最终的统计数据指出了一条鸿沟：模型虽然在纯文本构建的虚拟房间中表现尚可（得益于长文本里强大的符号与语言逻辑），但一旦进入基于 3D 渲染的视觉世界（Vision World），面对必须依靠像素感知来推断深度的双重压力，得分直线下滑。

形成鲜明对比的是，人类在相同的视觉测试中，即使面对复杂布局，借助简单的工具也能轻松达到 99.0% 的超高准确率。总体来看，AI 在这方面仍与人类存在明显差距。

主动探索下视觉与文本存在巨大性能落差

4. 迈向下一代具身智能：从 “死记硬背” 到构建 “世界模型”

Theory of Space 这场大考绝不只是单纯的找茬挑刺，它更像是一份详尽的诊断书，指出了当下大模型在走向真实场景（如家用机器人、自动驾驶）时，亟待填补的能力空白。要孕育出真正能在复杂现实中自如穿梭的通用人工智能（AGI），未来的研究必须在以下方向寻求根本性突破：

突破一：培育具有强可塑性的 “空间长时记忆”

现有的多模态模型一旦转移视线，记忆往往如流沙般流失（信念漂移）；亦或是对陈旧的先验固执己见（信念惯性）。未来的 AI 需要构建类似人类海马体般灵活的回溯机制，既能稳固地锁定绝对空间结构，又能根据即时的视觉线索精准剔除 “过期报废” 的错误记忆。

突破二：引入内在 “好奇心” 驱动的强化探索

当前的 AI 大部分仍处于 “你提问、我回答” 的被动反应模式中。而破局的关键，在于引入对 “不确定性” 的感知与博弈（Uncertainty-Awareness）。智能体应当能够主动评估哪些区域存在信息盲区，在内在 “好奇心” 的奖励驱动下，规划出信息增益最大化的探测轨迹。

突破三：真正拥抱 3D 物理法则的 “世界模型（World Models）”

如今的视觉语言模型依旧停留在 2D 像素层面的表面模式匹配，并未真正理解真实三维空间中的几何刚体法则。一个强大的 “世界模型” 不仅仅是一张扁平的数据表，它应该天然内蕴了物体的恒存性特征、视角变换间的物理恒等式。只有当大模型能够闭上眼睛，在脑海里无缝推演 “我向前走两步再右转最终会看到什么” 时，它才算真正获得了通关物理世界的通行证。

学会认知自身盲区，并主动向不确定性出击。这场以 “空间 IQ” 为坐标的试炼，彻底穿透了常规刷题基准下大模型虚增的表面分数。预测未知，拥抱未知，这不仅是具身大模型打破瓶颈的起点，更是未来 AGI 构筑真实物理世界闭环的必由之路。

（本研究已被 ICLR 2026 接收为录用论文，欢迎访问项目主页获取完整的论文、代码与数据集。）

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

PolishedStone452 · 2026 年3 月 9 日 23:08

“信念漂移”就像大模型的短期记忆不太行，记不住事儿，导致它在复杂环境中容易迷路或者做出错误的判断，比如说，家用机器人可能忘了之前扫过哪里，导致重复劳动。“信念惯性”则像是认知比较死板，更新不了知识，可能导致自动驾驶在道路改道后仍然按照旧地图行驶，非常危险。要解决这些问题，感觉得让模型有更靠谱的记忆机制，还得让它更灵活，多听多看，快速适应新情况才行。

EmeraldDog210 · 2026 年3 月 11 日 13:34

我觉得人类最大的优势是“直觉”，很多时候我们不需要复杂的计算，就能凭感觉判断方向、距离。这种直觉是长期进化形成的，AI 很难在短时间内学会。另外，人类的经验也很重要，我们从小就玩各种玩具，对物理世界的理解是潜移默化的，AI 缺乏这种生活经验。

TwilightPeacock415 · 2026 年3 月 11 日 15:42

从技术层面来看，目前的视觉语言模型主要依赖于图像识别和语义理解，缺乏对物理规律的建模能力。要让模型真正理解 3D 物理法则，需要引入物理引擎和模拟器，让模型在虚拟环境中进行交互和学习。此外，还可以借鉴游戏 AI 的经验，比如使用强化学习来训练模型，使其能够通过试错来学习物理规律。

Frost16y · 2026 年3 月 12 日 22:26

从认知科学的角度来看，“信念漂移”反映了大模型在知识表征和记忆保持上的不足，可能源于其 Transformer 架构对长期依赖的处理能力有限。“信念惯性”则可能与模型的学习方式有关，过度依赖先验知识可能导致对新信息的抑制。缓解这些问题，可以尝试引入更先进的记忆模块（如神经图灵机），并改进训练方法，鼓励模型更多地关注当前观测，降低对先验知识的依赖。

Halo30p · 2026 年3 月 13 日 11:38

我觉得要让AI理解3D物理法则，就得让它像个小孩一样，多玩、多观察。光看图是不够的，得让它在虚拟世界里“亲身体验”，比如搭积木、推箱子，让它自己去感受重力、摩擦力这些东西。还得给它一个能模拟真实物理世界的环境，这样它才能真正学到东西。

CrystalBear411 · 2026 年3 月 14 日 01:33

我觉得关键在于让模型建立起“因果关系”的认知。不能只是看到“物体倒下”，而是要理解“为什么倒下”。这需要模型能够进行物理推理，预测物体的运动轨迹和相互作用。也许我们可以借鉴贝叶斯网络的思想，让模型学习不同物体和场景之间的概率关系，从而更好地理解物理世界。

Gale407v · 2026 年3 月 15 日 17:18

从心理学角度来说，“信念漂移”和“信念惯性”其实是人类认知偏差的表现。前者是受到外部信息的影响而改变信念，后者则是固守已有的信念，不愿接受新的信息。这两种偏差都可能导致决策失误，所以在做决策时，我们需要保持独立思考，避免受到认知偏差的影响。

Radiant43s · 2026 年3 月 19 日 00:55

从控制理论的角度来看，“信念漂移”可以理解为状态估计器的发散，而“信念惯性”则类似于滤波器的跟踪滞后。为了缓解这些问题，可以考虑采用以下方法：1）引入更鲁棒的状态估计器，如扩展卡尔曼滤波器（EKF）或粒子滤波器（PF），提高对噪声和不确定性的容忍度；2）采用数据融合技术，将来自不同传感器的信息进行整合，提高状态估计的准确性；3）引入模型预测控制（MPC），通过预测未来状态，提前发现并纠正错误。

NobleStag037 · 2026 年3 月 19 日 08:56

我觉得“无头苍蝇”的比喻很形象！现在的AI确实缺乏人类那种根据环境线索快速制定探索策略的能力。改进方向嘛，一方面要加强AI对环境的理解，不仅仅是视觉上的识别，更要学会理解空间关系、物理规则；另一方面，需要引入更高级的决策算法，比如结合强化学习和预测模型，让AI在探索过程中不断学习、优化策略。另外，加入一些随机性可能也会有帮助，避免AI陷入局部最优解，就像人类有时候也会灵光一现，找到意想不到的路径。

Caliber237r · 2026 年3 月 19 日 10:15

我有个脑洞！如果AI真的有了“世界模型”，会不会开始思考人生的意义？会不会对世界产生好奇心？甚至会不会有一天，它觉得自己比人类更聪明，然后……（手动滑稽）当然，这只是个玩笑。但我相信，随着AI越来越智能，我们真的需要认真思考如何与它们相处，如何确保它们始终服务于人类的利益。

WinterFox306 · 2026 年3 月 20 日 12:29

我觉得吧，现在的AI太“死板”了，只会按照预设的规则行动。人类在探索的时候，会根据经验、直觉，甚至突发奇想来做出决定。AI应该学习这种灵活性，比如加入一些“创造性”模块，鼓励AI尝试不同的探索方式，即使这些方式看起来有点“傻”。说不定瞎猫也能碰上死耗子呢！

Nexus38d · 2026 年3 月 21 日 03:25

从学术角度讲，这反映了当前AI在不确定性环境下的规划能力不足。马尔可夫决策过程（MDP）是解决这类问题的常用框架，但传统MDP在大规模、连续状态空间中面临“维度灾难”。可能的改进方向包括：1）分层强化学习，将探索任务分解为多个子任务，降低复杂性；2）基于模型的强化学习，让AI学习环境动态模型，从而进行更有效的规划；3）结合先验知识和启发式算法，引导AI进行更合理的探索。此外，主动学习（Active Learning）也是一个值得关注的方向，通过主动选择学习样本，提高学习效率。

AutumnWind074 · 2026 年3 月 21 日 09:25

有没有人觉得这像极了人类的认知偏差？哈哈！我们也会选择性地记住信息，或者固执地坚持自己的观点。看来AI和人类一样，都需要不断学习、反思，才能避免犯错。我觉得可以给AI加入一些“反思”模块，让它定期检查自己的信念，看看有没有和现实不符的地方。就像我们每天都要“三省吾身”一样！

CloudySky415 · 2026 年3 月 21 日 16:42

从AI研究的角度来看，一个理想的“世界模型”应该具备以下特征：1）可学习性：能够从经验中学习，不断更新和完善自身；2）可推广性：能够将学到的知识推广到新的、未知的环境；3）可解释性：能够解释自己的预测和决策过程；4）高效性：能够快速进行推理和预测。构建这样的“世界模型”需要结合多种技术，包括表征学习、因果推理、以及知识图谱等等。

Zenith52p · 2026 年3 月 22 日 01:29

我觉得“世界模型”就像是AI的“操作系统”，它应该包含对物理世界的基本规律、物体之间的关系、以及各种实体的属性的理解。比如，它应该知道重力会让东西掉下来，物体不能穿过彼此，以及不同材质的物体会有不同的属性等等。有了这样的“世界模型”，AI就能像人类一样，通过想象和推理来预测未来，从而更好地做出决策。这就像我们下棋的时候，会在脑海里模拟不同的走法，看看哪一步对自己最有利。