空间智能Agent:走向主动行动的关键缺失

空间智能是AI新前沿,但Agent要实现自主行动,需补足空间尺度上的缺失。AtlasPro AI提出三维分类体系和关键研究方向。

原文标题:空间智能视角下,Agent 要补足哪些缺失来完成「Action」?

原文作者:机器之心

冷月清谈:

本文对空间智能Agent的发展现状和未来方向进行了分析。空间智能被认为是AI的下一个前沿方向,吸引了产业界和学术界的广泛关注和大量投入。文章首先介绍了World Labs在空间智能领域的进展,以及学界在空间超感知、具身空间推理和空间表征等方向的研究。研究指出,目前对空间智能的探索较为分散,未能将智能体能力和空间任务形成统一整合。AtlasPro AI的工作提出了Spatial AI Agent的三维分类体系,即Spatial Task、Agentic Capability和Spatial Scale,并在此基础上提出了层级记忆、GNN‑LLM集成和世界模型三个关键研究方向,旨在弥合Agent与自主主动行动能力之间的差距。

怜星夜思:

1、你认为在Spatial AI Agent的三个维度(Spatial Task、Agentic Capability 和 Spatial Scale)中,哪个维度目前的发展最为滞后?为什么?
2、文章提到层级记忆体系是Spatial AI Agent的关键研究方向之一。你认为如何设计一个有效的层级记忆体系,才能更好地支持Agent的行动?
3、文章提到GNN‑LLM 集成是关键研究方向,能否展开聊聊,将图神经网络(GNN)与大型语言模型(LLM)集成,在空间智能领域有哪些潜在的应用场景?又会面临哪些挑战?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


当前,空间智能已被明确为 AI 领域的核心前沿方向,产业布局、资本投入和评测体系迭代同步提速,推动该领域从理论探索迈入产业化初期。在空间智能的视角下,业界开始探究制约 Agent 行动能力的因素,揭示了当前工作对「空间尺度」忽视及相关改进方向。


目录

01. 2026 年,空间智能最大的瓶颈是什么?

2026 年空间智能研究主要集中在哪些方向?...

02. 从感知到行动, Spatial AI Agent 还缺什么?

Spatial AI Agent 的研究范式如何从被动观察转向主动行动系统构建?层级记忆体系包含哪些类型的记忆且各有什么作用?...

03. 近期工作如何解决空间智能记忆和推理等问题?

近期世界模型相关工作如何提升智能体对行动后果的预测精度?结构化推理方向为何需借助外显图结构组织空间推理?...


2026 年,空间智能最大的瓶颈是什么?

1、自李飞飞于 2024 年成立 World Labs,空间智能的概念迅速得到业界的广泛关注,并被视为 AI 的下一个前沿方向。截止目前,World Labs 已完成多轮高额融资,并陆续公布了多项研究进展与成果。

李飞飞创办的 World Labs 于 2026 年 2 月完成 10 亿美元新一轮融资,投资方涵盖英伟达、AMD、Autodesk 等产业巨头及 a16z 等投资机构,公司成立仅 16 个月,累计融资规模已达约 13 亿美元。[1-1][1-2]

② 2025 年 11 月至 2026 年 1 月,World Labs 先后发布了 Marble 多模态世界模型和 World API,Marble 可基于文本、图像、视频及粗粒度 3D 布局完成 3D 世界的生成、编辑与导出,World API 则将可漫游 3D 世界能力转化为标准化接口,降低了空间智能的落地应用门槛。[1-3][1-4]

2、在 World Labs 外,学界对空间智能的关注带动了一系列研究工作涌现,覆盖了空间超感知、具身推理和空间表征等方向。

① 空间超感知方向,2025 年 11 月 Yann LeCun、李飞飞、Rob Fergus 等学者提出 "空间超感知" 概念,通过时空特征的细粒度建模,实现视频中动态场景的空间结构、运动轨迹与物理约束的一体化理解,为空间智能提供了新的理论范式。[1-5]

② 具身空间推理方向,2026 年 3 月李飞飞和贾佳俊团队联合提出了 Reflective Test-Time Planning 框架,使具身智能体具备类人反思能力,通过行动前模拟预判与行动后复盘优化,提升空间任务中的决策效率与容错能力。[1-6]

③ 空间表征方向,2025 年 11 月上海 AI Lab 等提出了 G²VLM 系统,该系统能够同时进行 3D 空间重建和高级空间推理,通过融合视觉感知、几何推理与语言理解模块,实现对 3D 场景的细粒度分析与语义交互,解决了传统模型在空间任务中存在的感知与推理脱节问题。[1-7]

3、基于一众空间智能主题的工作,近期有研究发现学界对空间智能的探索多分散于不同任务场景,仅聚焦智能体架构,或仅单独探讨空间领域问题,未能将智能体能力和空间任务形成统一整合。

① 2026 年 2 月,空间智能公司 AtlasPro AI 发布的《From Perception to Action: Spatial AI Agents and World Models》工作以 2018—2026 年为研究窗口,梳理 2000 余篇相关文献,引用 742 篇核心论文,将 Spatial AI Agent 划分为 Spatial Task、 Agentic Capability 和 Spatial Scale 三个维度,并在该维度框架下提出了层级记忆、GNN‑LLM 集成和世界模型三个关键研究方向。


从感知到行动, Spatial AI Agent 还缺什么?[1-8]

1、AtlasPro AI 在 2026 年 2 月的「From Perception to Action」工作中梳理了针对 Spatial AI Agent 的三轴分类体系,涵盖 Spatial Task、Agentic Capability 和 Spatial Scale,进而探究了当前 Spatial AI Agent 距离获得自主主动行动能力所缺失的关键能力...


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

楼上说的有道理,层级记忆的关键在于不同层级记忆功能的划分。短期记忆负责快速反应,长期记忆负责知识积累,元记忆负责智能调度。我觉得还可以借鉴人类的记忆模型,比如情景记忆和语义记忆,分别存储具体的经验和抽象的知识。另外,层级记忆体系还需要具备一定的可解释性,方便我们理解Agent的决策过程。

我觉得Spatial Scale(空间尺度)可能是目前最滞后的。现在很多研究都集中在Agent的能力和任务本身,但往往忽略了真实世界中尺度的复杂性。比如,一个在室内导航表现很好的Agent,可能在室外复杂的环境中就完全失效了。所以,如何让Agent更好地理解和适应不同尺度的空间,是一个很大的挑战。

我关注到另一个有意思的点:GNN可以用来增强LLM的空间推理能力。现在的LLM虽然很强大,但对空间关系的理解还是比较薄弱。我们可以用GNN来学习空间知识,然后将这些知识注入到LLM中,让LLM更好地理解空间信息。比如,我们可以训练一个GNN来预测物体之间的空间关系,然后用这些预测结果来指导LLM的文本生成。

别忘了GNN和LLM的计算成本都很高,如何设计一个高效的GNN‑LLM集成框架是一个很大的挑战。可以考虑一些模型压缩和加速技术,比如模型剪枝、量化等等。另外,GNN和LLM的联合训练也需要一些技巧,比如课程学习、对抗训练等等。

我倒觉得Agentic Capability(智能体能力)更加滞后。现在很多Agent还是依赖大量数据训练,泛化能力不足。在真实的空间环境中,Agent需要具备更强的推理、规划和决策能力,才能应对各种突发情况。而且,Agent还需要具备一定的自我学习和适应能力,才能不断提升自己的性能。

设计有效的层级记忆体系,我觉着要分几步走。首先,得有短期记忆,快速记录当前的感知信息和行动历史,这部分可以用RNN或者Transformer实现。然后,要有长期记忆,存储一些先验知识和经验,这部分可以用知识图谱或者向量数据库来做。最后,还要有一个元记忆,用来管理和组织这些记忆,指导Agent在合适的时机提取合适的记忆。这个元记忆可能需要用到强化学习或者元学习。

GNN擅长处理结构化数据,LLM擅长处理非结构化数据,空间智能恰好需要两者结合。比如,我们可以用GNN来表示3D场景的几何结构,用LLM来理解场景中的语义信息,然后将两者结合起来,让Agent更好地理解和推理空间关系。应用场景嘛,像智能导航、机器人操作等等都可以用上。挑战也很明显,GNN和LLM的训练方式和数据格式不太一样,如何有效地融合两者是一个难题。

我偏向于一个更简单粗暴的方案:直接用一个超大的Transformer模型来做记忆。Transformer的自注意力机制可以模拟各种复杂的记忆操作,而且可以通过预训练来学习大量的先验知识。当然,这种方案的计算成本会比较高,需要一些优化技巧,比如稀疏注意力或者记忆压缩。