大模型的空间推理能力:AI 发展的下一个关键挑战?

大模型空间推理能力不足,与人类存在差距,成为AI发展新挑战。

原文标题:「空间推理」成大厂竞逐焦点,为什么让大模型理解「内外远近」更重要?

原文作者:机器之心

冷月清谈:

最近,纽约大学、耶鲁大学和斯坦福大学的研究人员发现,多模态大语言模型 (MLLM) 在空间推理能力上与人类存在显著差距。空间推理是指理解和推断物体之间空间关系、运动和相互作用的能力,它对于在现实世界中应用 AI 至关重要,例如环境导航、地图理解和物体操作等。

这项研究使用了名为 “VSI-Bench” 的视频基准测试来评估 MLLM 理解和记忆空间信息的能力。结果显示,MLLM 在空间推理方面,尤其是在理解“内”、“外”、“近”、“远”等基本概念以及更复杂关系上,表现不佳。

当前,谷歌、微软等科技巨头和 AI 创业公司正在积极探索如何增强模型的空间推理能力。一些研究方向包括直接整合 3D 数据、从多视角图像重建场景等。例如,李飞飞创立的 World Lab 发布了首个项目“使用单图生成 3D 世界”,谷歌计划将其 Gemini 2.0 模型的空间推理能力应用于机器人领域,与 Apptronik 合作开发能够在复杂环境中工作的 AI 人形机器人。

空间推理能力是实现空间智能的核心,也是未来 AI 发展的重要方向。

怜星夜思:

1、如果大模型真正理解了空间关系,除了文章提到的机器人领域,还会对哪些领域产生影响?
2、文章提到MLLM在空间推理上与人类有差距,这种差距的本质是什么?是算力不足还是算法本身的缺陷?
3、如何改进MLLM的空间推理能力?有哪些可行的研究方向?

原文内容

机器之心PRO · 会员通讯 Week 52

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 「空间推理」成大厂竞逐焦点,为什么让大模型理解「内外远近」更重要?
空间推理是什么?为什么各家大厂都在布局空间推理方向?实现空间推理需要具备哪些能力?有哪些难点?不同大厂、创企在空间推理方面的技术研究方向有什么异同?空间推理可能对哪些领域的实际应用产生重要影响?...
2. 模型越强,公司越怂?
为什么模型越强的公司战略越保守?LLM 的问题如何从「蠢」转移到「坏」?越先进的模型越会伪装?现有对齐方法反而会起反效果?头部 AI 厂商有哪些新的安全措施?...
3. LeCun 深度访谈:FAIR 追求的是「大概念模型」
LeCun 为什么说 AGI 只要 5-10 年?什么是「大概念模型」?LeCun 如何解读 AI 的「情感」?LeCun 对开源的态度有什么变化?为什么 LeCun 认为担忧 AI 未来的潜在风险为时过早?...

...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 10 项,国外方面 8 项。
本期通讯总计 25269 字,可免费试读至 6% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读① 「空间推理」成大厂竞逐焦点,为什么让大模型理解「内外远近」更重要?
日期: 12 月 23 日
事件来自纽约大学、耶鲁大学、斯坦福大学的李飞飞、谢赛宁等研究者近期发布了一项新工作,探究了多模态大语言模型(MLLM)是否具备具备视觉空间智能(visual-spatial intelligence)。研究发现,MLLMs 在空间推理方面的能力与人类相比有显著差距,而空间推理对人类智能至关重要。此外,谷歌、微软等大厂、AI 创企也在推进关于空间推理的技术研究,探究从不同角度和方法来增强模型的空间推理能力。
各家大厂抢占布局「空间推理」,模型理解「内外远近」空间概念为何如此重要?
1、在纽大、耶鲁等机构的这项新工作中,研究者通过探究 MLLMs 在语言和视觉方面如何进行空间思考,发现空间推理能力是 MLLMs 性能提升的主要瓶颈。
2、空间推理是指理解和推理物体之间的空间关系、它们的运动和相互作用的能力,要求模型能够识别物体间的关系,并通过距离和方向进行推理。
3、不同于 LLM 等仅关注处理结构化的数据和遵循预定义的规则,模型在现实的物理世界中的应用,如环境导航、地图理解和物体操控等,需要具备更为复杂、细致的 3D 空间推理能力。 空间推理在增强现实、机器人等领域的重要性不言而喻。
4、空间推理是实现空间智能的核心关键部分。目前,模型在空间推理方面仍然面临种种挑战,要求模型需要具备对空间信息的真正理解,现有的模型仍难以区分简单的空间概念,例如「内」和「外」以及「近」和「远」以及更复杂的关系。
5、近期,业内关于空间智能、空间推理方面的探索、进展颇多。如李飞飞的创业公司「World Lab」发布了其首个项目「使用单图生成 3D 世界」;谷歌计划将其 Gemini 2.0 多模态模型所具备的空间推理能力应用于机器人领域,机器人公司 Apptronik 达成合作开发在复杂环境中工作的 AI 人形机器人等。
① 同时,谷歌、微软等大厂、AI 创企也在推进关于空间推理的技术研究,探究从不同角度和方法来增强 VLMs 和 LLMs 的空间推理能力,包括直接的 3D 数据整合、从多视图图像中重建场景等,在技术路线上各有差异。
表:部分公司近期在空间推理领域的技术进展(不完全统计)
从 2D 到 3D 真实物理环境,模型完成空间推理需要具备哪些能力?难点在哪?
在纽大、耶鲁等机构的新工作中,研究者将视觉空间智能所需能力分为视觉感知、语言智能、时间处理和空间推理四类,进一步将空间推理细分成关系推理、自我中心-环境中心转换两方面能力。
1、在纽大、耶鲁等机构的新工作中,研究者通过构建名为「VSI-Bench」的视频基础视觉空间智能基准测试,来评估研究多模态大型语言模型(MLLMs)在理解和记忆空间信息方面的能力。
① 研究发现,尽管 MLLMs 在视觉空间智能方面展现出一定的竞争力,但与人类相比仍有显著差距,特别是在空间推理方面;
② 研究发现,传统的语言推理技术并不能提升 MLLMs 在空间任务上的表现,而生成认知地图则有助于提高模型在空间距离问题上的回答能力。
2、在该工作中,研究者提出了视觉空间智能的能力框架,并详细描述了空间推理所需的能力。

针对这个问题,我认为可以尝试将3D数据直接整合到模型的训练中,或者开发更有效的算法来从2D图像中提取空间信息。另外,多模态学习也是一个很有前景的方向,可以结合视觉、语言等多种信息来提升空间推理能力。

我觉得差距的本质更可能是算法本身的缺陷。人类对空间的理解是建立在长期的经验和进化基础上的,而目前的MLLM主要还是依赖于数据训练。即使算力再强,如果没有合适的算法和训练方法,也很难真正理解空间的概念。

对啊,除了这些,我觉得在医疗领域也会很有用。比如手术机器人,如果能更好地理解空间关系,手术精度会更高,创伤更小。还有医学影像分析,可以更准确地识别病灶的位置和大小。

我感觉两者都有关系。一方面,现有的算法可能还没有完全捕捉到人类空间推理的机制;另一方面,空间推理本身可能需要非常庞大的算力来支持,现有的算力可能还不够。就像要模拟整个宇宙的运行,肯定需要超级计算机才行。

关于“如何改进MLLM的空间推理能力”,我觉得可以借鉴人类学习空间关系的方式,比如让模型在虚拟环境中进行训练,或者加入一些物理引擎,让模型能够感知虚拟物体的运动和碰撞。

我认为更偏向于算法缺陷。你看AlphaGo在围棋上已经超越了人类,但它在空间推理任务上可能还不如一个小孩。这说明空间推理和逻辑推理是不同的,需要不同的算法来解决。

我觉得如果大模型真的能理解空间关系,那自动驾驶肯定会有一个飞跃。现在自动驾驶对环境的理解还是比较依赖于传感器的数据,如果有了空间推理能力,就可以更好地预测其他车辆和行人的行为,更安全也更智能。

关于这个问题,我觉得可以从认知科学的角度入手,研究人类是如何进行空间推理的,然后尝试将这些认知机制融入到模型的设计中。也可以探索一些新的神经网络架构,比如图神经网络,可能更适合处理空间关系。

空间推理能力如果突破,虚拟现实和增强现实领域绝对会受益匪浅。想象一下,戴上VR眼镜,系统可以根据你的空间位置实时渲染场景,或者在AR应用中,虚拟物体可以更自然地融入现实环境,交互也会更加真实。