大模型的空间推理能力:瓶颈与突破

大模型空间推理能力不足,限制了其在机器人等领域的应用。最新研究揭示了这一瓶颈,并探讨了提升空间推理能力的途径。

原文标题:为什么让大模型理解「内外远近」更重要?

原文作者:机器之心

冷月清谈:

最近的研究表明,多模态大语言模型(MLLM)在空间推理能力上与人类存在显著差距,这限制了其在现实世界中的应用,例如机器人、增强现实等。空间推理是指理解和推理物体之间的空间关系、运动和相互作用的能力,它要求模型不仅能识别物体间的关系,还能进行距离和方向的推理。

纽约大学、耶鲁大学和斯坦福大学的研究人员创建了一个名为VSI-Bench的基准测试,用于评估MLLM的空间推理能力。结果显示,MLLM在空间推理,特别是理解“内外远近”等基本概念上存在困难。虽然MLLM在视觉空间智能方面有一定进展,但仍难以处理复杂的3D空间信息。

为了提升模型的空间推理能力,谷歌、微软等企业和AI初创公司正在积极探索不同的技术路线,例如直接整合3D数据、从多视图图像重建场景等。李飞飞的World Lab也发布了首个项目,旨在用单图生成3D世界,显示了业内对空间推理的重视。

怜星夜思:

1、如何让模型更好地理解“内外远近”这些基本的空间概念?
2、除了机器人和增强现实,空间推理能力还能在哪些领域发挥作用?
3、文章提到了李飞飞的World Lab,用单图生成3D世界,这项技术对空间推理的发展有什么意义?

原文内容

本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。
来自纽约大学、耶鲁大学、斯坦福大学的李飞飞、谢赛宁等研究者发布了一项工作,探究了多模态大语言模型(MLLM)是否具备具备视觉空间智能(visual-spatial intelligence)。
研究发现,MLLMs 在空间推理方面的能力与人类相比有显著差距,而空间推理对人类智能至关重要。此外,谷歌、微软等大厂、AI 创企也在推进关于空间推理的技术研究,探究从不同角度和方法来增强模型的空间推理能力。

目录

01. 各家大厂抢占布局「空间推理」,模型理解「内外远近」空间概念为何如此重要?

空间推理是什么?为什么各家大厂都在布局空间推理方向?
02. 从 2D 到 3D 真实物理环境,模型完成空间推理需要具备哪些能力?难点在哪?
李飞飞的「空间推理」新工作有哪些突破?实现空间推理需要具备哪些能力?有哪些难点?

03. 谷歌、微软等在空间推理方面有哪些关键技术进展?研究方向上有何差异?

不同大厂、创企在空间推理方面的技术研究方向有什么异同?空间推理可能对哪些领域的实际应用产生重要影响?...

01  各家大厂抢占布局「空间推理」,模型理解「内外远近」空间概念为何如此重要?
1、在纽大、耶鲁等机构的这项新工作中,研究者通过探究 MLLMs 在语言和视觉方面如何进行空间思考,发现空间推理能力是 MLLMs 性能提升的主要瓶颈。
2、空间推理是指理解和推理物体之间的空间关系、它们的运动和相互作用的能力,要求模型能够识别物体间的关系,并通过距离和方向进行推理。
3、不同于 LLM 等仅关注处理结构化的数据和遵循预定义的规则,模型在现实的物理世界中的应用,如环境导航、地图理解和物体操控等,需要具备更为复杂、细致的 3D 空间推理能力。空间推理在增强现实、机器人等领域的重要性不言而喻。
4、空间推理是实现空间智能的核心关键部分。目前,模型在空间推理方面仍然面临种种挑战,要求模型需要具备对空间信息的真正理解,现有的模型仍难以区分简单的空间概念,例如「内」和「外」以及「近」和「远」以及更复杂的关系。
5、近期,业内关于空间智能、空间推理方面的探索、进展颇多。如李飞飞的创业公司「World Lab」发布了其首个项目「使用单图生成 3D 世界」;谷歌计划将其 Gemini 2.0 多模态模型所具备的空间推理能力应用于机器人领域,机器人公司 Apptronik 达成合作开发在复杂环境中工作的 AI 人形机器人等。
① 同时,谷歌、微软等大厂、AI 创企也在推进关于空间推理的技术研究,探究从不同角度和方法来增强 VLMs 和 LLMs 的空间推理能力,包括直接的 3D 数据整合、从多视图图像中重建场景等,在技术路线上各有差异。

表:部分公司近期在空间推理领域的技术进展(不完全统计)

02  从 2D 到 3D 真实物理环境,模型完成空间推理需要具备哪些能力?难点在哪?
在纽大、耶鲁等机构的新工作中,研究者将视觉空间智能所需能力分为视觉感知、语言智能、时间处理和空间推理四类,进一步将空间推理细分成关系推理、自我中心-环境中心转换两方面能力。
1、在纽大、耶鲁等机构的新工作中,研究者通过构建名为「VSI-Bench」的视频基础视觉空间智能基准测试,来评估研究多模态大型语言模型(MLLMs)在理解和记忆空间信息方面的能力。
① 研究发现,尽管 MLLMs 在视觉空间智能方面展现出一定的竞争力,但与人类相比仍有显著差距,特别是在空间推理方面;
② 研究发现,传统的语言推理技术并不能提升 MLLMs 在空间任务上的表现,而生成认知地图则有助于提高模型在空间距离问题上的回答能力。
2、在该工作中,研究者提出了视觉空间智能的能力框架,并详细描述了空间推理所需的能力 ......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

除了数据,模型的架构也很重要。可以考虑引入一些专门处理空间信息的模块,例如图神经网络,它可以很好地表示物体之间的空间关系。或者借鉴认知科学的成果,模拟人脑的空间认知机制。

空间推理在医疗领域也有应用前景,比如医学影像分析,需要医生判断病灶的空间位置和大小。如果模型能辅助医生进行空间推理,就能提高诊断的准确性和效率。

我觉得这项技术可以为模型提供更丰富的3D训练数据,从而提升模型的空间推理能力。毕竟,从2D图像到3D场景的转换本身就需要很强的空间推理能力。

我想到一个比较有趣的思路,能否让模型在虚拟环境中进行训练,就像游戏一样。在虚拟环境中,模型可以自由地探索和交互,从而更直观地学习空间概念。就像我们玩游戏,很容易就能理解“内外远近”这些概念。

我觉得在自动驾驶领域也很重要,自动驾驶汽车需要理解周围环境的空间布局,才能安全行驶。还有像城市规划、室内设计等领域,也需要对空间进行推理和分析。

我觉得可以从训练数据入手,增加更多包含空间关系的数据,比如带注释的3D场景、视频等,让模型学习更丰富的空间信息。就像教小孩一样,多给他看一些空间关系的例子,他自然就明白了。

我想到一个比较科幻的应用,就是虚拟世界构建。如果模型能理解空间关系,就能根据用户的描述自动生成逼真的虚拟场景,想想就觉得很酷!

这项技术也可能推动3D建模技术的普及,让普通人也能轻松创建3D模型。未来,我们或许可以用手机拍一张照片,就能生成一个3D模型,想想就觉得很方便。

关于“如何让模型更好地理解“内外远近”这些基本的空间概念?”这个问题,如果有了更丰富的3D数据,或许能从另一个角度解决这个问题,提供新的思路。