SeeGround:无需3D训练数据,AI也能精准定位三维物体

SeeGround提出了一种全新的零样本3D视觉定位框架,无需3D训练数据,仅通过2D视觉语言模型即可实现精准的3D物体定位,为相关领域提供了更高效的解决方案。

原文标题:CVPR 2025 | Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

原文作者:机器之心

冷月清谈:

香港科技大学(广州)等机构的研究团队提出了名为SeeGround的零样本3D视觉定位(3DVG)框架。该框架无需任何3D训练数据,仅利用2D视觉语言模型(VLM)即可实现3D物体定位。其核心在于透视自适应模块(PAM)和融合对齐模块(FAM),前者通过动态视角选择,确保VLM准确理解物体的空间关系,后者通过视觉提示增强技术,将2D图像中的物体与3D坐标信息对齐。实验结果表明,SeeGround在多个基准测试中显著超越了现有零样本方法,该方法通过创新设计,成功解决了现有零样本方法在视觉细节和空间推理上的不足,为增强现实、机器人导航和智能家居等领域提供了更高效、灵活的3D物体定位方案。

怜星夜思:

1、SeeGround 框架如何解决 VLM 在 3D 物体定位中遇到的空间关系推理难题?
2、SeeGround 如何将 2D 视觉信息与 3D 空间坐标对齐,以提高定位精度?
3、SeeGround 在哪些实际应用场景中具有潜力?它相比于传统的 3D 视觉定位方法有哪些优势?

原文内容


3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。

具体而言,给定一个 3D 场景和一段文本描述,模型需要准确预测目标物体的 3D 位置,并以 3D 包围框的形式输出。相比于传统的目标检测任务,3DVG 需要同时理解文本、视觉和空间信息,挑战性更高。

图片
图片

之前主流的方法大多基于监督学习,这类方法依赖大规模 3D 标注数据进行训练,尽管在已知类别和场景中表现优异,但由于获取 3D 标注数据的成本高昂,同时受限于训练数据分布,导致它难以泛化到未见过的新类别新环境。为了减少标注需求,弱监督方法尝试使用少量 3D 标注数据进行学习,但它仍然依赖一定数量的 3D 训练数据,并且在开放词汇(Open-Vocabulary)场景下,模型对未见物体的识别能力仍然受限。

最近的零样本 3DVG 方法通过大语言模型(LLM)进行目标推理,试图绕开对 3D 训练数据的需求。然而,这类方法通常忽略了 3D 视觉细节,例如物体的颜色、形状、朝向等,使得模型在面对多个相似物体时难以进行细粒度区分。这些方法就像让 AI “闭着眼睛” 理解 3D 世界,最终导致模型难以精准定位目标物体。

因此,如何在零样本条件下结合视觉信息与 3D 空间关系,实现高效、准确的 3DVG,成为当前 3D 视觉理解领域亟待解决的问题。
                         

为此,来自香港科技大学(广州)、新加坡 A*STAR 研究院和新加坡国立大学的研究团队提出了 SeeGround:一种全新的零样本 3DVG 框架。该方法无需任何 3D 训练数据,仅通过 2D 视觉语言模型(VLM)即可实现 3D 物体定位。其核心创新在于将 3D 场景转换为 2D-VLM 可处理的形式,利用 2D 任务的强大能力解决 3D 问题,实现对任意物体和场景的泛化,为实际应用提供了更高效的解决方案。

SeeGround 已被 CVPR 2025 接收,论文、代码和模型权重均已公开。


  • 论文标题:SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding

  • 论文主页:https://seeground.github.io

  • 论文地址:https://arxiv.org/pdf/2412.04383

  • 代码:https://github.com/iris0329/SeeGround


SeeGround:用 2D 视觉大模型完成 3D 物体定位

如图所示,SeeGround 主要由两个关键模块组成:透视自适应模块(PAM)和融合对齐模块(FAM)。PAM 通过动态视角选择,确保 VLM 能够准确理解物体的空间关系;FAM 则通过视觉提示增强技术,将 2D 图像中的物体与 3D 坐标信息对齐,提升定位精度


透视自适应模块(Perspective Adaptation Module, PAM)

在 3D 物体定位任务中,直接使用一个固定视角将 3D 场景渲染为 2D 图像(如俯视图)虽然能提供物体的颜色、纹理等信息,但却存在一个关键问题 ——VLM 本质上是基于平面的视觉感知模型,它只能 “看到” 图像中的物体,而无法推理 3D 物体的空间位置,比如前后、左右关系。

因此,如果描述中涉及相对空间位置(如 “桌子右边的椅子”),VLM 很可能误判。例如,在俯视视角下,桌子和椅子的相对位置可能会因透视投影而发生变化,原本在桌子右边的椅子可能会被误认为在左边,而 VLM 只能依赖 2D 图像中的视觉特征,无法推断物体在三维空间中的实际位置。直接使用固定视角渲染的 2D 图像作为输入,会导致模型在涉及空间位置关系的任务上表现不佳。


为了解决这个问题,SeeGround 设计了一个动态视角选择策略,先解析用户输入的文本,识别出描述中涉及的锚定物体(anchor object),即用于参考空间关系的对象。随后,系统根据锚定物体的位置计算最佳观察角度,调整虚拟摄像机,使其从更符合人类直觉的角度捕捉场景,确保 VLM 可以准确理解物体的空间关系。最终,SeeGround 生成一张符合查询语义的 2D 图像,该图像能够更清晰地呈现目标物体与其参考物体的相对位置,使 VLM 具备更强的 3D 关系推理能力。这一策略不仅提高了 VLM 在 3D 物体定位任务中的准确率,同时也避免了因固定视角导致的方向性误判和遮挡问题,使得零样本 3DVG 任务在复杂环境下依然具备稳定的泛化能力。

融合对齐模块(Fusion Alignment Module, FAM)

透视自适应模块(PAM)能够为 VLM 提供更符合任务需求的观察视角,但即使如此,VLM 仍然面临一个关键挑战:它无法直接推理 3D 物体的空间信息,也无法自动对齐 2D 渲染图中的物体与 3D 位置描述中的物体

SeeGround 将 3D 场景表示为 2D 渲染图像 + 文本 3D 坐标信息,然而,当 VLM 看到 2D 渲染图像时,它并不知道图中的椅子对应的是哪个 3D 坐标。这意味着,如果场景中有多个相似物体(如多把椅子),VLM 可能会误解 2D 图像中的目标物体,导致错误的 3D 预测。


SeeGround 通过视觉提示增强(Visual Prompting) 技术,在 2D 渲染图像中标注出关键物体的位置,使 VLM 能够识别出 2D 画面中的具体目标物体,并将其与 3D 坐标数据关联。

首先,SeeGround 使用对象查找表(Object Lookup Table) 来获取场景中的所有物体的 3D 坐标。然后,使用投影技术将 3D 物体的空间位置转换为 2D 图像中的对应位置,并在渲染图像上添加可视化标注,以便 VLM 在推理时能够准确识别出目标物体。同时,在文本描述输入部分,SeeGround 进一步增强了 3D 物体的空间描述,使 VLM 在推理时能够结合 2D 视觉特征和 3D 坐标信息,从而准确匹配目标物体。

实验结果

为了验证 SeeGround 在零样本 3D 视觉定位(3DVG)任务中的有效性,作者在 ScanRefer 和 Nr3D 数据集上进行了广泛的实验。结果表明,SeeGround 在多个基准测试中显著超越了现有零样本方法,并在某些任务上接近弱监督甚至全监督方法的性能。


此外,在对比实验中,即使去除部分文本信息,SeeGround 仍然能够利用视觉线索进行准确定位,进一步验证了该方法在不完全信息条件下的稳健性。

作者专门设计了一个场景,即让模型在文本描述缺失关键物体信息的情况下,尝试定位目标物体:在 “请找到打印机上方的柜子” 这一查询任务中,文本输入被刻意去除了 “打印机” 和 “柜台” 等关键信息,仅提供物体类别及其位置信息。


在这种情况下,仅依赖文本推理的 LLM 由于无法获取必要的上下文信息,错误地匹配到了错误的柜子。而 SeeGround 通过 VLM 结合视觉信息成功识别出图像中的打印机,并准确定位其上方的柜子。

这一特性进一步提升了 SeeGround 在复杂现实环境中的适用性,使其能够在 3D 物体定位任务中表现出更强的稳健性和泛化能力


结论

SeeGround 通过无需 3D 训练数据的创新设计,成功解决了现有零样本方法在视觉细节和空间推理上的不足,显著提升了 3DVG 任务的泛化能力。这一突破为增强现实、机器人导航和智能家居等领域提供了更高效、灵活的 3D 物体定位方案。

作者介绍

SeeGround 是香港科技大学(广州)、新加坡 A*STAR 研究院和新加坡国立大学团队的合作项目。

本文的第一作者为港科广博士生李蓉,通讯作者为港科广 AI Thrust 助理教授梁俊卫。其余作者包括新加坡国立大学博士生孔令东,以及 A*STAR 研究院研究员李仕杰和 Xulei Yang。


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

从实现细节来看,FAM 模块利用对象查找表获取场景中所有物体的 3D 坐标,然后使用投影技术将 3D 位置转换为 2D 图像中的对应位置。这种方法确保了 VLM 在推理时能够准确识别出目标物体,避免了因场景中存在多个相似物体而导致的误判。

这个让我想到了以前玩AR游戏的时候,手机摄像头识别现实场景,然后在屏幕上叠加虚拟物体。SeeGround 的 FAM 模块也有点类似,它通过在 2D 图像上添加可视化标注,告诉 VLM “嘿,这个椅子对应的是这个 3D 坐标”,这样 VLM 就能准确地把 2D 图像中的物体和 3D 坐标关联起来了。

SeeGround 使用融合对齐模块,通过视觉提示增强技术解决这个问题。它在 2D 渲染图像中标注出关键物体的位置,并增强了 3D 物体的空间描述,使 VLM 能够结合 2D 视觉特征和 3D 坐标信息,从而准确匹配目标物体。

我觉得在机器人导航方面,SeeGround 可以让机器人更好地理解人类指令,例如 “把桌子上的遥控器递给我”,机器人可以通过 SeeGround 快速定位遥控器的位置。而且,由于 SeeGround 不需要大量的 3D 训练数据,因此可以很容易地部署到新的环境中。

SeeGround 在增强现实、机器人导航和智能家居等领域具有很大的应用潜力。它最大的优势在于无需 3D 训练数据,这大大降低了数据标注成本,并且能够泛化到未见过的类别或环境,提高了模型的适用性和灵活性。

SeeGround 采用透视自适应模块有效解决了这个问题。它通过动态视角选择,模拟人类观察习惯,让 VLM 能从更直观的角度观察 3D 场景,从而更准确地理解物体间的空间关系,避免了固定视角可能造成的误判。

从技术角度讲,PAM 模块通过分析文本描述,识别锚定物体,并根据锚定物体的位置计算最佳观察角度。这种方法避免了固定视角可能导致的方向性误判和遮挡问题,提高了模型在复杂环境下的泛化能力。我觉得这个思路挺巧妙的。

我觉得关键在于 SeeGround 没有直接让 VLM 处理 3D 数据,而是巧妙地把 3D 场景转换成 2D 图像,然后通过 PAM 模块优化视角,让 VLM 能够更好地理解空间信息,这就像是给 AI 配了一副合适的眼镜,让它能看清 3D 世界。

从技术角度来看,传统的 3D 视觉定位方法依赖大规模的 3D 标注数据进行训练,这限制了它们在开放词汇场景下的应用。SeeGround 通过结合 2D 视觉语言模型和创新的模块设计,实现了零样本 3D 视觉定位,这为解决实际问题提供了更高效、灵活的解决方案。