VGGT:Meta与牛津大学联手,Transformer架构开启高效3D视觉新纪元

Meta与牛津大学推出VGGT,一种基于Transformer的通用3D视觉模型,无需后处理即可高效完成3D重建任务,或将开启3D视觉基础模型时代。

原文标题:3D基础模型时代开启?Meta与牛津大学推出VGGT,一站式Transformer开创高效3D视觉新范式

原文作者:机器之心

冷月清谈:

Meta AI 和牛津大学 VGG 团队联合推出了 VGGT 模型,这是一种基于 Transformer 架构的通用 3D 视觉模型。VGGT 能够从单张或多张图像中直接推理出相机参数、深度图、点云和 3D 点轨迹等几何信息,无需任何后处理优化。该模型通过纯前馈设计,结合大规模 3D 标注数据与 Transformer 架构,一次前向传播即可完成全部几何推理任务。实验证明,VGGT 在精度和速度上都超越了传统优化方法和现有 SOTA 模型,尤其是在相机姿势估计、多视图深度估计和点云重建等任务中表现出色。此外,VGGT 还展示了强大的跨任务泛化能力,即使未经过单图训练,也能在单目重建任务中取得接近 SOTA 的水平。VGGT 的成功标志着 3D 视觉领域可能迎来一个由数据驱动的基础模型时代。

怜星夜思:

1、VGGT 模型依赖大规模 3D 数据进行训练,那么训练数据的质量和多样性对模型性能的影响有多大?如果训练数据存在偏差或者覆盖范围有限,模型会受到哪些影响?
2、VGGT 采用纯前馈 Transformer 架构,并在多个 3D 任务中超越了传统优化方法。那么,这种纯前馈架构在 3D 视觉任务中相比于其他架构(例如包含循环连接的 RNN 或 LSTM)的优势是什么?
3、VGGT 在单目重建任务中表现出强大的泛化能力,即使没有经过专门训练也能达到接近 SOTA 的水平。那么,未来是否有可能基于 VGGT 构建一个通用的 3D 视觉基础模型,可以应用于各种不同的 3D 任务,例如自动驾驶、机器人导航、AR/VR 等?

原文内容


仅需一次前向推理,即可预测相机参数、深度图、点云与 3D 轨迹 ——VGGT 如何重新定义 3D 视觉?


3D 视觉领域正迎来新的巨变。牛津大学 VGG (Visual Geometry Group) 与 Meta AI 团队联合发布的最新研究 VGGT(Visual Geometry Grounded Transformer),提出了一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等核心几何信息。无需任何后处理优化,该模型已经在多个 3D 任务中性能显著超越传统优化方法与现有 SOTA 模型,推理速度可达秒级。这一研究打破了过去 3D 任务依赖繁琐几何迭代优化的传统范式,展示了 “越简单,越有效” 的强大潜力。



  • 论文标题:VGGT: Visual Geometry Grounded Transformer

  • 论文链接:https://arxiv.org/abs/2503.11651

  • 代码链接:https://github.com/facebookresearch/vggt

  • 演示平台:https://huggingface.co/spaces/facebook/vggt


打破传统范式:从迭代优化到端到端推理


传统 3D 重建技术高度依赖束调整(Bundle Adjustment, BA)等几何优化方法,需反复迭代且计算成本高昂。尽管近年来机器学习被引入辅助优化,但仍难以摆脱复杂后处理的桎梏。VGGT 开创性地采用纯前馈设计:通过大规模 3D 标注数据与 Transformer 架构的结合,模型在一次前向传播中即可完成全部几何推理任务。实验表明,即便输入数百张图像,VGGT 仍能在数秒内输出高质量结果,在精度与速度上均超越传统优化方法。



研究团队指出,VGGT 的成功并非源于复杂的结构设计或领域先验,而是得益于 Transformer 架构的通用性与大规模 3D 数据训练的协同效应。模型将输入图像转化为 Tokens 后,与随机初始化的相机 Tokens 共同输入交替注意力模块(Alternating-Attention),通过全局与帧级自注意力层的交替堆叠,逐步融合多视图几何信息。最终,相机参数经专用头部解码,图像 Tokens 则通过 DPT 头部生成密集预测(如深度图与点图)。值得一提的是,VGGT 仅使用自注意力机制(self attention),未使用跨注意力(cross attention)。


同时,为保持输入图像的置换不变性(改变输入图像顺序不改变预测结果),VGGT 摒弃了帧索引 (frame index) 位置编码。相反,VGGT 仅通过帧级自注意力机制动态关联同一图像的 Tokens。这种设计不仅使得模型无需依赖预设位置信息即可区分多视图数据,更赋予模型强大的泛化能力 —— 即便训练时仅使用 2-24 帧数据,测试时亦可轻松处理超过 200 帧的输入。VGGT 收集了 17 个大型 3D 数据集一起进行训练,在 64 块 A100GPU 上共耗时 9 天。


性能与泛化性双突破



定性演示视频显示,VGGT 能轻松应对不同数量图像及复杂场景的重建。同时,研究人员提供了与过去 SOTA 的定性比较。VGGT 可精准重建梵高油画等非真实场景的几何结构,甚至能处理无重叠视图或重复纹理的极端案例。用户可通过 Hugging Face Demo 上传图像,实时体验 3D 重建效果。



在定量实验中,VGGT 无需任何后处理即在相机姿势估计,多视图深度估计、点云重建等任务中全面领先,其推理速度较传统方法提升近 50 倍。即便与同期 CVPR 2025 的 Transformer-based 重建模型相比,VGGT 性能优势明显,并与速度最快的 Fast3R 相当。有趣的是,研究团队还意外发现,利用模型预测的深度图与相机参数反投影生成的点云,其质量甚至超过直接回归的点图,这一现象揭示了模型对几何一致性内在规律的自发学习能力。



跨任务泛化的潜力 - 单目重建


尽管 VGGT 从未接受单图训练,但仍展现出强大的跨任务泛化能力。研究团队公布的单图重建定性结果显示,VGGT 在未专门训练的单目任务中表现出色。



VGGT 的代码和模型公开后,迅速有 github 社区成员跟进,在标准的单目设置下进行测试。GitHub 社区测试显示,VGGT 在 NYU V2 等数据集上的表现已逼近单目 SOTA 水平,这一意外之喜进一步印证了 VGGT 作为通用 3D 基础模型的潜力。



结语


视觉重建作为所有 3D 任务的核心,VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的,基础模型的时代。正如论文作者所述,我们正在见证视觉几何从 手工设计数据驱动的范式迁移,而这可能仅仅是个开端。简单架构 + 数据驱动的模式是否能如 2D 视觉和 NLP 领域般彻底重塑 3D 任务?让我们拭目以待。


作者介绍:论文第一作者王建元为牛津大学视觉几何组(VGG)与Meta AI的联合培养博士生(博士三年级),长期致力于3D重建方法研究。其博士工作聚焦于端到端几何推理框架的创新,曾主导开发PoseDiffusion、VGGSfM,以及本次提出的通用3D基础模型VGGT,相关成果均发表于CVPR、ICCV等顶级会议,推动了数据驱动式3D重建技术的演进。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

当然有可能,目前人工智能的发展趋势就是大模型,只有更大的模型才能有更强的泛化性,但是想应用到自动驾驶等领域,还需要解决模型实时性的问题。

理论上来说,循环神经网络拥有更强的记忆能力,更能处理时序数据,但是3D 数据的处理,更加注重空间信息,而非时序信息,前馈网络避免了梯度消失等问题,训练起来更加稳定

现在就像是 3D 视觉的 “ImageNet 时刻”,VGGT 有希望成为那个 “预训练一把梭” 的基础模型。想象一下,以后开发 AR/VR 应用,不需要再从零开始训练 3D 模型,直接用 VGGT 微调一下就行,效率简直爆炸! 不过,要实现这一目标,还需要解决一些挑战,比如如何让模型更好地理解复杂场景,以及如何处理光照、遮挡等问题。

我觉得很有可能!VGGT 已经展示了它作为基础模型的潜力。如果能继续扩大训练数据,覆盖更多场景和任务,肯定能构建出一个更强大的通用 3D 视觉模型。到时候,自动驾驶、机器人啥的,都能用上,想想就刺激!

数据就是燃料啊!VGGT 这种大规模模型,没有足够多样性的数据喂饱它,就容易变成一个“偏科生”,在特定场景下表现很好,但换个环境就抓瞎。而且数据质量也很重要,劣质数据可能会引入噪声,影响模型的学习效果。想象一下,如果给模型看的都是模糊不清的照片,它怎么可能学会准确重建 3D 场景呢?

RNN/LSTM 就像一个需要一步步消化信息的侦探,擅长处理有先后顺序的情节。而 Transformer 就像一个可以同时阅读所有线索的超级侦探,可以更快地找出真相。在 3D 视觉中,我们更关心各个视角之间的关系,而不是观察的顺序,所以 Transformer 更适合。

纯前馈架构最大的优势就是并行计算能力强!RNN 那种循环结构,必须一步一步来,没法同时处理。而 Transformer 可以同时处理所有输入,速度自然快很多。在 3D 视觉这种数据量大的场景下,速度就是生命啊!

这问题问到点子上了!训练数据的质量直接关系到模型的上限。如果数据标注有偏差,比如深度信息不准,那模型学到的几何关系肯定也会跑偏。多样性也很关键,如果数据只包含特定场景,那模型泛化到其他场景肯定不行。打个比方,就像教小孩认东西,你老是用苹果教他,他可能以为所有水果都是红色的。

从学术角度说,数据偏差会导致模型过拟合训练集,导致测试集的表现不佳。可以通过数据增强,清洗等方法来缓解。而数据覆盖范围不足则会导致模型泛化性不足,好的数据集应该尽量覆盖各种情况。