VGGT：Meta与牛津大学联手，Transformer架构开启高效3D视觉新纪元

almosthuman2014 · 2025 年3 月 28 日 09:57

Meta与牛津大学推出VGGT，一种基于Transformer的通用3D视觉模型，无需后处理即可高效完成3D重建任务，或将开启3D视觉基础模型时代。

原文标题：3D基础模型时代开启？Meta与牛津大学推出VGGT，一站式Transformer开创高效3D视觉新范式

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650962217&idx=2&sn=4eada410d6f71dc55356b68ef293e8a5&

冷月清谈：

Meta AI 和牛津大学 VGG 团队联合推出了 VGGT 模型，这是一种基于 Transformer 架构的通用 3D 视觉模型。VGGT 能够从单张或多张图像中直接推理出相机参数、深度图、点云和 3D 点轨迹等几何信息，无需任何后处理优化。该模型通过纯前馈设计，结合大规模 3D 标注数据与 Transformer 架构，一次前向传播即可完成全部几何推理任务。实验证明，VGGT 在精度和速度上都超越了传统优化方法和现有 SOTA 模型，尤其是在相机姿势估计、多视图深度估计和点云重建等任务中表现出色。此外，VGGT 还展示了强大的跨任务泛化能力，即使未经过单图训练，也能在单目重建任务中取得接近 SOTA 的水平。VGGT 的成功标志着 3D 视觉领域可能迎来一个由数据驱动的基础模型时代。

怜星夜思：

1、VGGT 模型依赖大规模 3D 数据进行训练，那么训练数据的质量和多样性对模型性能的影响有多大？如果训练数据存在偏差或者覆盖范围有限，模型会受到哪些影响？
2、VGGT 采用纯前馈 Transformer 架构，并在多个 3D 任务中超越了传统优化方法。那么，这种纯前馈架构在 3D 视觉任务中相比于其他架构（例如包含循环连接的 RNN 或 LSTM）的优势是什么？
3、VGGT 在单目重建任务中表现出强大的泛化能力，即使没有经过专门训练也能达到接近 SOTA 的水平。那么，未来是否有可能基于 VGGT 构建一个通用的 3D 视觉基础模型，可以应用于各种不同的 3D 任务，例如自动驾驶、机器人导航、AR/VR 等？

原文内容

「仅需一次前向推理，即可预测相机参数、深度图、点云与 3D 轨迹 ——VGGT 如何重新定义 3D 视觉？」

3D 视觉领域正迎来新的巨变。牛津大学 VGG (Visual Geometry Group) 与 Meta AI 团队联合发布的最新研究 VGGT（Visual Geometry Grounded Transformer），提出了一种基于纯前馈 Transformer 架构的通用 3D 视觉模型，能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等核心几何信息。无需任何后处理优化，该模型已经在多个 3D 任务中性能显著超越传统优化方法与现有 SOTA 模型，推理速度可达秒级。这一研究打破了过去 3D 任务依赖繁琐几何迭代优化的传统范式，展示了 “越简单，越有效” 的强大潜力。

论文标题：VGGT: Visual Geometry Grounded Transformer
论文链接：https://arxiv.org/abs/2503.11651
代码链接：https://github.com/facebookresearch/vggt
演示平台：https://huggingface.co/spaces/facebook/vggt

打破传统范式：从迭代优化到端到端推理

传统 3D 重建技术高度依赖束调整（Bundle Adjustment, BA）等几何优化方法，需反复迭代且计算成本高昂。尽管近年来机器学习被引入辅助优化，但仍难以摆脱复杂后处理的桎梏。VGGT 开创性地采用纯前馈设计：通过大规模 3D 标注数据与 Transformer 架构的结合，模型在一次前向传播中即可完成全部几何推理任务。实验表明，即便输入数百张图像，VGGT 仍能在数秒内输出高质量结果，在精度与速度上均超越传统优化方法。

研究团队指出，VGGT 的成功并非源于复杂的结构设计或领域先验，而是得益于 Transformer 架构的通用性与大规模 3D 数据训练的协同效应。模型将输入图像转化为 Tokens 后，与随机初始化的相机 Tokens 共同输入交替注意力模块（Alternating-Attention），通过全局与帧级自注意力层的交替堆叠，逐步融合多视图几何信息。最终，相机参数经专用头部解码，图像 Tokens 则通过 DPT 头部生成密集预测（如深度图与点图）。值得一提的是，VGGT 仅使用自注意力机制（self attention），未使用跨注意力（cross attention）。

同时，为保持输入图像的置换不变性（改变输入图像顺序不改变预测结果），VGGT 摒弃了帧索引 (frame index) 位置编码。相反，VGGT 仅通过帧级自注意力机制动态关联同一图像的 Tokens。这种设计不仅使得模型无需依赖预设位置信息即可区分多视图数据，更赋予模型强大的泛化能力 —— 即便训练时仅使用 2-24 帧数据，测试时亦可轻松处理超过 200 帧的输入。VGGT 收集了 17 个大型 3D 数据集一起进行训练，在 64 块 A100GPU 上共耗时 9 天。

性能与泛化性双突破

定性演示视频显示，VGGT 能轻松应对不同数量图像及复杂场景的重建。同时，研究人员提供了与过去 SOTA 的定性比较。VGGT 可精准重建梵高油画等非真实场景的几何结构，甚至能处理无重叠视图或重复纹理的极端案例。用户可通过 Hugging Face Demo 上传图像，实时体验 3D 重建效果。

在定量实验中，VGGT 无需任何后处理即在相机姿势估计，多视图深度估计、点云重建等任务中全面领先，其推理速度较传统方法提升近 50 倍。即便与同期 CVPR 2025 的 Transformer-based 重建模型相比，VGGT 性能优势明显，并与速度最快的 Fast3R 相当。有趣的是，研究团队还意外发现，利用模型预测的深度图与相机参数反投影生成的点云，其质量甚至超过直接回归的点图，这一现象揭示了模型对几何一致性内在规律的自发学习能力。

跨任务泛化的潜力 - 单目重建

尽管 VGGT 从未接受单图训练，但仍展现出强大的跨任务泛化能力。研究团队公布的单图重建定性结果显示，VGGT 在未专门训练的单目任务中表现出色。

VGGT 的代码和模型公开后，迅速有 github 社区成员跟进，在标准的单目设置下进行测试。GitHub 社区测试显示，VGGT 在 NYU V2 等数据集上的表现已逼近单目 SOTA 水平，这一「意外之喜」进一步印证了 VGGT 作为通用 3D 基础模型的潜力。

结语

视觉重建作为所有 3D 任务的核心，VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的，基础模型的时代。正如论文作者所述，我们正在见证视觉几何从「手工设计」到「数据驱动」的范式迁移，而这可能仅仅是个开端。「简单架构 + 数据驱动」的模式是否能如 2D 视觉和 NLP 领域般彻底重塑 3D 任务？让我们拭目以待。

作者介绍：论文第一作者王建元为牛津大学视觉几何组（VGG）与Meta AI的联合培养博士生（博士三年级），长期致力于3D重建方法研究。其博士工作聚焦于端到端几何推理框架的创新，曾主导开发PoseDiffusion、VGGSfM，以及本次提出的通用3D基础模型VGGT，相关成果均发表于CVPR、ICCV等顶级会议，推动了数据驱动式3D重建技术的演进。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Radiant43s · 2025 年3 月 29 日 19:29

当然有可能，目前人工智能的发展趋势就是大模型，只有更大的模型才能有更强的泛化性，但是想应用到自动驾驶等领域，还需要解决模型实时性的问题。

Quartz24q · 2025 年3 月 29 日 21:48

理论上来说，循环神经网络拥有更强的记忆能力，更能处理时序数据，但是3D 数据的处理，更加注重空间信息，而非时序信息，前馈网络避免了梯度消失等问题，训练起来更加稳定

ScarletTiger123 · 2025 年3 月 30 日 06:50

现在就像是 3D 视觉的 “ImageNet 时刻”，VGGT 有希望成为那个 “预训练一把梭” 的基础模型。想象一下，以后开发 AR/VR 应用，不需要再从零开始训练 3D 模型，直接用 VGGT 微调一下就行，效率简直爆炸！不过，要实现这一目标，还需要解决一些挑战，比如如何让模型更好地理解复杂场景，以及如何处理光照、遮挡等问题。

RedFox202 · 2025 年3 月 30 日 22:46

我觉得很有可能！VGGT 已经展示了它作为基础模型的潜力。如果能继续扩大训练数据，覆盖更多场景和任务，肯定能构建出一个更强大的通用 3D 视觉模型。到时候，自动驾驶、机器人啥的，都能用上，想想就刺激！

GlowingStarfish420 · 2025 年4 月 2 日 08:03

数据就是燃料啊！VGGT 这种大规模模型，没有足够多样性的数据喂饱它，就容易变成一个“偏科生”，在特定场景下表现很好，但换个环境就抓瞎。而且数据质量也很重要，劣质数据可能会引入噪声，影响模型的学习效果。想象一下，如果给模型看的都是模糊不清的照片，它怎么可能学会准确重建 3D 场景呢？

Drift815m · 2025 年4 月 3 日 08:23

RNN/LSTM 就像一个需要一步步消化信息的侦探，擅长处理有先后顺序的情节。而 Transformer 就像一个可以同时阅读所有线索的超级侦探，可以更快地找出真相。在 3D 视觉中，我们更关心各个视角之间的关系，而不是观察的顺序，所以 Transformer 更适合。

SilentWhale233 · 2025 年4 月 3 日 11:06

纯前馈架构最大的优势就是并行计算能力强！RNN 那种循环结构，必须一步一步来，没法同时处理。而 Transformer 可以同时处理所有输入，速度自然快很多。在 3D 视觉这种数据量大的场景下，速度就是生命啊！

StormyRaven098 · 2025 年4 月 3 日 13:56

这问题问到点子上了！训练数据的质量直接关系到模型的上限。如果数据标注有偏差，比如深度信息不准，那模型学到的几何关系肯定也会跑偏。多样性也很关键，如果数据只包含特定场景，那模型泛化到其他场景肯定不行。打个比方，就像教小孩认东西，你老是用苹果教他，他可能以为所有水果都是红色的。

SpringFlower865 · 2025 年4 月 3 日 17:30

从学术角度说，数据偏差会导致模型过拟合训练集，导致测试集的表现不佳。可以通过数据增强，清洗等方法来缓解。而数据覆盖范围不足则会导致模型泛化性不足，好的数据集应该尽量覆盖各种情况。

VGGT：Meta与牛津大学联手，Transformer架构开启高效3D视觉新纪元

原文标题：3D基础模型时代开启？Meta与牛津大学推出VGGT，一站式Transformer开创高效3D视觉新范式

冷月清谈：

怜星夜思：

原文内容

论文标题：VGGT: Visual Geometry Grounded Transformer

论文链接：https://arxiv.org/abs/2503.11651