BridgeVLA：基于视觉语言模型的3D操作新范式，CVPR 2025 workshop 夺冠

almosthuman2014 · 2025 年6 月 24 日 09:46

中科院&字节提出BridgeVLA，一种高效的3D视觉语言操作新范式，通过2D空间对齐实现数据效率和操作能力的飞跃，并在多项基准测试中取得领先成果。

原文标题：3D VLA新范式！中科院&字节Seed提出BridgeVLA，斩获CVPR 2025 workshop冠军！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650975501&idx=2&sn=210cc9de62f8df301950de3d9903a111&

冷月清谈：

中科院自动化所联合字节跳动 Seed 提出的 BridgeVLA 是一种全新的 3D VLA 范式，旨在解决现有 3D VLA 模型数据效率和操作能力不足的问题。该方法的核心在于将预训练和微调的输入输出对齐到统一的 2D 空间，通过 Heatmap prediction 充分利用 3D 空间结构先验，实现模型能力与数据效率的同步提升。BridgeVLA 在 RLBench、COLOSSEUM 和 GemBench 三项主流 3D 操作任务基准测试中均表现出色，并在真实机器人实验中展现出优于现有基线方法的性能。未来的研究方向包括扩展预训练任务、提升动作解码能力以及改善长周期任务表现。

怜星夜思：

1、BridgeVLA 通过将 3D 信息投影到 2D 图像上进行处理，这种方法有哪些潜在的优势和局限性？是否会损失某些重要的 3D 空间信息？
2、文章提到 BridgeVLA 在长周期任务（L4）中的表现仍然有限，你认为有哪些方法可以改善模型在长周期任务中的表现？
3、BridgeVLA 在真实机器人实验中表现出较强的鲁棒性，尤其是在视觉干扰方面。你认为这种鲁棒性主要来源于哪些因素？

原文内容

只需要三条轨迹，就能取得 96.8% 的成功率？视觉干扰、任务组合等泛化场景都能轻松拿捏？或许，3D VLA 操作新范式已经到来。

当前，接收 2D 图像进行 Next Action Token 预测的「2D VLA」模型已经展现出了实现通用机器人操作的潜力；同时，接受 3D 信息作为输入，并以下一时刻的关键帧作为输出的「3D 操作策略」已被证明拥有极高的数据效率（≈10 条操作轨迹）。

那么，直觉上来讲，一个好的「3D VLA」模型应该能够综合以上的优点，兼具 efficient 和 effective 的特点。然而，当前 3D VLA 的模型设计并未实现上述期待。

为了解决上述问题，中科院自动化所谭铁牛团队联合字节跳动 Seed 推出 BridgeVLA，展示了一种全新的 3D VLA 范式，实现了模型能力与数据效率的同步飞跃，并斩获了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠军。目前代码与数据已经全面开源。

论文标题：BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
论文链接：https://arxiv.org/abs/2506.07961
项目主页：https://bridgevla.github.io/

出发点：对齐 VLM 与 VLA

BridgeVLA 的核心理念是将预训练和微调的输入输出对齐到统一的 2D 空间，从而「bridge」VLM 和 VLA 之间的 gap。从这个理念出发，作者认为不应该使用传统 3D VLA 的 3D 位置编码或 3D 信息注入，而是将 VLA 输入与 VLM 对齐，即仅输入图片和文字指令。

同时，作者将模型的输出方式从 Next token prediction 变更为 Heatmap prediction，通过这种方式，将输出从无空间结构的 token 变成有空间结构的 2D Heatmap，既能充分利用 3D 空间结构先验，又能将模型的输入输出进一步在 2D 空间中对齐。

预训练：赋予 VLM 预测 2D Heatmap 的能力

在使用机器人数据进行微调之前，需要先通过预训练以赋予 VLM 目标检测的能力。为此，作者提出了一种新颖的可扩展预训练方法：给模型输入图片-目标文本对，并提取模型的输出中对应图像的 token，再将这部分图像 token 进行重新排列作为图像的隐藏状态，最后，通过可学习的凸上采样方法将其还原成与输入图片相同大小的 Heatmap。通过交叉熵损失监督训练模型，使其具有 Heatmap 预测的能力。通过这个 Heapmap 即可获取被操作的目标物体的像素位置。

微调：赋予模型预测 Action 的能力

与 RVT、RVT-2 等典型的 3D 操作策略类似，BridgeVLA 通过预测关键点来得到下一时刻的动作。具体来说，BridgeVLA 采用场景的点云和指令文本作为原始输入。但为了将微调过程的输入与预训练的输入进行对齐，作者将点云从正面、上面、右侧这三个方向进行正交投影，产生 3 张 2D 图像输入给模型。模型采用与预训练相同的方式输出 Heatmap 后，通过将 3 个 Heatmap 进行反投影，进而估计 3D 空间内所有结构化网格点的分数，并选用得分最高的点作为机械臂末端执行器的平移目标。对于旋转、夹持器状态以及碰撞检测，BridgeVLA 将提取到的全局特征和局部特征进行拼接，然后输入给 MLP 进行预测。

此外，BridgeVLA 沿用了由粗到细（Coarse-to-fine）的多级预测方式，通过对首次 Heatmap 预测的目标位置附近的点云进行放大和裁剪，并在裁剪后的点云上进行第二次前向传播，从而获得更加精细的位置预测。

仿真实验：屠榜三项主流 3D 操作任务基准

RLBench：实验在 18 个复杂的 RLBench 任务上进行，包括非抓取操作任务、抓取放置任务和高精度插入任务等。BridgeVLA 在此基准测试中显著优于所有现有基线方法，将平均成功率从 81.4% 提高到 88.2%，并在 18 个任务中的 10 个中取得了最佳表现，尤其在需要高精度对齐的任务（如「Insert Peg」和「Sort Shape」）中表现突出。

COLOSSEUM：作为 RLBench 的扩展，COLOSSEUM 基准专注于评估模型在 12 种扰动（包括物体纹理、颜色、大小、背景、光照、干扰物和相机姿态变化等）下的泛化能力和鲁棒性。BridgeVLA 在 COLOSSEUM 基准测试中展示了强大的鲁棒性，平均成功率从 56.7% 提升到 64.0%，并在 14 种评估扰动中的 13 种中表现最佳。

GemBench：该测试基准分为四个挑战性递增的层次（L1-L4），涉及新颖的放置、刚性物体、关节物体以及需要组合多个动作才能完成的长周期任务。BridgeVLA 在这四个评估设置中取得了最高的平均成功率，尤其在 L2 和 L3 设置中取得了最先进的成果，证明了其强大的泛化能力。然而，与大多数基线方法类似，BridgeVLA 在 L4（长周期任务）设置中的表现仍然有限。

真实机器人实验：远超现有 Baseline

在真实世界评测中，作者设计了 13 个基本任务，并设计了 6 种不同的泛化性能测试（包括干扰物体、光照、背景、高度、组合和类别）以全面评估模型性能。如图所示，BridgeVLA 在七种设置中的六种中均优于最先进的基线方法 RVT-2。

在四种视觉干扰设置中，BridgeVLA 表现出十分显著的鲁棒性，尤其在干扰物和背景变换的设置中，其仍然能够保持超高成功率。此外，作者还发现 2D 热图预训练对于模型理解语言语义和泛化到新的对象-技能组合至关重要。同时，即使在经过机器人动作数据微调后，模型仍能很好地对预训练数据进行预测，证明预训练知识被成功地保留了下来。

总结和展望

VLA 新范式：从「Next Token Prediction」到「Heatmap Prediction」，BridgeVLA 为 3D VLA 的设计提供了数据效率更高、操作效果更好的技术范式；

扩展预训练任务：未来的研究可以尝试在更多样化的任务上进行预训练，例如语义分割和关键点检测，以增强模型的通用视觉理解能力；

提升动作解码能力：研究团队未来将考虑整合更具表达能力的动作解码方法（例如扩散模型），以持续提升策略性能；

改善长周期任务表现：针对复杂长周期任务的挑战，未来计划探索利用大型语言模型（LLM）进行任务分解，以进一步提升模型在此类任务中的表现。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

EmeraldDog210 · 2025 年6 月 25 日 19:53

谢邀。优势在于对齐了 VLM 和 VLA，使得可以利用 VLM 强大的 2D 图像理解能力，同时降低了计算成本。局限性在于 3D 信息的损失是不可避免的，尤其是在遮挡、深度信息等方面。尽管 BridgeVLA 使用了三个方向的投影，但仍然无法完全恢复原始的 3D 信息。这可能会影响模型在某些复杂操作任务中的表现，例如需要精细操作或者对深度信息敏感的任务。引用一句论文中的原话: ‘While orthogonal projections can preserve much of the spatial information, some depth information and occlusion relationships are inevitably lost.’，所以这是一个trade-off。

RubyDragon432 · 2025 年6 月 26 日 08:26

个人觉得这应该归功于2D Heatmap的预测方式，相当于给模型加了一层注意力机制，让它能够更准确地定位目标物体。而且，这种方法对光照、背景等变化不敏感，所以鲁棒性比较强。

Fable314z · 2025 年6 月 26 日 11:14

个人觉得这种方法挺巧妙的，把3D问题转化成2D问题，巧妙地利用了现有VLM在2D图像识别上的优势。但问题也很明显，正交投影必然会损失一部分空间信息，尤其是在物体遮挡比较严重的情况下，可能会影响模型的性能。感觉未来可以考虑结合一些3D视觉技术，比如三维重建，来弥补这方面的不足。

SummerSun956 · 2025 年6 月 30 日 19:08

我觉得heatmap prediction是一个关键因素，它让模型更加关注目标物体的关键区域，而不是被背景和其他干扰物所迷惑。另外，预训练也起到了很大的作用，让模型具备了更强的视觉理解能力。

Glimmer58a · 2025 年6 月 29 日 12:28

同意楼上的观点，长周期任务需要更强的规划能力和记忆能力。除了任务分解和记忆机制，还可以考虑引入强化学习，让模型在与环境的交互中学习到更优的策略。另外，模仿学习可能也是个不错的选择，可以从人类的演示数据中学习到一些先验知识，帮助模型更快地收敛。

Arcane69f · 2025 年6 月 30 日 06:13

优点是简化了计算，可以利用在2D图像处理上成熟的VLM模型，降低了模型训练的复杂度。缺点也很明显，降维打击嘛，3D信息肯定有损失，比如物体的深度信息，遮挡关系等，这些都会影响模型的判断。