BridgeVLA:基于视觉语言模型的3D操作新范式,CVPR 2025 workshop 夺冠

中科院&字节提出BridgeVLA,一种高效的3D视觉语言操作新范式,通过2D空间对齐实现数据效率和操作能力的飞跃,并在多项基准测试中取得领先成果。

原文标题:3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!

原文作者:机器之心

冷月清谈:

中科院自动化所联合字节跳动 Seed 提出的 BridgeVLA 是一种全新的 3D VLA 范式,旨在解决现有 3D VLA 模型数据效率和操作能力不足的问题。该方法的核心在于将预训练和微调的输入输出对齐到统一的 2D 空间,通过 Heatmap prediction 充分利用 3D 空间结构先验,实现模型能力与数据效率的同步提升。BridgeVLA 在 RLBench、COLOSSEUM 和 GemBench 三项主流 3D 操作任务基准测试中均表现出色,并在真实机器人实验中展现出优于现有基线方法的性能。未来的研究方向包括扩展预训练任务、提升动作解码能力以及改善长周期任务表现。

怜星夜思:

1、BridgeVLA 通过将 3D 信息投影到 2D 图像上进行处理,这种方法有哪些潜在的优势和局限性?是否会损失某些重要的 3D 空间信息?
2、文章提到 BridgeVLA 在长周期任务(L4)中的表现仍然有限,你认为有哪些方法可以改善模型在长周期任务中的表现?
3、BridgeVLA 在真实机器人实验中表现出较强的鲁棒性,尤其是在视觉干扰方面。你认为这种鲁棒性主要来源于哪些因素?

原文内容


只需要三条轨迹,就能取得 96.8% 的成功率?视觉干扰、任务组合等泛化场景都能轻松拿捏?或许,3D VLA 操作新范式已经到来。



当前,接收 2D 图像进行 Next Action Token 预测的「2D VLA」模型已经展现出了实现通用机器人操作的潜力;同时,接受 3D 信息作为输入,并以下一时刻的关键帧作为输出的「3D 操作策略」已被证明拥有极高的数据效率(≈10 条操作轨迹)。


那么,直觉上来讲,一个好的「3D VLA」模型应该能够综合以上的优点,兼具 efficient 和 effective 的特点。然而,当前 3D VLA 的模型设计并未实现上述期待。


为了解决上述问题,中科院自动化所谭铁牛团队联合字节跳动 Seed 推出 BridgeVLA,展示了一种全新的 3D VLA 范式,实现了模型能力与数据效率的同步飞跃,并斩获了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠军。目前代码与数据已经全面开源。



  • 论文标题:BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
  • 论文链接:https://arxiv.org/abs/2506.07961
  • 项目主页:https://bridgevla.github.io/

出发点:对齐 VLM 与 VLA


BridgeVLA 的核心理念是将预训练和微调的输入输出对齐到统一的 2D 空间,从而「bridge」VLM 和 VLA 之间的 gap。从这个理念出发,作者认为不应该使用传统 3D VLA 的 3D 位置编码或 3D 信息注入,而是将 VLA 输入与 VLM 对齐,即仅输入图片和文字指令。


同时,作者将模型的输出方式从 Next token prediction 变更为 Heatmap prediction,通过这种方式,将输出从无空间结构的 token 变成有空间结构的 2D Heatmap,既能充分利用 3D 空间结构先验,又能将模型的输入输出进一步在 2D 空间中对齐。



预训练:赋予 VLM 预测 2D Heatmap 的能力


在使用机器人数据进行微调之前,需要先通过预训练以赋予 VLM 目标检测的能力。为此,作者提出了一种新颖的可扩展预训练方法:给模型输入图片-目标文本对,并提取模型的输出中对应图像的 token,再将这部分图像 token 进行重新排列作为图像的隐藏状态,最后,通过可学习的凸上采样方法将其还原成与输入图片相同大小的 Heatmap。通过交叉熵损失监督训练模型,使其具有 Heatmap 预测的能力。通过这个 Heapmap 即可获取被操作的目标物体的像素位置。



微调:赋予模型预测 Action 的能力


与 RVT、RVT-2 等典型的 3D 操作策略类似,BridgeVLA 通过预测关键点来得到下一时刻的动作。具体来说,BridgeVLA 采用场景的点云和指令文本作为原始输入。但为了将微调过程的输入与预训练的输入进行对齐,作者将点云从正面、上面、右侧这三个方向进行正交投影,产生 3 张 2D 图像输入给模型。模型采用与预训练相同的方式输出 Heatmap 后,通过将 3 个 Heatmap 进行反投影,进而估计 3D 空间内所有结构化网格点的分数,并选用得分最高的点作为机械臂末端执行器的平移目标。对于旋转、夹持器状态以及碰撞检测,BridgeVLA 将提取到的全局特征和局部特征进行拼接,然后输入给 MLP 进行预测。


此外,BridgeVLA 沿用了由粗到细(Coarse-to-fine)的多级预测方式,通过对首次 Heatmap 预测的目标位置附近的点云进行放大和裁剪,并在裁剪后的点云上进行第二次前向传播,从而获得更加精细的位置预测。


仿真实验:屠榜三项主流 3D 操作任务基准


RLBench实验在 18 个复杂的 RLBench 任务上进行,包括非抓取操作任务、抓取放置任务和高精度插入任务等。BridgeVLA 在此基准测试中显著优于所有现有基线方法,将平均成功率从 81.4% 提高到 88.2%,并在 18 个任务中的 10 个中取得了最佳表现,尤其在需要高精度对齐的任务(如「Insert Peg」和「Sort Shape」)中表现突出。


COLOSSEUM:作为 RLBench 的扩展,COLOSSEUM 基准专注于评估模型在 12 种扰动(包括物体纹理、颜色、大小、背景、光照、干扰物和相机姿态变化等)下的泛化能力和鲁棒性。BridgeVLA 在 COLOSSEUM 基准测试中展示了强大的鲁棒性,平均成功率从 56.7% 提升到 64.0%,并在 14 种评估扰动中的 13 种中表现最佳。


GemBench该测试基准分为四个挑战性递增的层次(L1-L4),涉及新颖的放置、刚性物体、关节物体以及需要组合多个动作才能完成的长周期任务。BridgeVLA 在这四个评估设置中取得了最高的平均成功率,尤其在 L2 和 L3 设置中取得了最先进的成果,证明了其强大的泛化能力。然而,与大多数基线方法类似,BridgeVLA 在 L4(长周期任务)设置中的表现仍然有限。


真实机器人实验:远超现有 Baseline


在真实世界评测中,作者设计了 13 个基本任务,并设计了 6 种不同的泛化性能测试(包括干扰物体、光照、背景、高度、组合和类别)以全面评估模型性能。如图所示,BridgeVLA 在七种设置中的六种中均优于最先进的基线方法 RVT-2。



在四种视觉干扰设置中,BridgeVLA 表现出十分显著的鲁棒性,尤其在干扰物和背景变换的设置中,其仍然能够保持超高成功率。此外,作者还发现 2D 热图预训练对于模型理解语言语义和泛化到新的对象-技能组合至关重要。同时,即使在经过机器人动作数据微调后,模型仍能很好地对预训练数据进行预测,证明预训练知识被成功地保留了下来。



总结和展望


VLA 新范式:从「Next Token Prediction」到「Heatmap Prediction」,BridgeVLA 为 3D VLA 的设计提供了数据效率更高、操作效果更好的技术范式;

扩展预训练任务:未来的研究可以尝试在更多样化的任务上进行预训练,例如语义分割和关键点检测,以增强模型的通用视觉理解能力;

提升动作解码能力:研究团队未来将考虑整合更具表达能力的动作解码方法(例如扩散模型),以持续提升策略性能;

改善长周期任务表现:针对复杂长周期任务的挑战,未来计划探索利用大型语言模型(LLM)进行任务分解,以进一步提升模型在此类任务中的表现。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

谢邀。优势在于对齐了 VLM 和 VLA,使得可以利用 VLM 强大的 2D 图像理解能力,同时降低了计算成本。局限性在于 3D 信息的损失是不可避免的,尤其是在遮挡、深度信息等方面。尽管 BridgeVLA 使用了三个方向的投影,但仍然无法完全恢复原始的 3D 信息。这可能会影响模型在某些复杂操作任务中的表现,例如需要精细操作或者对深度信息敏感的任务。引用一句论文中的原话: ‘While orthogonal projections can preserve much of the spatial information, some depth information and occlusion relationships are inevitably lost.’,所以这是一个trade-off。

个人觉得这应该归功于2D Heatmap的预测方式,相当于给模型加了一层注意力机制,让它能够更准确地定位目标物体。而且,这种方法对光照、背景等变化不敏感,所以鲁棒性比较强。

个人觉得这种方法挺巧妙的,把3D问题转化成2D问题,巧妙地利用了现有VLM在2D图像识别上的优势。但问题也很明显,正交投影必然会损失一部分空间信息,尤其是在物体遮挡比较严重的情况下,可能会影响模型的性能。感觉未来可以考虑结合一些3D视觉技术,比如三维重建,来弥补这方面的不足。

我觉得heatmap prediction是一个关键因素,它让模型更加关注目标物体的关键区域,而不是被背景和其他干扰物所迷惑。另外,预训练也起到了很大的作用,让模型具备了更强的视觉理解能力。

同意楼上的观点,长周期任务需要更强的规划能力和记忆能力。除了任务分解和记忆机制,还可以考虑引入强化学习,让模型在与环境的交互中学习到更优的策略。另外,模仿学习可能也是个不错的选择,可以从人类的演示数据中学习到一些先验知识,帮助模型更快地收敛。

优点是简化了计算,可以利用在2D图像处理上成熟的VLM模型,降低了模型训练的复杂度。缺点也很明显,降维打击嘛,3D信息肯定有损失,比如物体的深度信息,遮挡关系等,这些都会影响模型的判断。