BridgeV2W:用“动作剪影”连接视频生成与机器人世界模型,让机器人学会“预演未来”

BridgeV2W通过具身掩码连接视频生成模型与机器人世界模型,让机器人学会“预演未来”,解决动作画面“语言不通”等难题,无需URDF或相机标定即可利用海量无标注人类视频。

原文标题:仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"

原文作者:机器之心

冷月清谈:

中科第五纪联合中科院自动化所团队推出BridgeV2W,旨在解决机器人世界模型中动作与画面“语言不通”、视角变化导致预测质量下降以及不同机器人之间模型难以通用的问题。该方案的核心在于提出“具身掩码”,通过将机器人的动作序列实时渲染为图像上的二值“动作剪影”,实现动作与像素的对齐,解决了视角自适应和跨具身通用性问题。BridgeV2W采用ControlNet式的旁路注入,将掩码作为条件信号融入预训练视频生成模型。实验结果表明,BridgeV2W在多个机器人平台和操作场景下,以及在未见视角和下游任务应用中,均表现出色,尤其是在DROID数据集上超越了SOTA方法。此外,BridgeV2W还通过结合分割掩码和无标定的Ego4D FHO视频进行训练,进一步提升了性能,验证了其在策略评估和目标图像操作规划等实际任务中的价值,为机器人世界模型的规模化训练开辟了新路径。

怜星夜思:

1、BridgeV2W通过“具身掩码”实现了动作和像素的对齐,但这种方法是否会过度依赖精确的机器人模型(URDF)和相机参数?如果这些信息不准确或者有误差,会对预测结果产生多大影响?
2、文章提到BridgeV2W可以利用海量无标注的人类视频进行训练,那么,仅仅通过观看人类操作视频,机器人能学到哪些知识?这种学习方式存在哪些局限性?
3、BridgeV2W在不同机器人平台和场景下都表现出了良好的泛化能力,那么,这种方法是否适用于更复杂的任务,例如需要多机器人协同完成的任务?

原文内容


机器人如何 "脑补" 未来?


想象一下,你面前摆着一杯咖啡,你伸手去拿,在你的手真正触碰到杯子之前,你的大脑已经在 "脑补" 了整个过程:手臂将如何移动、杯子会是什么触感、抬起后桌面的样子…… 这种对未来场景的想象和预测能力,正是人类操控世界的核心认知基石。


那么,能否赋予机器人同样的 “预演能力”,先在 “脑海” 中模拟动作后果,再付诸执行?这就是具身世界模型要做的事情:让机器人在行动前,就能 “看见” 未来。近年来,借助大规模视频生成模型(如 Sora、Wan 等)强大的视觉先验,这一方向取得了令人瞩目的进展。


然而,一个尴尬的问题始终悬而未决:视频生成模型的世界由像素编织而成,而机器人的语言却是关节角度与位姿坐标,它们使用完全不同的 “表征语言” 描述同一个物理世界。


为了解决上述问题,具身智能公司中科第五纪联合中科院自动化所团队推出 BridgeV2W,它通过一个极为优雅的设计,具身掩码(Embodiment Mask),一种由机器人动作渲染出的 “动作剪影”,将坐标空间的动作无缝映射到像素空间,从而真正打通预训练视频生成模型与世界模型之间的桥梁,让机器人学会可靠地 “预演未来”。



  • 论文标题:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks

  • 论文链接:

  • 项目链接:



困境:三座大山挡住了机器人的 "预演能力"


尽管前景广阔,当前的具身世界模型仍面临三大核心挑战:


1. 动作与画面 “语言不通”。 机器人动作是关节角、末端位姿等坐标数值,而视频生成模型只 “看” 像素。直接拼接动作向量效果有限,往往缺乏空间对齐的 “硬连接”,模型难以理解。


2. 视角一变,世界就 “崩”。同一动作在不同视角下外观迥异。现有方法在训练视角上尚可,一旦换视角,预测质量骤降,而真实场景中,相机位置几乎不可能复现训练设置。


3. 换一个机器人就得 “从零开始”。 单臂、双臂、移动底盘…… 结构千差万别。现有方法往往需为每种机器人定制架构,难以构建统一的世界模型。


核心创新:仅凭 "动作剪影",一举破解三大难题


BridgeV2W 的核心洞察极其直觉:既然鸿沟源于 “坐标 vs 像素”,那就把动作直接 “画” 进画面里!


它提出具身掩码:利用机器人的 URDF 模型和相机参数,将动作序列实时渲染为每帧图像上的二值 “动作剪影”,精准标出机器人在画面中的位置与姿态。


这一设计,一举破解前述三大难题:


  • 动作 - 像素对齐: 掩码是天然的像素级信号,与视频模型输入空间完全匹配,无需模型 “猜” 坐标的含义。

  • 视角自适应: 掩码随当前相机视角动态生成,动作与画面始终对齐,模型因此天然泛化到任意新视角。

  • 跨具身通用: 只要提供 URDF,单臂、双臂机器人都能用同一套框架生成对应掩码,无需修改模型结构。


技术上,BridgeV2W 采用 ControlNet 式的旁路注入,将掩码作为条件信号融入预训练视频生成模型,在保留其强大视觉先验的同时,赋予其理解机器人动作的能力。此外,为防止模型 “偷懒”(只复现静态背景),还引入光流驱动的运动损失,引导其聚焦于任务相关的动态区域。


实验结果:多场景、多机器人、多视角的全面验证


研究团队在多个设置下系统验证了 BridgeV2W 的能力,涵盖不同机器人平台、不同操作场景、未见视角和下游任务应用。


DROID 数据集:大规模单臂操作


DROID 是目前最大规模的真实世界机器人操作数据集之一,数据采集跨越多个实验室和环境。BridgeV2W 在该数据集上的表现尤为亮眼,在 PSNR、SSIM、LPIPS 等核心指标上超越 SOTA 方法。


尤其在 “未见视角” 测试中,对比方法常出现画面崩塌、肢体错位,而 BridgeV2W 依然生成物理合理、视觉连贯的未来视频,充分验证了其视角鲁棒性。在 “未见场景”(全新桌面布局、背景)下,泛化能力同样出色。



图片


AgiBot-G1 数据集:双臂人形机器人


AgiBot-G1 是一个完全不同的双臂平台,自由度与运动模式与 DROID 截然不同。

关键结果:无需修改模型架构,仅替换 URDF 并重新渲染掩码,BridgeV2W 就能无缝适配,并取得媲美单臂的预测质量,这是迈向通用具身世界模型的重要一步。



图片


下游任务应用:从 "想象" 到 "行动"


BridgeV2W 不仅仅是一个 "能生成好看视频" 的模型,研究团队进一步在真实世界的下游任务中验证了其实用价值:


策略评估: 在世界模型中 “试跑” 不同策略,无需真实机器人反复试错。实验显示,BridgeV2W 的评估结果与真实成功率高度相关,大幅降低策略迭代成本。

目标图像操作规划: 给定一张目标图像(如 “把杯子放到盘子上”),BridgeV2W 能在 “想象空间” 中搜索出可行动作序列,实现从视觉目标到物理动作的闭环规划。


关键亮点:海量无标注人类视频,全都能用!


你可能会问:具身掩码不是需要 URDF 和相机参数吗?没有这些几何信息的数据怎么办?


BridgeV2W 的巧妙之处在于:


  • 推理时需轻量几何信息(URDF + 相机参数)渲染 “计算掩码”,用于精准控制;

  • 训练时却无需任何标定:只需分割模型(如 SAM)提取的 “分割掩码”,即可提供有效监督。


团队将 AgiBot-G1 机器人数据与无标定的 Ego4D FHO(第一人称手部操作视频)混合训练,仅用 SAM 提取的手部掩码,就实现了惊人效果:


  • 仅用分割掩码训练,模型仍能学到合理的运动规律;

  • 加入大量 Ego4D 视频 + 少量机器人标定数据,性能几乎媲美全量标定训练。



这说明:人类视频蕴含丰富的动作先验,只需少量机器人数据,就能完成 “具身对齐”。


一句话总结:训练靠 “野生” 视频扩规模,部署靠轻量几何保精度:BridgeV2W 兼得可扩展性与准确性。


BridgeV2W 揭示了一条极具前景的技术路线:


视频生成模型 + 具身掩码 = 可扩展的机器人世界模型


这条路线有三个关键优势值得深思:


1. 数据飞轮真正启动:互联网视频规模远超机器人数据数个数量级。BridgeV2W 无需几何先验即可利用人类视频,为构建 “机器人数据飞轮” 迈出关键一步。


2. 技术红利自动继承:视频生成领域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架构使其能自然受益于底座模型升级,底座越强,“预演” 越真。


3. 通用智能的坚实基石:从单臂到双臂,从已知场景到未知视角,BridgeV2W 展现出的跨平台、跨场景、跨视角泛化能力,是迈向通用具身智能的重要里程碑。


总结与展望


BridgeV2W 通过 “具身掩码” 这一简洁而优雅的中间表征,成功架起了从大规模视频生成模型到实用具身世界模型的桥梁。它不仅解决了动作 - 像素对齐、视角鲁棒性、跨具身通用性三大核心挑战,更关键的是:训练无需 URDF 或相机标定,可直接利用海量无标注人类视频,为世界模型的规模化训练开辟了全新路径。


目前展现的能力,或许只是冰山一角。


试想未来:当视频生成底座从十亿参数迈向千亿,当训练数据从数千小时机器人视频扩展到百万小时人类操作视频,当具身掩码从机械臂延伸至全身人形、乃至多机协作,机器人的 “预演能力” 将迎来怎样的飞跃?


正如 DreamZero 等工作预示的 “机器人 GPT 时刻”,BridgeV2W 从另一个维度证明:


让机器人借助视频生成模型 “预演” 自身行动的后果 —— 这条路,不仅走得通,而且可以走得很远。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得可以从loss function入手。我们可以设计一些loss,让模型在学习人类视频的时候,更加关注那些与机器人操作相关的特征。比如,可以设计一个loss,鼓励模型学习人类手部动作与物体之间的交互关系,因为这些交互关系在机器人操作中也是非常重要的。另外,还可以借鉴contrastive learning的思想,让模型学习区分不同的动作,从而提高模型的泛化能力。

抖个机灵!既然URDF和相机参数这么重要,以后是不是可以出一个“机器人测绘”行业,专门负责为各种机器人建立高精度的几何模型?感觉很有商业潜力啊!

与其说是解决了动作和画面“语言不通”的问题,不如说是找到了一个双方都能“理解”的中间媒介。这个媒介就是“具身掩码”,它把机器人的动作转换成视频生成模型能够处理的图像信息。我觉得文中提到的使用分割模型提取掩码的方式,可以看作是更方便的一种方式,尤其是在缺乏URDF模型和相机参数的情况下。不过,这种方式的精度可能会受到分割模型性能的限制。未来或许可以考虑结合多种方法,比如先用分割模型提取粗略的掩码,再用URDF模型和相机参数进行精细化调整。

与其说是操作系统,我更倾向于一个统一的“机器人中间件”。操作系统可能过于庞大和复杂,不适合机器人应用。中间件可以提供一些通用的服务,例如运动规划、感知、控制等,让开发者可以专注于解决具体的任务需求。此外,中间件还可以实现不同机器人平台之间的互联互通,让机器人可以协同工作,完成更加复杂的任务。

这个想法太棒了!我一直希望能有一个像 Android 或者 iOS 这样的机器人操作系统,让我们可以像开发手机 App 一样,轻松地为机器人编写程序。不过,要实现这个目标,还需要解决很多技术难题。例如,不同机器人的硬件差异很大,如何抽象出一个通用的硬件接口?如何保证机器人操作系统的安全性?如何构建一个完善的机器人软件生态系统?这些都是需要认真思考的问题。

我倾向于认为,关键在于建立合适的奖励函数。在强化学习中,奖励函数决定了机器人的学习目标和行为方式。如果奖励函数能够准确地反映机器人的任务需求和物理约束,那么机器人就能从人类视频中学习到有用的知识,并避免出现不安全的行为。例如,可以设定一个“安全距离”奖励,鼓励机器人与障碍物保持适当的距离。此外,还可以利用模拟环境进行预训练,然后再将模型迁移到真实机器人上。

我认为,机器人操作系统是未来的发展趋势。随着机器人技术的不断发展,机器人将越来越普及,应用场景也将越来越广泛。一个统一的操作系统可以降低开发成本,提高开发效率,并促进机器人技术的创新。当然,实现这个目标需要全行业的共同努力,需要政府、企业、科研机构等各方力量的协同合作。

这个问题很有意思。我觉得 BridgeV2W 的局限性可能在于对动作剪影的依赖。虽然简单直观,但在复杂环境下,多个物体遮挡或者光线变化剧烈的情况下,剪影可能不够准确,导致模型预测出现偏差。而且,对于需要精细操作的场景,例如微创手术,仅仅依靠剪影可能无法提供足够的信息,需要结合触觉、力反馈等其他传感器数据。

这是一个很有深度的问题!我觉得BridgeV2W的“动作剪影”方法,虽然巧妙地解决了坐标和像素之间的转换问题,但在面对复杂环境时,可能会遇到以下几个瓶颈:

1. 遮挡问题: 在复杂的、物体密集的环境中,机器人的部分肢体或操作对象可能被遮挡,导致“动作剪影”不完整,影响模型对动作的理解和预测。
2. 环境互动: “动作剪影”主要关注机器人自身的动作,可能忽略了环境对动作的影响。例如,在柔软的表面上放置物体,或者与有形变的物体交互时,单纯的动作剪影可能无法捕捉到这些细微的变化。
3. 精细操作: 对于需要非常精确控制的任务,例如穿针引线或组装精密仪器,“动作剪影”可能无法提供足够精细的动作信息,难以指导机器人完成这些任务。

要解决这些问题,可能需要结合更丰富的传感器信息,例如深度图像、力触觉传感器等,来增强模型对环境的感知能力,并引入更复杂的控制策略。

这个问题问到了点子上!的确,BridgeV2W目前主要依赖视觉信息,但力觉、触觉等其他感觉信息对于机器人与环境的交互至关重要。我认为未来的一个方向是将这些感觉信息也编码成一种“掩码”,与视觉掩码融合,形成多模态的具身表征。例如,可以用颜色或透明度来表示力的大小,或者用纹理来表示触觉信息。这样,视频生成模型就能同时理解机器人的动作以及它与环境的交互力,从而更准确地预测未来。

楼上说的很有道理,但是我觉得也存在一些风险。比如,人类视频中可能包含一些错误的或者不安全的行为,如果机器人学习了这些行为,可能会造成安全隐患。另外,不同的人做同一件事的习惯可能不同,机器人如何从这些差异中学习到正确的行为也是一个挑战。

除了触觉,我觉得还可以考虑加入本体感受。让机器人更清楚地知道自己的关节位置、运动状态等等。这样它就能更精确地控制自己的动作,就像我们闭着眼睛也能摸到自己的鼻子一样。

楼上说的注意力机制确实是个好方向!我再补充一个,可以使用多模态学习,将机器人的动作数据和图像数据同时输入模型,让模型自己学习两种模态之间的关联。这种方法可能更general,但是训练起来应该更复杂。

我觉得最大的风险是人类视频中的动作和机器人可能存在gap。比如人类可以很灵活地用手操作,但机器人可能做不到。这种情况下,模型学到的东西可能对机器人来说是不可行的。

我认为最大的挑战在于“复杂性”。全身人形机器人和多机协作系统本质上都是非常复杂的系统,它们的行为受到多种因素的影响。要让模型能够准确地预测它们的行为,就需要对这些复杂性进行建模和处理。

这可能需要引入一些新的技术,比如图神经网络(GNN)来建模不同身体部位之间的关系,或者使用注意力机制来关注对预测结果影响最大的因素。此外,还需要考虑如何将人类的知识和经验融入到模型中,以帮助模型更好地理解这些复杂系统。

我觉得可以从数据入手,对人类视频进行预处理,比如去除明显的错误操作、标注不合理的行为等。另外,可以结合机器人自身的经验数据,让模型在学习人类视频的同时,也学习机器人自身的“最佳实践”,从而避免学习到错误的动作逻辑。当然,完全避免是不可能的,只能尽量减少。

我觉得可以考虑使用三维场景重建技术,将视频转换为三维点云或网格模型,然后将机器人的动作映射到三维空间中。这样可以更精确地描述机器人的姿态和运动轨迹,但计算复杂度也会更高。

这个问题很有现实意义!真实世界环境中的确存在许多挑战。光照变化可能导致“动作剪影”的视觉特征发生改变,遮挡则可能导致剪影不完整。当然,这些都是可以通过技术手段来缓解的。例如,可以使用对光照不敏感的渲染方法,或者使用图像修复技术来补全被遮挡的剪影。更重要的是,可以在训练数据中加入更多包含光照变化和遮挡的样本,以提高模型的鲁棒性。总而言之,BridgeV2W 在真实世界中的应用还需要进一步的探索和改进。

个人觉得精细操作更有潜力。像医疗手术机器人,需要非常精准的动作控制,如果能提前“预演”手术过程,就能大大降低手术风险,提高成功率。