VLAW:VLA 与世界模型协同进化,清华 & 斯坦福团队再推力作

清华&斯坦福团队提出VLAW框架,通过VLA策略与世界模型协同进化,显著提升机器人操控复杂任务的成功率,为世界模型的实用化奠定基础。

原文标题:再携手!清华陈建宇×斯坦福Chelsea团队发布VLAW,世界模型×VLA协同进化

原文作者:机器之心

冷月清谈:

清华陈建宇团队与斯坦福Chelsea Finn团队联合提出VLAW框架,旨在解决世界模型在具身智能应用中“不准确”和“盲目乐观”的问题。该框架通过VLA策略采集的真实交互数据来提升世界模型的物理保真度,再利用世界模型生成的高质量虚拟数据强化VLA策略,形成一个正向循环。VLAW框架包含四个步骤:1) 使用真实rollout数据微调世界模型;2) 使用视觉-语言奖励模型评判轨迹;3) 在世界模型中生成大量数据;4) 学习成功样本优化策略。实验证明,VLAW校准后的世界模型能够更准确地模拟真实世界的交互,显著提升机器人策略在复杂任务中的成功率。该研究为世界模型的实用化奠定了基础,并为通用机器人策略学习指明了方向。

怜星夜思:

1、VLAW框架通过真实数据来校准世界模型,避免了其“盲目乐观”的问题。除了使用真实数据,还有没有其他方法可以提高世界模型的准确性,例如,引入更多的物理规则或者常识知识?
2、VLAW框架目前在DROID平台上进行了实验,涵盖了五类任务。这些任务主要集中在物理交互方面。未来,VLAW框架可以扩展到哪些更广泛的应用场景?
3、文章提到,VLAW框架的未来方向是“世界模型的规模化和泛化性”。那么,在提升世界模型的规模和泛化性方面,会面临哪些挑战?

原文内容

图片
机器之心编辑部

整个具身智能领域都在探索世界模型的实用化路径。这个被寄予厚望的「数字模拟器」,本应成为机器人训练的核心工具,却因物理保真度低等问题成为「空中楼阁」。


去年年中,谷歌发布了 Genie-3 世界模型,让「可交互的世界模型」第一次以极具冲击力的方式走进大众视野。这是一个可以实时生成、实时交互的「无限世界」:通过控制动作,用户可以展开几乎无限的场景演化路径。



这一能力也迅速被投射到具身智能领域 —— 如果机器人也能在这样的世界模型中进行亿万次的训练,是否意味着通用机器人真的触手可及?


但当研究者真正尝试将「可交互世界模型」用于机器人学习时,很快发现了一些绕不开的本质问题:

 1)世界模型擅长「看起来对」,却难以做到「物理上对」;

 2)由于机器人数据大部分都是成功的 demo,世界模型总是过于乐观;


结果是:世界模型的不准确性 + 过度乐观的动力学假设,使得 VLA 策略几乎无法在其中稳定学习


世界模型「盲目乐观地」自动补全了残缺的形状;世界模型「错误地」将真实世界里倒塌的方块误认为堆叠状态。


清华陈建宇(星动纪元创始人)团队和斯坦福 Chelsea Finn(PI 创始人) 团队基于  (两个团队的首个合作成果),再度携手,联合提出了 VLAW 框架,首次实现了 VLA 策略与动作条件世界模型的协同迭代优化,让两者形成一个「互相促进的闭环」:


  • VLA 策略采集的真实交互数据,反过来用于提升世界模型的物理保真度;

  • 世界模型生成的高质量虚拟数据,再用于持续强化 VLA 策略本身。



  • 论文链接:https://arxiv.org/pdf/2602.12063

  • GitHub 地址:https://github.com/Robert-gyj/Ctrl-World


机器人学技能

试错的「学费」贵到离谱

世界模型成关键期待


每次在真实机器人上的试错(真机 rollout),都需要人工重置环境;一旦模型策略出错,机械臂还可能做出危险操作,必须有人全程盯着。真实世界的后训练数据规模,就这样被死死卡住了脖子,成了具身智能发展的核心瓶颈。


能让机器人在「想象空间」无限试错的世界模型,成为解决这一问题的关键期待 —— 在完美的世界模型里,机器人能在这个「想象空间」里无限试错,生成海量合成数据练手,完全不用碰真实世界里昂贵的硬件设备,试错成本能降到几乎为零。


VLA 模型在真实世界的 rollout 耗时且难以扩展。在 VLAW 中,首先利用有限的真实世界在线 rollout 学习一个动作条件的世界模型,进而在想象中生成大规模的合成数据


世界模型:

一座美轮美奂的「空中楼阁」


理想很丰满,现实很骨感。现有世界模型存在二个致命缺陷,让它成了一座「空中楼阁」,最终只会落得「垃圾进,垃圾出」的下场,让世界模型的实用化成为空谈。


  • 盲目乐观:训练数据大多是成功的动作轨迹,没见过失败案例,导致模型预测的结果全是「理想情况」,根本还原不了真实操作中的失误和意外,无法贴合真实的操作场景;

  • 交互、碰撞模拟困难:对于物体碰撞、摩擦这类接触密集型操作,或是纸巾、书本这类可变形物体的交互,模型根本捕捉不到那些微小但关键的物理细节,甚至会生成模糊的画面,丧失了物理建模的核心价值;


VLAW 破局:

让 VLA 和世界模型双向奔赴

打磨出实用的世界模型


VLA 策略在线 rollout 数据有助于将预训练的世界模型适配到下游任务中。一旦世界模型完成适配,就能为 VLA 策略学习生成海量数据


VLAW 的核心解法,让 VLA 策略的真实数据校准世界模型,以校准后的世界模型反哺 VLA 策略,在这个双向奔赴的过程中,世界模型的缺陷被逐一解决,物理保真度和数据生成能力持续提升。


四步走:

把「让世界模型有用」的想法落地成工程


VLAW 的工作流程:(1) 首先在真实世界中执行策略以收集少量在线轨迹;(2) 利用这些策略 rollout 数据微调预训练的动作条件世界模型,使世界模型适配目标任务并提升其预测保真度;(3) 利用优化后的世界模型,通过策略与世界模型的闭环交互生成大规模合成轨迹;(4) 最终,利用视觉 - 语言奖励模型自动评估奖励,结合真实世界和合成数据优化 VLA 策略


从理论思路到实际落地,VLAW 设计了四个精密咬合的步骤,通过迭代优化实现「让世界模型有用」的核心目标,同时让机器人借助校准后的世界模型完成「在想象中变强」的训练。


第一步:使用真实 rollout 数据微调世界模型,戒掉盲目乐观


研究团队用包含成功与失败的真实机器人在线轨迹数据微调预训练世界模型;同时为了防止模型过拟合,还加入了原始的 DROID 数据集一起训练,让它既能看懂失败,又不会过拟合,确保对真实场景的还原度。


第二步:使用 Qwen-VL 评判轨迹


团队基于 Qwen3-VL-4B-Instruct 微调了一个视觉 - 语言奖励模型,用真实数据里的成功 / 失败标签校准它的判断能力,能自动判别世界模型生成数据的好坏。


第三步:在世界模型中生成大量数据


在校准后的世界模型里,让机器人策略进行大规模的 rollout,每个任务都生成 500 条合成轨迹。这一步就是机器人在「想象中」练手,但因为世界模型已经被真实数据校准,这些「想象中的数据」的质量大大提升。


第四步:学成功样本优化策略,反向为世界模型校准提供更优质数据


把真实世界里的成功轨迹,和世界模型生成的优质合成成功轨迹混在一起,用简单的监督学习目标来更新机器人的 VLA 策略。原因很实际:对于流匹配、扩散这类生成式策略,强化学习需要计算特定状态下的动作概率密度,但这类策略的动作是从噪声一步步推导出来的,概率计算难度极高。团队还从理论上证明,这种加权回归目标,其实是正则化强化学习的一种近似形式,兼顾了简单性和有效性。


而 VLA 策略的优化与性能提升,又能在真实世界中产生更优质的试错数据,为世界模型的下一轮校准与优化提供更好的基础,形成世界模型与 VLA 策略互相成就的闭环。


实测见真章:

模拟器从「空想家」变「务实者」


研究团队设计了一个动作重放的评估方法:把真实机器人的动作序列输入世界模型,让它生成对应的视频,再和真实世界的视频对比,从视频质量和物理交互结果两个维度做定量评估:


在世界模型中重放记录的动作序列。(1) 在 256 个重放片段(每个 5 秒)上评估视频质量指标,所有指标均通过腕部视角相机计算,该视角最能捕捉操作过程中的物体交互;(2) 交互阶段是误差的主要来源,因此在 50 个涉及物理交互的片段上报告事件级混淆矩阵,为每个片段标注交互结果(成功 / 失败),并将模型预测与真实世界结果对比


结果一目了然:

1. 经过真实试错数据微调后的世界模型,在 PSNR、SSIM 等视频质量指标上,全面超过了原始预训练模型,以及仅用专家成功数据微调的模型,生成的视频画面更贴合真实;

2. 更重要的是,它的假阳性率大幅降低,再也不会把失败的操作「脑补」成成功,精准解决了「乐观病」,能真实还原操作中的成败结果。


在相同的初始帧和完全相同的动作序列条件下,在不同世界模型中执行轨迹推演。预训练的 Ctrl-World 模型对于这些接触密集型任务的精度不足;仅用专家轨迹微调的世界模型往往过于乐观;相反,用策略在线 rollout 数据微调的世界模型能准确捕捉底层的物理动力学,与真实世界的结果高度吻合。


3. 哪怕是 20 秒的长时程虚拟试错,生成的视频也能保持较高的物理合理性。


图片


图片

从初始观测开始,在世界模型中进行长时程策略闭环 rollout 的示例。π0.5 策略执行 20 次迭代(20 秒),微调后的世界模型与真实世界高度一致。上:真实世界 下:世界模型


比如舀花生入碗、用纸巾擦白板标记这类需要精准物理交互的任务,预训练的世界模型完全抓不住细节,仅用专家数据微调的模型则过于乐观,而经 VLAW 校准的世界模型,能精准捕捉底层的物理动力学,生成的结果和真实世界高度吻合。


关键数字:

校准后的世界模型

支撑机器人复杂任务性能大幅跃升


实验在 DROID 平台上开展,涵盖五类任务,如图所示。这些任务涉及复杂的物理交互,包括频繁的接触和可变形物体,难以在传统仿真中建模。


研究团队在 DROID 机器人平台上,针对堆叠积木、打开书本、擦除白板标记、舀取颗粒、画圆五类复杂任务做了实测 —— 这些任务都涉及频繁的物理接触或可变形物体操作,是传统仿真模型很难建模的场景,也正是检验世界模型实用价值的关键场景。实验用当前 SOTA 的 π0.5 作为基础策略,Ctrl-World 作为基础世界模型,每轮迭代在 5 类任务上共收集 250 条真实轨迹(每类任务 50 条)用于世界模型的校准,而经校准后的世界模型,最终交出了一份亮眼的成绩单,支撑机器人策略在五类任务中实现成功率的大幅提升。从整体表现来看,各方法的成功率提升对比结果清晰显示 VLAW 的优势。


与基线方法的成功率提升对比。进行了两轮迭代训练,「Ours-1」表示 VLAW 方法经过第一轮在线 rollout 后的结果。总体而言,在多任务设置下 VLAW 持续优于 Filtered BC 和 DSRL 基线


团队还可视化了真实 rollout 与世界模型生成的合成 rollout 对比,清晰展现了经校准后的世界模型,能为真实世界的失败案例找到成功的解决路径,其生成的合成数据具备极高的训练价值。在真实世界 rollout 中,机器人未能抓住勺子、未能画出完整的圆,而借助 VLAW 打磨后的世界模型,能从相同初始帧出发,为这些失败案例生成成功的轨迹,让机器人能从「失败经验」里学会正确的做法,这正是世界模型实用化的核心体现。


GT 代表真实世界的 rollout,0~14 代表世界模型生成的多种想象轨迹,所有轨迹均从相同的 GT 初始帧出发并使用 π0.5 策略。在真实世界 rollout 中,机器人未能抓住勺子(左,GT)且未能画出完整的圆(右,GT)。借助世界模型,我们能为这些失败案例找到成功的轨迹,这对策略学习具有重要意义


不仅如此,消融实验还进一步证明了 VLAW 打磨世界模型的核心逻辑:如果减少世界模型生成的合成数据的数量,或是直接移除校准世界模型的真实数据,机器人策略的性能都会明显下降。这意味着,世界模型的校准质量和合成数据产出量,直接决定了机器人策略的提升效果,也再次印证了「让世界模型变得有用」是 VLAW 框架的核心关键。


消融实验研究了 (1) 用于策略微调的合成数据量(从 500 条减少到 250 条)和 (2) 微调时是否包含真实世界 rollout 数据(50 条)。实验发现,减少合成轨迹数量或移除真实世界数据集都会导致性能下降


未来:

机器人先在想象里「满级」

再落地真实生活


目前 VLAW 的实验验证集中在五类任务上,研究团队表示,未来的研究将围绕世界模型的规模化和泛化性展开,持续提升世界模型的能力,让其能适配更多场景、更强的模型,真正成为通用机器人策略学习的核心工具:


一是把真实试错数据扩展到更多样的机器人操控任务中,提升世界模型的通用泛化能力;

二是结合更先进的视频生成模型,让世界模型的视觉预测和物理建模能力更上一层楼。


在研究团队看来,随着视频生成模型的持续发展,以及大规模机器人交互数据的不断积累,让世界模型变得更通用、更精准、更实用,并基于打磨后的世界模型构建训练范式,将成为通用机器人策略学习的核心方向。


未来的机器人,或许会先在由优质世界模型打造的虚拟世界里完成「满级训练」,把各种技能练到炉火纯青,再无缝落地到真实世界,从容完成各类复杂的操控任务。而 VLAW,正是世界模型实用化的重要探索,为这一未来方向奠定了坚实的基础。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

畅想一下,未来的机器人是不是可以像玩游戏一样,先在虚拟世界里把所有技能都练满级,然后再到现实世界里大显身手?VLAW 就像是给机器人打造了一个完美的“新手村”,让它们可以无压力地提升自己的技能。有了这样的技术,以后我们就可以真正拥有无所不能的“阿童木”了!

其实我觉得“盲目乐观”这个问题,某种程度上也是因为数据集的问题。如果训练数据里失败的案例足够多,模型自然就能学到失败的经验。所以,打造一个包含各种失败案例的数据集,也是解决这个问题的一个思路。

我认为除了VLAW中提到的数据校准之外,还可以尝试以下方法:一是引入更精细的物理引擎,提升模型对物理交互的模拟能力;二是增加模型的复杂度,例如引入注意力机制,使其能够更好地捕捉环境中的关键信息;三是采用对抗训练的方式,让模型在与“判别器”的博弈中不断提升自身的真实性。

问:VLAW框架在哪些类型的机器人任务中最有优势?未来可能的发展方向是什么?

答:根据文章内容和相关研究,VLAW框架在以下类型的机器人任务中最具优势:

1. 涉及复杂物理交互的任务: 例如,堆叠积木、打开书本、擦除白板标记、舀取颗粒、画圆等。这些任务涉及频繁的物理接触和可变形物体操作,传统仿真模型很难建模,而VLAW可以通过真实数据校准世界模型,提高其对物理交互的模拟能力。

2. 需要长时程规划的任务: VLAW可以通过在世界模型中进行长时程虚拟试错,生成高质量的合成数据,帮助机器人学习长期策略。

未来,VLAW框架可能的发展方向包括:

1. 扩展到更多样的机器人操控任务中: 提升世界模型的通用泛化能力,使其能够适应更多场景。

2. 结合更先进的视频生成模型: 进一步提高世界模型的视觉预测和物理建模能力。

3. 探索无监督或自监督的世界模型训练方法: 减少对大量真实数据的依赖。

4. 研究如何将VLAW框架与其他机器人学习方法相结合: 例如,强化学习、模仿学习等。

5. 将VLAW框架应用于更复杂的机器人系统: 例如,多机器人协作、人机协作等。

总的来说,VLAW框架具有很大的发展潜力,有望成为通用机器人策略学习的核心工具。

楼上问了个好问题!VLAW框架中,真实数据主要用于校准世界模型,让它更贴近真实物理规律,避免“盲目乐观”。合成数据则用于扩充训练集,提供更多样的场景和交互,提升模型的泛化能力。如果真实数据比例过高,模型可能会过拟合于当前任务,泛化能力受限;如果真实数据比例过低,模型可能无法准确反映真实世界的物理特性,导致合成数据质量下降,训练效果不佳。所以,找到一个合适的平衡点很重要!

从理论上来说,可以引入领域随机化(Domain Randomization)方法。在训练过程中,对虚拟环境的各种参数(光照、纹理、物理参数等)进行随机扰动,让机器人学会适应不同的环境,从而提高其在真实世界的泛化能力。

我觉得可以从另一个角度思考。与其关注数据本身,不如关注使用了这些数据的VLA策略的表现。如果策略在真实环境中的性能提升了,那就说明世界模型生成的数据质量是合格的,这是一种间接但有效的评估方式。

这问题问到点子上了!感觉 VLAW 还有很多地方可以“精装修”一下:

* 世界模型:现在的世界模型可能还是有点“理想化”,可以考虑加入更多“意外因素”,比如突然刮来一阵风、地面有点滑等等,让模型更能应对真实世界的挑战。
* VLA 策略:现在的策略可能还是有点“死板”,可以尝试让它更“灵活”一些,比如遇到突发情况可以自己调整策略,而不是一味地按照预设的程序执行。
* 虚拟世界:现在的虚拟世界可能还是有点“简陋”,可以考虑让它更“真实”一些,比如加入更逼真的光照效果、更精细的物理模型等等,让机器人在虚拟世界里也能感受到真实世界的挑战。

总之,VLAW 的升级之路还很长,需要不断地“打磨”和“优化”,才能最终成为一个真正实用的机器人学习框架。

#论文研读# VLAW 框架的改进方向可以参考迁移学习、元学习等领域的研究成果。

* 世界模型:可以尝试使用分层世界模型,将环境抽象成不同的层次,提高模型的泛化能力;可以引入自监督学习,让模型从无标签数据中学习环境的表示。
* VLA 策略:可以探索使用元强化学习,让模型在多个任务上学习,提高模型的适应能力;可以引入课程学习,从简单到复杂地训练 VLA 策略。
* 真实世界和虚拟世界的迁移:可以尝试使用域不变特征学习,提取在真实世界和虚拟世界中都存在的特征,减小域之间的差异;可以引入生成对抗网络(GAN),生成更真实的仿真环境。

此外,还可以考虑将 VLAW 框架与其他机器人学习方法相结合,比如模仿学习、逆强化学习等,以进一步提高机器人的学习效率和性能。

这个问题问的很好!真实数据在VLAW中起着至关重要的校准作用,但数据量和质量的平衡确实是个难题。我的理解是,可以通过以下策略来平衡:

1. 数据增强:在真实数据有限的情况下,可以采用数据增强技术,比如旋转、缩放、颜色变换等,来增加数据的多样性,避免模型过拟合。
2. 正则化:在模型训练过程中,加入正则化项,限制模型的复杂度,防止模型记住所有的数据细节,提高模型的泛化能力。
3. 交叉验证:使用交叉验证方法来评估模型的性能,选择合适的模型参数和训练策略,避免模型欠拟合或过拟合。

另外,数据质量也很重要,需要对真实数据进行清洗和筛选,去除噪声和异常值,确保数据的准确性和可靠性。

规模化最大的挑战肯定是计算资源!更大的模型意味着需要更多的显卡、更大的内存,还有更长的训练时间。这对于很多研究团队来说都是一个不小的负担。而且,更大的模型也更容易出现过拟合的问题,需要更多的技巧来防止模型“死记硬背”。