港科大&字节提出WMPO:让机器人在世界模型中通过VLA强化学习进化

港科大&字节跳动提出WMPO,一种基于世界模型的VLA强化学习方法,让机器人在“想象”中学习,解决模仿学习脆弱和现实强化学习成本高的问题,显著提升策略性能。

原文标题:ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

原文作者:机器之心

冷月清谈:

香港科技大学与字节跳动Seed团队提出的WMPO方法,旨在解决视觉-语言-动作(VLA)模型训练中模仿学习的脆弱性和现实强化学习的高成本问题。WMPO的核心在于构建像素级视觉世界模型,使具身智能代理在“想象”的轨迹中学习,模拟真实环境中的错误和恢复过程。该方法通过策略行为对齐机制,确保世界模型能够准确模拟非专家轨迹及其失败后果。同时,WMPO采用Online GRPO (Group Relative Policy Optimization)在想象空间中进行策略优化,通过“组内竞争”机制,使模型偏好能够从错误中恢复并完成任务的动作路径。此外,WMPO还引入噪声帧增强和帧级动作控制机制,以防止想象画面随时间退化,确保策略优化的稳定性。实验结果表明,WMPO在采样效率、自我纠错能力和执行效率方面均有显著提升,证明了高质量的“想象”可以替代昂贵的“实践”。

怜星夜思:

1、WMPO通过“想象”来训练机器人,这种方式和人类的学习方式有哪些异同?你觉得未来机器人学习会更偏向哪种方式?
2、WMPO中提到的“自我纠错”能力,目前主要在结构化操作任务中观察到。你认为将这种能力泛化到更复杂的、非结构化的环境中,最大的挑战是什么?
3、WMPO的核心是构建高质量的“想象”,但“想象”毕竟不是真实。你认为在哪些场景下,基于“想象”的训练可能会失效,甚至产生负面影响?

原文内容


香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO(World Model-based Policy Optimization),正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互,却能显著提升策略性能,甚至涌现出 自我纠错(Self-correction) 行为。该文章目前已被 ICLR 2026 接收,目前,论文、代码与模型均已开源。


论文第一作者朱方琪是香港科技大学博士生,研究方向包括世界模型,具身智能,多模态大模型等。第二作者为香港科技大学研究型硕士生严正阳。通讯作者为香港科技大学计算机科学及工程系讲座教授郭嵩教授以及字节跳动 Seed 团队马骁。


  • 论文标题:WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

  • 项目网站:https://wm-po.github.io

  • 论文链接:https://arxiv.org/abs/2511.09515

  • 论文代码:https://github.com/WM-PO/WMPO


传统 VLA 训练的 “紧箍咒”:

模仿易碎,交互昂贵


近年来,视觉 - 语言 - 动作(VLA)模型在通用操作任务中展现了令人印象深刻的潜力,但其训练方式长期受制于两大瓶颈。


第一,模仿学习的先天局限。


大多数 VLA 模型依赖专家演示数据进行训练,只学习了 “什么是正确操作”,却几乎没有见过 “犯错之后该怎么办”。在推理时,一旦状态稍微偏离训练分布,错误便会不断累积,最终导致任务彻底失败。这种 “脆弱性” 在长序列操作中尤为明显。


第二,现实强化学习的高昂代价。


强化学习理论上可以解决上述问题,但在真实机器人上进行 RL 交互往往需要数百万次尝试,不仅采样效率极低,还伴随着硬件磨损、安全风险和高昂的实验成本。


已有研究 [1] 尝试借助潜空间世界模型(Latent Space World Model)来缓解现实交互压力,但这类模型通常与预训练 VLA 所使用的真实图像表征存在差异,难以直接用于现有 VLA 框架中的策略优化。



WMPO 的核心突破:

像素级 “想象” 与 Online GRPO


WMPO 提出了一种新的训练范式:将策略优化过程完整地迁移到视觉世界模型中完成,让具身代理在 “想象” 的轨迹中学习如何从错误中恢复。其核心设计包含三个关键要点:


像素级视觉世界模型,让错误也能被真实模拟


与以往在潜空间中进行预测不同,WMPO 构建的是像素级视觉世界模型。模型直接在图像空间中,根据当前观察和动作预测下一帧视觉反馈,从而生成完整的 “想象轨迹”。为了保证世界模型不仅能复现专家行为,还能覆盖策略执行过程中可能出现的各种偏差,研究团队引入了策略行为对齐(Policy Behavior Alignment) 机制:在专家数据预训练的基础上,进一步对策略生成的非专家轨迹进行对齐训练,使世界模型能够准确模拟 OOD 动作及其失败后果。


在想象空间中进行 Online GRPO


在高保真的视觉世界模型中,WMPO 进一步将强化学习过程引入 “想象空间”。具体而言,对于同一初始状态,VLA 模型会在世界模型中生成一组不同的候选轨迹;通过训练得到的奖励函数判断每条轨迹是否成功,并在组内进行相对比较,从而估计优势。这种 Online GRPO(Group Relative Policy Optimization) 的方式不依赖额外的价值网络,显著降低了内存与训练复杂度,同时在长序列生成中表现出更好的稳定性。更重要的是,“组内竞争” 机制使模型能够自动偏好那些即使犯错、也能恢复并完成任务的动作路径。


攻克长时生成难题:让 “想象” 不崩坏


长时间视频预测一直是视觉世界模型面临的核心挑战。为防止想象画面随时间退化,WMPO 引入了:


  • 噪声帧增强(Noisy-frame conditioning)

  • 帧级动作控制机制


这些设计确保模型在生成数百帧 “想象轨迹” 时,仍能保持画面清晰、动作对齐,为策略优化提供稳定可靠的训练环境。



WMPO 架构解析:

像素级演化,三步跨越现实


构建高保真 “沙盒”:视觉世界模型建模


WMPO 不依赖抽象的隐空间预测,而是通过像素级生成直接模拟物理反馈。给定当前观察 和动作 预测下一帧图像: .



策略行为对齐:为了让世界模型能模拟策略生成的 OOD 动作及其后果,研究团队不仅在专家数据上训练,还针对策略生成的非专家轨迹进行对齐,确保模型能够准确预测 “失败案例”。


策略评价与改进:想象空间内的 Online GRPO


WMPO 针对同一初始状态  ,模型在 “想象” 中生成一组不同的轨迹: .


优势估计通过训练一个奖励函数  ,判断每条轨迹是否成功,并计算组内各轨迹奖励   的相对好坏来估计优势:



这种 “组内竞争” 机制让模型能够自动识别并强化那些能从错误中恢复的动作路径。


学习目标:自监督式参数优化


在 “想象” 出的轨迹上,WMPO 最小化以下目标函数,将 VLA 模型从单纯的模仿者转化为自我进化的决策者:



伪代码算法如下:



实验结果:样本效率,

涌现能力,执行效率的惊喜


研究团队在 MimicGen 模拟环境和真实 ALOHA 机器人上对 WMPO 进行了系统评估。


采样效率显著提升。


在仅使用 128 条真实轨迹作为数据预算时,WMPO 的成功率已超过最优 Offline RL 基线 9.8%;当预算提升至 1280 条时,领先优势进一步扩大至 15.2%。



自我纠错行为的涌现。


在 “方块套圈” 等任务中,当基座模型因碰撞或姿态偏移而卡死时,WMPO 训练得到的策略会主动调整动作:例如抬起方块、重新对准目标并再次尝试。这类纠错行为并未出现在专家演示数据中,而是通过 “想象中的失败与比较” 自然涌现。



执行效率更高。


WMPO 训练的策略动作更加连贯、果断,成功轨迹长度明显缩短,减少了犹豫和重复尝试。



需要注意的是,这种自我纠错能力目前主要在结构化操作任务中被系统观察到,其泛化边界仍有待进一步探索。


启示与展望


WMPO 的成功证明了:高质量的 “想象” 足以替代昂贵的 “实践”。通过将 VLA 的强化学习过程解耦到生成式世界模型中,我们不仅解决了采样效率的难题,更让机器人学会了在挫折中自我完善。


正如达芬奇所言,“简单是终极的复杂”,WMPO 用纯粹的视觉模拟,为具身智能走向通用化指明了一条充满想象力的道路。


更多方法细节与实验分析请见原论文。


[1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



这种自我纠错能力,有点像咱们人类的“试错”学习。小时候学骑自行车,摔倒了爬起来继续,慢慢就学会了。WMPO也是一样,它在虚拟世界里摔了很多次,然后学会了怎么爬起来。我觉得像那种需要长期规划的任务,比如玩星际争霸,前期运营失误了,中期怎么调整战略翻盘,这种任务应该也能体现出自我纠错的能力。

自我纠错行为的涌现,我认为是“组内竞争”机制的功劳。在“想象”中,模型会生成多条轨迹,然后通过奖励函数来判断哪条轨迹更好。如果某条轨迹虽然一开始犯了错,但最终通过自我调整完成了任务,那么这条轨迹就会获得更高的评价,模型也会学习到这种纠错策略。除了“方块套圈”,我觉得在一些需要精细操作的任务中,比如用机械臂组装零件,或者在复杂地形中导航,都可能观察到类似的自我纠错行为。

可以尝试结合一些人类反馈,让人来指导模型如何纠错。比如,当模型在非结构化环境中犯错时,让人来告诉模型正确的纠错方法,然后模型再学习这种方法。这种方式叫做“从人类反馈中学习”,可以有效提高模型的泛化能力。

我认为WMPO这种在虚拟环境中训练再迁移到现实的方法,在自动驾驶领域有很大的潜力。可以先在模拟城市中进行大量的训练和测试,然后再应用到真实的道路上,降低了风险和成本。

我觉得最大的挑战在于“泛化性”。现在WMPO在结构化任务中表现良好,是因为环境相对可控,模型可以学习到一些通用的规律。但是,在非结构化环境中,情况就复杂多了,模型需要能够适应各种各样的场景和物体。这就像让一个只会下象棋的AI去玩围棋,难度一下子就上去了。需要让机器人真正的理解世界的规律,才有可能在复杂环境中应用。

影响肯定非常大!你想啊,WMPO本质上是在“做梦”训练机器人,如果梦境(世界模型)都支离破碎、不符合物理规律,那训练出来的机器人岂不是像在魔幻世界里一样行事?策略肯定会“脱轨”。

WMPO在结构化操作任务中的成功,为其在非结构化或更复杂的真实世界场景中的应用奠定了基础。然而,真实世界的复杂性远超模拟环境,WMPO面临的主要挑战包括:1. 世界模型的泛化能力:需要构建能够准确模拟各种复杂环境和交互的视觉世界模型;2. 奖励函数的设计:在复杂场景中,设计能够有效引导策略学习的奖励函数非常困难;3. 策略的鲁棒性:需要在各种不确定性和干扰下,保持策略的稳定性和可靠性。