港科大&字节提出WMPO:让机器人在世界模型中通过VLA强化学习进化

港科大&字节跳动提出WMPO,一种基于视觉世界模型的VLA强化学习方法,使机器人在“想象”中进化,提升策略性能并涌现自我纠错行为。

原文标题:ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

原文作者:机器之心

冷月清谈:

香港科技大学与字节跳动Seed团队提出了WMPO方法,该方法通过在视觉世界模型中进行VLA强化学习,使具身智能体能够在“想象”中训练,从而避免了对真实机器人进行大规模强化学习交互的需求。WMPO的核心在于构建像素级视觉世界模型,并引入策略行为对齐机制,使模型能够准确模拟各种动作及其失败后果。同时,WMPO采用Online GRPO方法,在“想象空间”进行策略优化,通过组内竞争机制,使模型能够自动偏好那些即使犯错也能恢复并完成任务的动作路径。实验结果表明,WMPO在采样效率、涌现能力和执行效率方面均有显著提升,为具身智能走向通用化提供了一条新的路径。

怜星夜思:

1、WMPO的“想象”训练方式,在哪些实际应用场景中能够发挥更大的优势?例如,相比于传统的机器人训练方法,它在成本、效率或安全性方面有什么显著的改进?
2、文章提到WMPO涌现了自我纠错能力,但主要在结构化操作任务中观察到。那么,如何提升WMPO在非结构化环境中的泛化能力?例如,如何让机器人在复杂的家庭环境中,也能像在实验室里一样灵活地纠正错误?
3、WMPO通过视觉世界模型进行训练,是否会受到视觉信息本身的局限性影响?例如,在光照条件变化、物体遮挡等情况下,WMPO的性能会受到怎样的影响?如何解决这些问题?

原文内容


香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO(World Model-based Policy Optimization),正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互,却能显著提升策略性能,甚至涌现出 自我纠错(Self-correction) 行为。该文章目前已被 ICLR 2026 接收,目前,论文、代码与模型均已开源。


论文第一作者朱方琪是香港科技大学博士生,研究方向包括世界模型,具身智能,多模态大模型等。第二作者为香港科技大学研究型硕士生严正阳。通讯作者为香港科技大学计算机科学及工程系讲座教授郭嵩教授以及字节跳动 Seed 团队马骁。


  • 论文标题:WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

  • 项目网站:https://wm-po.github.io

  • 论文链接:https://arxiv.org/abs/2511.09515

  • 论文代码:https://github.com/WM-PO/WMPO


传统 VLA 训练的 “紧箍咒”:

模仿易碎,交互昂贵


近年来,视觉 - 语言 - 动作(VLA)模型在通用操作任务中展现了令人印象深刻的潜力,但其训练方式长期受制于两大瓶颈。


第一,模仿学习的先天局限。


大多数 VLA 模型依赖专家演示数据进行训练,只学习了 “什么是正确操作”,却几乎没有见过 “犯错之后该怎么办”。在推理时,一旦状态稍微偏离训练分布,错误便会不断累积,最终导致任务彻底失败。这种 “脆弱性” 在长序列操作中尤为明显。


第二,现实强化学习的高昂代价。


强化学习理论上可以解决上述问题,但在真实机器人上进行 RL 交互往往需要数百万次尝试,不仅采样效率极低,还伴随着硬件磨损、安全风险和高昂的实验成本。


已有研究 [1] 尝试借助潜空间世界模型(Latent Space World Model)来缓解现实交互压力,但这类模型通常与预训练 VLA 所使用的真实图像表征存在差异,难以直接用于现有 VLA 框架中的策略优化。



WMPO 的核心突破:

像素级 “想象” 与 Online GRPO


WMPO 提出了一种新的训练范式:将策略优化过程完整地迁移到视觉世界模型中完成,让具身代理在 “想象” 的轨迹中学习如何从错误中恢复。其核心设计包含三个关键要点:


像素级视觉世界模型,让错误也能被真实模拟


与以往在潜空间中进行预测不同,WMPO 构建的是像素级视觉世界模型。模型直接在图像空间中,根据当前观察和动作预测下一帧视觉反馈,从而生成完整的 “想象轨迹”。为了保证世界模型不仅能复现专家行为,还能覆盖策略执行过程中可能出现的各种偏差,研究团队引入了策略行为对齐(Policy Behavior Alignment) 机制:在专家数据预训练的基础上,进一步对策略生成的非专家轨迹进行对齐训练,使世界模型能够准确模拟 OOD 动作及其失败后果。


在想象空间中进行 Online GRPO


在高保真的视觉世界模型中,WMPO 进一步将强化学习过程引入 “想象空间”。具体而言,对于同一初始状态,VLA 模型会在世界模型中生成一组不同的候选轨迹;通过训练得到的奖励函数判断每条轨迹是否成功,并在组内进行相对比较,从而估计优势。这种 Online GRPO(Group Relative Policy Optimization) 的方式不依赖额外的价值网络,显著降低了内存与训练复杂度,同时在长序列生成中表现出更好的稳定性。更重要的是,“组内竞争” 机制使模型能够自动偏好那些即使犯错、也能恢复并完成任务的动作路径。


攻克长时生成难题:让 “想象” 不崩坏


长时间视频预测一直是视觉世界模型面临的核心挑战。为防止想象画面随时间退化,WMPO 引入了:


  • 噪声帧增强(Noisy-frame conditioning)

  • 帧级动作控制机制


这些设计确保模型在生成数百帧 “想象轨迹” 时,仍能保持画面清晰、动作对齐,为策略优化提供稳定可靠的训练环境。



WMPO 架构解析:

像素级演化,三步跨越现实


构建高保真 “沙盒”:视觉世界模型建模


WMPO 不依赖抽象的隐空间预测,而是通过像素级生成直接模拟物理反馈。给定当前观察 和动作 预测下一帧图像: .



策略行为对齐:为了让世界模型能模拟策略生成的 OOD 动作及其后果,研究团队不仅在专家数据上训练,还针对策略生成的非专家轨迹进行对齐,确保模型能够准确预测 “失败案例”。


策略评价与改进:想象空间内的 Online GRPO


WMPO 针对同一初始状态  ,模型在 “想象” 中生成一组不同的轨迹: .


优势估计通过训练一个奖励函数  ,判断每条轨迹是否成功,并计算组内各轨迹奖励   的相对好坏来估计优势:



这种 “组内竞争” 机制让模型能够自动识别并强化那些能从错误中恢复的动作路径。


学习目标:自监督式参数优化


在 “想象” 出的轨迹上,WMPO 最小化以下目标函数,将 VLA 模型从单纯的模仿者转化为自我进化的决策者:



伪代码算法如下:



实验结果:样本效率,

涌现能力,执行效率的惊喜


研究团队在 MimicGen 模拟环境和真实 ALOHA 机器人上对 WMPO 进行了系统评估。


采样效率显著提升。


在仅使用 128 条真实轨迹作为数据预算时,WMPO 的成功率已超过最优 Offline RL 基线 9.8%;当预算提升至 1280 条时,领先优势进一步扩大至 15.2%。



自我纠错行为的涌现。


在 “方块套圈” 等任务中,当基座模型因碰撞或姿态偏移而卡死时,WMPO 训练得到的策略会主动调整动作:例如抬起方块、重新对准目标并再次尝试。这类纠错行为并未出现在专家演示数据中,而是通过 “想象中的失败与比较” 自然涌现。



执行效率更高。


WMPO 训练的策略动作更加连贯、果断,成功轨迹长度明显缩短,减少了犹豫和重复尝试。



需要注意的是,这种自我纠错能力目前主要在结构化操作任务中被系统观察到,其泛化边界仍有待进一步探索。


启示与展望


WMPO 的成功证明了:高质量的 “想象” 足以替代昂贵的 “实践”。通过将 VLA 的强化学习过程解耦到生成式世界模型中,我们不仅解决了采样效率的难题,更让机器人学会了在挫折中自我完善。


正如达芬奇所言,“简单是终极的复杂”,WMPO 用纯粹的视觉模拟,为具身智能走向通用化指明了一条充满想象力的道路。


更多方法细节与实验分析请见原论文。


[1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



这种自我纠错能力,有点像咱们人类的“试错”学习。小时候学骑自行车,摔倒了爬起来继续,慢慢就学会了。WMPO也是一样,它在虚拟世界里摔了很多次,然后学会了怎么爬起来。我觉得像那种需要长期规划的任务,比如玩星际争霸,前期运营失误了,中期怎么调整战略翻盘,这种任务应该也能体现出自我纠错的能力。

自我纠错行为的涌现,我认为是“组内竞争”机制的功劳。在“想象”中,模型会生成多条轨迹,然后通过奖励函数来判断哪条轨迹更好。如果某条轨迹虽然一开始犯了错,但最终通过自我调整完成了任务,那么这条轨迹就会获得更高的评价,模型也会学习到这种纠错策略。除了“方块套圈”,我觉得在一些需要精细操作的任务中,比如用机械臂组装零件,或者在复杂地形中导航,都可能观察到类似的自我纠错行为。

可以尝试结合一些人类反馈,让人来指导模型如何纠错。比如,当模型在非结构化环境中犯错时,让人来告诉模型正确的纠错方法,然后模型再学习这种方法。这种方式叫做“从人类反馈中学习”,可以有效提高模型的泛化能力。

我认为WMPO这种在虚拟环境中训练再迁移到现实的方法,在自动驾驶领域有很大的潜力。可以先在模拟城市中进行大量的训练和测试,然后再应用到真实的道路上,降低了风险和成本。

我觉得最大的挑战在于“泛化性”。现在WMPO在结构化任务中表现良好,是因为环境相对可控,模型可以学习到一些通用的规律。但是,在非结构化环境中,情况就复杂多了,模型需要能够适应各种各样的场景和物体。这就像让一个只会下象棋的AI去玩围棋,难度一下子就上去了。需要让机器人真正的理解世界的规律,才有可能在复杂环境中应用。

影响肯定非常大!你想啊,WMPO本质上是在“做梦”训练机器人,如果梦境(世界模型)都支离破碎、不符合物理规律,那训练出来的机器人岂不是像在魔幻世界里一样行事?策略肯定会“脱轨”。

WMPO在结构化操作任务中的成功,为其在非结构化或更复杂的真实世界场景中的应用奠定了基础。然而,真实世界的复杂性远超模拟环境,WMPO面临的主要挑战包括:1. 世界模型的泛化能力:需要构建能够准确模拟各种复杂环境和交互的视觉世界模型;2. 奖励函数的设计:在复杂场景中,设计能够有效引导策略学习的奖励函数非常困难;3. 策略的鲁棒性:需要在各种不确定性和干扰下,保持策略的稳定性和可靠性。

我觉得最大的不同是人类的“想象”是基于已有的认知和经验的抽象,而WMPO的“想象”更多是基于数据的生成和模拟。未来,两者可能会结合,机器人先通过数据进行初步学习,然后通过类似人类的抽象推理进行更高级的决策。

非结构化环境最大的挑战是状态空间太复杂了,很难建立一个足够精确的世界模型。另一个问题是奖励函数的设计,在复杂环境下很难定义什么是“好”,什么是“坏”,这会导致策略学习变得非常困难。

我觉得还有伦理问题。如果机器人的“想象”中包含一些歧视或偏见,那么训练出来的模型可能会产生不公平或歧视性的行为。这需要我们在设计算法时,充分考虑伦理因素,避免将人类的偏见引入到机器人中。

我觉得除了模型本身,数据也很重要。现在的数据集大多是预先录制好的,缺乏多样性和互动性。如果能建立一个更开放、更动态的数据平台,让机器人可以主动探索、收集数据,那就能大大提升世界模型的学习效果,就像小朋友多玩玩具一样。

WMPO的核心在于构建一个高保真的世界模型,这在很大程度上决定了其适用范围。自动驾驶和医疗诊断领域当然可以尝试,但挑战在于这些领域的环境复杂性远高于文中提到的结构化操作任务。例如,自动驾驶需要模拟各种极端天气、突发事件等,而医疗诊断则需要处理不同患者的生理差异。此外,这两个领域对安全性和可靠性的要求极高,WMPO的“想象”结果必须经过严格验证才能应用。

个人觉得,提高世界模型的保真度,一方面要加大训练数据量,让模型见过更多“世面”;另一方面,可以引入更先进的建模技术,比如Transformer之类的,让模型能更好地理解复杂场景。至于泛化能力,可能需要让模型学习不同环境的共性特征,避免过度拟合特定场景。

除了数据和模型本身,我觉得还可以考虑结合其他模态的信息,比如语音、文本等,构建多模态的世界模型。这样可以更全面地理解环境,提高预测的准确性和鲁棒性。另外,引入知识图谱等外部知识库,也有助于模型更好地推理和泛化。

我觉得WMPO这种在虚拟环境里训练AI的方法,很有潜力推广到其他领域。比如自动驾驶,可以在模拟城市里让AI练习各种路况,比真实道路测试安全多了。医疗诊断上,也能用大量病例数据训练AI,提高诊断准确率。不过,不同领域挑战也不同。自动驾驶要保证模拟环境足够逼真,才能让AI学到的技能在现实中管用;医疗诊断则要解决数据隐私和伦理问题。

抛砖引玉一下,我认为可以从以下几个方面入手:1. 提升数据质量:采用更先进的传感器和数据采集技术,获取更精确、更全面的环境信息;2. 改进模型架构:探索更有效的神经网络结构,例如引入注意力机制、图神经网络等,提高模型对复杂场景的建模能力;3. 引入对抗训练:通过对抗训练,提高模型的鲁棒性和泛化能力;4. 结合领域知识:将领域知识融入模型设计中,例如在自动驾驶领域,可以引入交通规则、驾驶行为等知识,提高模型的性能。

问题3:我觉得WMPO就像一个擅长解数学题的学生,给他一个公式,他能很快算出答案。但如果让他去处理现实生活中的问题,比如解决人际关系纠纷,可能就束手无策了。非结构化任务就像现实生活,充满了不确定性和模糊性。

可能面临的挑战:

* “脑补过度”: 模型可能会根据有限的信息进行过度推断,导致错误的决策。
* “选择困难”: 在面对多种可能性时,模型可能会无法做出最佳选择。
* “反应迟钝”: 模型可能无法及时适应环境的变化,导致任务失败。

问题3:WMPO在结构化任务中表现出色,但在非结构化、更复杂的任务中,可能会遇到以下挑战:

* 世界模型构建难度: 非结构化环境的复杂性更高,难以构建精确的视觉世界模型。
* 泛化性问题: 在模拟环境中学习的策略可能难以泛化到真实世界的各种场景。
* 奖励函数设计困难: 非结构化任务的目标更加模糊,难以设计有效的奖励函数。

问题1:像素级视觉世界模型是WMPO的核心,它的精确度直接关系到“想象”的质量。想象一下,如果这个世界模型模拟出来的环境和真实环境差异很大,那机器人学到的策略很可能在现实世界中根本没法用。比如说,在模型里一个简单的动作就能完成任务,但现实中可能需要更复杂的微调和反馈。

如果世界模型不精确,会带来以下问题:

* 策略失效: 机器人学到的策略在真实环境中表现不佳,甚至完全失效。
* 负迁移: 错误的“想象”可能会误导策略学习,导致性能下降。
* 泛化性差: 模型难以适应新的环境和任务,鲁棒性不足。