WorldVLA:融合世界模型与动作模型的全自回归模型,实现图像与动作的统一理解与生成

阿里巴巴达摩院提出WorldVLA,融合世界模型与动作模型,实现图像与动作的统一理解与生成,并在多个任务中取得显著性能提升。

原文标题:首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

原文作者:机器之心

冷月清谈:

阿里巴巴达摩院提出了 WorldVLA,首次将世界模型和动作模型融合到一个全自回归模型中,该模型统一了文本、图像、动作的理解和生成。传统VLA模型缺乏对动作的深入理解,而世界模型无法直接生成动作输出。WorldVLA通过三个独立的编码器处理图像、文本和动作数据,共享词汇表以实现跨模态任务。它利用动作生成视觉表示,学习环境中的物理动态规律,同时动作模型增强了对视觉信息的理解。为解决自回归模型中连续生成动作导致的性能下降问题,提出了动作注意力掩码策略,有效缓解了错误累积。实验结果表明,WorldVLA在LIBERO基准测试中,相比传统动作模型和世界模型,在抓取成功率和视频生成质量上都有显著提升,验证了图像与动作统一理解与生成框架的优势。

怜星夜思:

1、WorldVLA通过融合世界模型和动作模型,实现了性能的提升。你认为这种融合思路,还能应用在哪些其他领域?
2、文章中提到的“动作注意力掩码策略”有效缓解了自回归模型中动作生成时的误差累积问题。那么,你认为还有没有其他方法可以解决这个问题?
3、WorldVLA在LIBERO基准测试中取得了不错的成绩,但LIBERO benchmark主要针对的是机械臂操作。你认为如果要将WorldVLA应用到更复杂的机器人任务中(例如人形机器人),还需要解决哪些问题?

原文内容


岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。研究方向主要是:具身智能 VLA 模型,世界模型。


阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型



  • 论文标题:WorldVLA: Towards Autoregressive Action World Model

  • 论文地址:https://arxiv.org/pdf/2506.21539

  • 代码地址:https://github.com/alibaba-damo-academy/WorldVLA


研究简介


近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型的发展成为机器人动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态大语言模型(Multimodal Large Language Models, MLLMs)基础上,添加一个动作输出头或专门的动作模块,以实现对动作的生成。MLLMs 在感知和决策方面表现出色,使得 VLA 模型在多种机器人任务中展现出良好的泛化能力。然而,这些模型存在一个显著的局限性:它们往往缺乏对动作本身的深入理解。在现有方法中,动作只是作为输出结果处理,并未被当作输入进行分析和建模。相比之下,世界模型(World Models)能够基于当前观测与动作预测未来的视觉状态,从而同时理解视觉信息和行为动态。尽管具备这一优势,世界模型却无法直接生成动作输出,这导致其在需要显式动作规划的应用场景中存在功能上的空白。


为了解决 VLA 模型与世界模型各自的局限,我们提出 WorldVLA —— 一种基于自回归机制的统一动作与图像理解与生成模型。如下图所示,WorldVLA 使用三个独立的编码器分别处理图像、文本和动作数据。不同模态的 token 被设计为共享相同的词表,从而使得在同一个语言模型架构下可以统一完成跨模态的理解与生成任务。



其中,世界模型部分通过输入动作来生成对应的视觉表示,从而学习环境中的物理动态规律。这种对动作的解读与物理世界的建模对于动作模型的决策至关重要。与此同时,嵌入在 WorldVLA 中的动作模型也反过来增强了对视觉信息的理解,进一步提升世界模型在图像生成方面的准确性。这种双向增强机制使整个系统在理解和生成图像与动作方面更加鲁棒和全面。


此外,已有研究表明,动作分块(action chunking)和并行解码技术对动作模型的性能有显著影响。然而,我们在实验中发现,在自回归模型中连续生成多个动作时会导致性能下降。主要原因在于,预训练的多模态语言模型主要接触的是图像和文本,而对动作的学习较少,因此在动作生成任务中泛化能力有限。而在自回归模型中,后续动作的生成依赖于前面的预测结果,一旦出现错误,便会随时间不断传播放大。为了解决这一问题,我们提出了一种动作注意力掩码策略(action attention masking strategy),在生成当前动作时选择性地屏蔽掉之前的动作信息。这种方法有效缓解了错误累积的问题,在动作分块生成任务中带来了显著的性能提升。


在 LIBERO 基准测试中,我们的 WorldVLA 相比使用相同主干网络的传统动作模型,在抓取成功率上提升了 4%。相较于传统的世界模型,WorldVLA 在视频生成质量上表现更优,FVD(Fréchet Video Distance)指标降低了 10%。这些结果充分说明,将世界模型与动作模型融合所带来的协同增益,验证了图像与动作统一理解与生成框架的优势。在动作分块生成任务中,传统自回归方式会导致抓取成功率下降 10% 到 50%。但引入我们的注意力掩码策略后,性能下降得到了明显缓解,抓取成功率提升了 4% 到 23%。


研究方法


VLA 模型可以根据图像理解生成动作;世界模型可以根据当前图像和动作生成下一帧图像;WorldVLA 将将两者融合,实现图像与动作的双向理解和生成,如下图所示。



WorldVLA 使用独立的编码器分别处理图像、文本和动作,并让这些模态共享同一个词汇表,从而在单一的大语言模型架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性,也增强了图像预测的质量。WorldVLA 使用 Action Model 数据和 World Model 数据来训练模型。Action Model 是根据图片输入和文本指令输入来输出动作,数据格式如下:



World Model 根据当前帧图片和动作来生成下一帧图片,数据格式如下:



在一次性输出多个 action 时,使用默认的自回归范式会使得效果变差。原因是动作模态并不在原本多模态大模型的预训练中,因此泛化能力较差,这样生成多个动作时就会有误差累积的问题。为了解决这个问题,WorldVLA 提出了一种 attention mask 策略,使得生成动作时只能看见前面的图片而不能看见前面的动作,从而解决动作累计误差问题,如下图所示。



实验结果


在 LIBERO benchmark 上的实验结果如下图所示,在没有预训练的情况下超越了需要预训练的全自回归模型 OpenVLA。



下图为 action model 的消融实验结果。对比 row2 和 row1 以及 row5 和 row4 可以看出,world model 的加入可以给 action model 带来更好的结果。Row3 可以看出,使用默认的 attention mask 会导致某些任务的成功率下降,但是从 row4 看出,我们提出的 attention mask 可以全面大幅提升任务的成功率。



Action Model 可视化 (Text + Image -> Action)


下图可以看出 WorldVLA 可以根据指令完成对应的动作。


图片


图片


图片


World Model 可视化 (Action + Image -> Image)


下图可以看出 WorldVLA 可以根据动作和图片来生成下一帧图片。


图片


图片


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这种融合的关键在于不同模型优势互补。比如在医疗诊断中,可以融合医学影像分析模型(世界模型,理解图像信息)和病症预测模型(动作模型,预测发展趋势),辅助医生更准确地诊断和制定治疗方案。再比如金融风控,融合市场环境分析模型(世界模型)和交易决策模型(动作模型),更有效地识别和预防风险。

人形机器人要复杂多了,首先是动作空间维度会更高,控制更加困难。可能需要更精细的动作编码方式,或者引入分层控制结构,先规划高级别的动作目标,再分解成低级别的关节控制指令。另外,人形机器人对环境的感知要求也更高,需要处理更复杂的视觉信息,例如光照变化、遮挡等。

安全问题绝对是重中之重!人形机器人可能会与人类进行交互,甚至在人类身边工作,所以必须保证其动作的安全性,避免对人类造成伤害。这需要在模型中加入安全约束,或者使用一些安全验证技术,确保机器人的行为不会超出安全范围。

能量效率也是个大问题。人形机器人需要消耗大量的能量来维持运动和平衡,所以需要在模型中考虑能量消耗的因素,优化动作规划,减少不必要的能量浪费。而且,人形机器人需要更强大的泛化能力,能够在不同的环境和任务中灵活适应。

我觉得这种融合思路很有启发性!除了机器人领域,还可以考虑用在自动驾驶上,把环境感知模型(类似世界模型)和车辆控制模型(类似动作模型)融合,提升自动驾驶的决策和控制能力。或者在游戏AI中,把游戏世界的理解和AI角色的行为决策结合起来,让AI更加智能和自然。

我想到一个可能有点偏的,但我觉得有潜力。就是内容创作领域!可以把内容理解模型(理解用户喜好和流行趋势)和内容生成模型(生成文章、视频等)融合,打造更懂用户,更能产出爆款内容的AI创作工具。

我有个比较玄学的想法,能不能引入“后悔药”机制?就是让模型在生成动作序列的过程中,可以回溯到之前的某个状态,重新生成后续的动作。当然,这需要解决如何判断何时回溯,以及如何保证回溯后的动作序列一致性的问题。

可以考虑使用Transformer架构中的一些其他的trick,例如使用更复杂的attention机制,或者引入残差连接等,来增强模型的稳定性和鲁棒性。另外,还可以尝试使用一些其他的预训练技术,来提高模型在动作生成任务中的泛化能力。

我觉得可以尝试引入强化学习的思想。在生成动作序列的过程中,让模型根据环境的反馈(例如奖励或惩罚)来调整后续的动作,从而避免误差的累积。这就像人类学习一样,不断试错,不断优化。