VLA:具身智能的Action Space探索之路

探索VLA(视觉-语言-动作模型)在具身智能中的演化,解析其技术方案与应用前景,以及头部AI公司与创业团队的实践。

原文标题:探索 Action Sapce,VLA 在如何演化?

原文作者:机器之心

冷月清谈:

本文探讨了视觉-语言-动作模型(VLA)的发展与演化,VLA作为一种多模态模型,在具身智能领域受到广泛关注。文章首先回顾了2025年初VLA领域的快速进展,包括谷歌、英伟达、微软等头部AI公司以及Figure、银河通用、智元机器人等创业团队发布的VLA模型。接着,文章阐述了VLA的概念,强调其在处理语言条件下的机器人任务中的重要性,并对比了VLA与早期深度强化学习方法的优势。此外,文章还介绍了中科院自动化所研究者对VLA方案的分类,包括经典方案、基于预训练LLM/VLM的方案、基于扩散模型的方案等。最后,文章提及了Sergey Levine的PI团队、Figure AI和智源机器人等公司在VLA领域的实践与探索,以及它们各自VLA模型的能力特征和技术方案。

怜星夜思:

1、VLA模型架构差异大,未来会趋同吗?会出现一个“标准VLA”吗?
2、文章提到VLA在家庭日常任务中也有应用潜力,你觉得VLA在家庭场景中最有可能先落地在哪些方面?
3、文章中提到智元机器人发布了Go-1基座模型及ViLLA架构,大家觉得这种国产VLA方案的优势和劣势分别是什么?

原文内容

机器之心PRO · 会员通讯 Week 16

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1. 探索 Action Sapce,VLA 在如何演化?

VLA 目前有哪些主要研究方向,需要解决哪些关键挑战?在 VLA 的关键问题及研究路径上,业界有哪些共识与非共识?...

2. 5 亿月活用户的 OpenAI ,有哪些「软肋」?

Sam Altman 如何回应 OpenAI 的版权问题?在安全实践上被评为「D+」的 OpenAI 有哪些关键 「软肋」?AGI 时刻何时的到来是否真的能为人来带来好处?OpenAI 对人工智能安全性保证都有哪些实际上的动作?...


本期完整版通讯含 2 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 10 项,国外方面 10 项。
本期通讯总计 18529 字,可免费试读至 8% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  探索 Action Sapce,VLA 在如何演化?
从 Language Space 到 Action Space 的探索之路,VLA 在如何演化?

1、2025 年初,具身智能领域捷报频传,诸如 Figure AI、英伟达、智元机器人等具身智能公司及团队陆续发布产品 demo 和模型进展,众多 VLA 模型相继涌现,也让这种多模态模型受到许多关注。

① 许多 VLA 进展来自头部 AI 公司,如谷歌团队发布了 Gemini Robotics,英伟达于 GTC 发布了 Groot N1,微软则发布了 VLA 基础模型 Magma。

② 许多国内外创业团队同样发布了各自的 VLA 模型,如 Figure 发布了 Helix、银河通用发布了 GraspVLA、智元机器人则发布了 Go-1 基座模型及 ViLLA 架构。

2、这些 VLA 模型在发布时均展示了其对机器人控制任务的优越性能,但由于不同模型各有特点,模型架构均有差异,引发业界开始关注「VLA」的特征和方案差异。

3、VLA(视觉-语言-动作模型)是在具身智能研究中产生的一种多模态模型,用于处理具身智能系统所面对语言条件机器人任务。谷歌 DeepMind 在 2023 年 7 月发布的 RT-2 被认为是首个 VLA,而后这种概念在具身智能、机器人和智驾领域中迅速扩散。

① 具身智能被认为是实现 AGI 的有效路径,其特征在于涉及控制具身智能体在物理世界中执行任务,而机器人是则是具身智能中最为突出的研究领域。

② 在语言条件下的机器人任务中,策略必须具备理解语言指令、视觉感知环境和生成适当行动的能力,因而需要 VLAs 的多模态能力。

③ 与早期的深度强化学习方法相比,VLAs 在复杂环境中的多功能性、灵活性和泛化能力更强,因此它们不仅适用于受控环境(如工厂)中的任务,也适用于家庭日常任务。

④ 在 RT-2 发布不久后,智驾公司 Wayve 团队在 2023 年 9 月提出了相似概念的视觉-语言-动作模型(VLAM),称为 LINGO-1,可通过语言解释自动驾驶系统的行为逻辑。(详情请见 Pro 会员通讯 2023 年 Week 38 期)

4、作为一种新型的多模态模型,VLA 的概念在近年来不断得到探索,并发展出许多不同的技术方案。2024 年底,中科院自动化所的研究者在知乎文章中分享了他对 VLA 的思考,并尝试总结了各类 VLA 方案的特征。

① 该文章将 VLA 方案分为五种类别,分别是经典方案、基于预训练 LLM/VLM 的方案、基于扩散模型的方案、结合 LLM 与扩散模型的方案和结合视频生成与逆动力学的方案。


表:各类 VLA 技术方案汇总[1-1]


5、在各类 VLA 方案中,Sergey Levine 的创业公司 PI、Figure AI 和智源机器人作为具身智能领域的知名创企,其相关先后发布了具身智能系统。这些模型因各自的能力特征引起了极大关注。[1-2]

6、π0 是 Sergey Levine 的 PI 团队在 2024 年 10 月提出的端到端 VLA,也被该团队称为「通用机器人策略」。[1-3]

① π0 由预训练的 VLM 作为基础骨干,采用了一种基于流匹配(flow matching)的扩散方法,加入独立的动作专家模块构成。

这个问题很有意思!VLA模型现在百花齐放,各自有特点,我觉得短期内很难出现一个统一的标准。各个团队的应用场景和侧重点不一样,模型架构肯定也会有差异。不过,长期来看,随着研究的深入,可能会有一些通用的模块或者设计理念被广泛采用,形成一种“事实标准”,但完全统一的可能性不大。

我觉得VLA架构趋同的可能性不大,毕竟现在还处于探索阶段。现在各家都在尝试不同的方法,像是基于LLM、扩散模型等等,各有千秋。等到技术成熟了,可能会有一些共识出现,但完全一样不太可能,毕竟还要考虑商业竞争嘛。

我更看好VLA在家庭服务机器人上的应用,例如帮助老年人或者残疾人完成一些简单的家务,比如取物、打扫卫生等等。 这需要VLA具备强大的环境感知和操作能力, 也是一个很有潜力的方向。

家庭场景的话,我觉得VLA最有可能先落地在智能家居控制方面。比如,通过语音指令就能控制家里的电器,调节温度、开关灯等等。现在的智能音箱虽然也能做到,但是VLA可以结合视觉信息,更精准地理解用户的意图,体验会更好。

我不认为会出现所谓的“标准VLA”。 不同的机器人任务对VLA的能力需求不同,例如,工业机器人需要高精度和重复性,而服务机器人则需要更强的泛化能力和人机交互能力。 因此,VLA的发展方向应该是针对特定任务进行优化,而不是追求大一统。

国产VLA方案的优势很明显,更了解国内市场需求,能够更好地结合本土数据和文化,开发出更符合中国用户习惯的产品。 劣势可能在于起步较晚,技术积累和人才储备方面与国际领先企业相比还有差距,生态建设也需要时间。

优势在于软硬件结合,毕竟智元本身就是做机器人的,能更好地将VLA模型与机器人本体进行集成优化。 劣势可能是算法的创新性不足,还需要在核心算法上有所突破, 才能在国际市场上占据一席之地。

我觉得是数据优势吧,毕竟中国的数据量太大了,可以用来训练更强大的VLA模型。 但是国产VLA方案在开源社区的贡献可能还不太够, 需要更多地参与到国际合作中,才能提升影响力。

我觉得是陪伴功能,比如陪孩子玩,讲故事,或者跟老人聊天。现在很多家庭缺的就是这种情感上的连接,如果VLA能在这方面有所突破,那市场潜力绝对很大。当然,安全性也很重要,要防止AI给出不恰当的建议。