智元机器人发布ViLLA架构与通用具身基座模型GO-1：告别机器人“看得懂做不来”的困境

almosthuman2014 · 2025 年3 月 10 日 11:23

智元发布ViLLA架构与通用具身基座模型GO-1，让机器人能看懂人类视频并执行动作，大幅提升任务成功率，加速机器人通用智能发展。

原文标题：稚晖君的「好东西」揭晓！首个通用具身基座模型，机器人告别「看得懂做不来」

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650958755&idx=1&sn=671d64f2069381adfa9da4d9217d399e&

冷月清谈：

智元机器人发布了Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型GO-1，旨在解决机器人训练中数据难题和现有VLA架构的局限性。ViLLA架构通过预测Latent Action Tokens，使机器人能够将人类动作视频转化为可执行的动作序列，从而有效利用互联网上的海量视频数据。GO-1大模型基于ViLLA架构，整合视觉、语言、动作、触觉等多模态输入，规划具体动作，直接输出机器人的动作执行序列。它通过学习互联网数据、人类操作视频、仿真数据和真机示教数据，具备了强大的迁移学习能力，能够快速适应新场景和新任务。实验结果表明，GO-1在多个任务上的成功率显著高于现有模型。智元还开源了AgiBot World数据集，推动业界共享。

怜星夜思：

1、GO-1模型通过学习人类操作视频来增强机器人的动作能力，那么你觉得这种方式最大的挑战是什么？如何确保机器人不会模仿人类的错误动作或者不安全的操作？
2、ViLLA架构中提到的Latent Action Tokens（隐式动作标记）是如何帮助机器人理解和规划动作的？这个概念在其他AI领域是否有类似的应用？
3、GO-1模型强调了“一脑多形”的能力，即一个模型可以适配多种机器人形态。你认为这种通用模型在机器人发展中有什么重要意义？实现“一脑多形”还面临哪些挑战？

原文内容

机器之心报道

机器之心编辑部

上周五，稚晖君在微博上预告，「下周有好东西发布」。

还没进入「下周」多久，智元机器人的「好东西」揭晓了，还是双重惊喜：Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。

机器人训练，苦数据难久矣。一方面是认知维度的数据：互联网上海量的文本和图片数据，帮助机器人建立基础认知，理解世界是什么样的。

另一方面是动作维度的数据，主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据，还有机器人在实际环境中实操得来的真机示教数据。

智元机器人将机器人的训练数据划分为四个层次

然而现有的 VLA（Vision-Language-Action）架构，主要依赖真机和合成数据。

我们每天刷的短视频有很多可供机器人学习的操作，但不能直接用，需要「翻译」成机器人能理解的语言。

因此，机器人很难做到看完人类的视频教程，脑子学会了，手学会了，直接上手做好了。

没有充分激活人类 / 跨本体操作视频数据这个宝贵的数据来源，机器人迭代的成本更高，进化的速度也更慢了。

那么，怎样的架构才能充分利用好这些数据呢？

智元提出了全新的 Vision-Language-Latent-Action (ViLLA) 架构。

与 VLA 架构相比，ViLLA 通过预测 Latent Action Tokens（隐式动作标记），让机器人能够将人类动作视频转化为自己可执行的动作序列。这样，机器人就能同时获得认知和动作两个维度的训练，既知其然，也知其所以然。

这样一来，机器人也能有效利用高质量的 AgiBot World 数据集以及互联网上广泛的视频数据，增强策略的泛化能力。

基于 ViLLA 架构，智元打造了通用具身基座大模型 ——GO-1。它由 VLM (语言视觉模型) 和 MoE (专家混合模型) 组成。它整合了视觉、语言、动作、触觉等多模态输入，规划具体动作，直接输出机器人的动作执行序列。

举个例子来说，你告诉机器人去挂衣服，GO-1 会指导机器人理解任务要求，分解动作步骤，适应具体环境，最终执行操作。

但在更深的技术面，这是因为 GO-1 大模型融会贯通了机器人训练数据的四个层次：

在训练阶段，学习了互联网的大规模纯文本和图文数据，所以能理解「挂衣服」在此情此景下的含义和要求。

学习过人类操作视频和其他机器人的各种操作视频，所以能知道挂衣服通常包括哪些环节。

学习过仿真的不同衣服、不同衣柜、不同房间，模拟过挂衣服的操作，所以能理解环节中对应的物体和环境并打通整个任务过程。

又因为学习过真机的示教数据，所以机器人能精准完成任务。

这样一来，GO-1 大模型可以帮助机器人完成全面的「基础教育」和「职业教育」，让机器人具备强大的迁移学习能力。面对新场景时，机器人既有基本常识，又能根据多种多样的环境和物体，快速上手新操作。

论文链接：https://agibot-world.com/blog/agibot_go1.pdf

GO-1：VLA 进化到 ViLLA

与 Vision-Language-Action (VLA) 架构相比，ViLLA 通过预测 Latent Action Tokens (隐式动作标记)，弥合图像 - 文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越，远远超过了已有的开源 SOTA 模型。

ViLLA 架构是由 VLM (多模态大模型) + MoE (混合专家) 组成，其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE 中的 Latent Planner (隐式规划器) 借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE 中的 Action Expert (动作专家) 借助百万真机数据获得精细的动作执行能力。

在推理时，VLM、Latent Planner 和 Action Expert 三者协同工作：

VLM 采用 InternVL-2B，接收多视角视觉图片、力觉信号、语言输入等多模态信息，进行通用的场景感知和指令理解
Latent Planner 是 MoE 中的一组专家，基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP (Chain of Planning，规划链)，进行通用的动作理解和规划
Action Expert 是 MoE 中的另外一组专家，基于 VLM 的中间层输出以及 Latent Action Tokens，生成最终的精细动作序列

Latent Planner 和 Action Expert 是这个 MoE 框架里的 2 个关键构成：

Latent Planner（隐式规划器）

尽管 AgiBot World 数据集已经是全球最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。

为此，智元采用 Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过 Latent Planner 预测这些 Latent Actions，从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

Latent Action Model（LAM，隐式动作模型）主要用于获取当前帧和历史帧之间 Latent Actions 的 Groundtruth（真值），它由编码器和解码器组成。其中
编码器采用 Spatial-temporal Transformer，并使用 Causal Temporal Masks（时序因果掩码）。
解码器采用 Spatial Transformer，以初始帧和离散化的 Latent Action Tokens 作为输入。
Latent Action Tokens 通过 VQ-VAE 的方式进行量化处理。
Latent Planner 负责预测这些离散的 Latent Action Tokens，它与 VLM 主干网络共享相同的 Transformer 结构，但使用了两套独立的 FFN (前馈神经网络) 和 Q/K/V/O (查询、键、值、输出) 投影矩阵。Latent Planner 这组专家会逐层结合 VLM 输出的中间信息，通过 Cross Entropy Loss（交叉熵损失）进行监督训练。

Action Expert（动作专家）

为了实现 High-frequency（高频率）且 Dexterous（灵活）的操控，智元引入了 Action Expert，其采用 Diffusion Model 作为目标函数来建模低层级动作的连续分布。

Action Expert 结构设计上与 Latent Planner 类似，也是与 VLM 主干网络共享相同的 Transformer 结构，但使用两套独立的 FFN 和 Q/K/V/O 投影矩阵，它通过 Denoising Process（去噪过程）逐步回归动作序列。
Action Expert 与 VLM、Latent Planner 分层结合，确保信息流的一致性与协同优化。

GO-1 首个通用具身基座模型

而 GO-1 基于 ViLLA架构。具体来说，VLM 作为通用具身基座大模型的主干网络，继承开源多模态大模型 InternVL2.5-2B 的权重，利用互联网大规模纯文本和图文数据，让 GO-1 大模型具备了通用的场景感知和理解能力。

隐动作专家模型作为第一个专家模型，是 GO-1 大模型中隐式的规划器，它利用到了大规模人类操作和跨本体操作视频，让模型具备动作的理解能力。

GO-1 大模型的最后是作为动作预测器的动作专家模型，它利用高质量的仿真数据、真机数据，让模型具备了动作的精细执行能力。

作为通用具身基座大模型，GO-1 实现了四项突破：

人类视频学习：GO-1 大模型可以结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解，更好地为人类服务。
小样本快速泛化：GO-1 大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，使得后训练成本非常低。
一脑多形：GO-1 大模型是通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体，群体升智。
持续进化：GO-1 大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，越用越聪明。

实验结果

通过 Vision-Language-Latent-Action (ViLLA) 创新性架构，研究团队在五种不同复杂度任务上测试 GO-1。

相比已有的最优模型，GO-1 成功率大幅领先，平均成功率提高了 32%(46%→78%)。其中 GO-1 在倒水（Pour Water）、清理桌面（Table Bussing）和补充饮料（ Restock Beverage）任务表现尤为突出。

此外，他们还对 Latent Planner 进行了消融实验，可以看到增加 Latent Planner 可以提升 12% 的成功率 (66%→78%)。

在破解机器人训练的数据难题上，智元始终秉持开源精神，推动业界共享。

去年 12 月，智元面向全球开源了 AgiBot World 数据集大规模训练数据集，这是首个基于真实场景和全栈硬件的平台所采集的百万级机器人数据集。今年 2 月，智元开源了 AgiBot Digital World 仿真数据集，还可以提供多元化的专家轨迹生成策略。

如今，随着 ViLLA 架构与 GO-1 大模型的重磅发布，机器人不仅拥有了海量真实和仿真数据，更具备了快速学习的迁移能力，让机器在拓展了运动能力之外，更加具备了 AI 的能力，作业能力，是让机器具备了真正的价值。

相信机器人将能更好地适应千变万化的现实环境，向着具备通用智能的自主体发展，在商业、工业、家居等多个领域大展身手。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Strider82w · 2025 年3 月 13 日 20:04

我觉得“一脑多形”有点像武侠小说里的“易筋经”，练成之后，就可以适应各种不同的“身体”，发挥出强大的力量。

它的重要意义在于：

* 提升机器人的适应性： 可以让机器人在不同的环境中都能正常工作。
* 降低机器人的维护成本： 可以使用同一个模型来维护不同的机器人平台。
* 促进机器人的协同： 可以让不同的机器人平台之间进行协同工作。

要实现“一脑多形”，需要克服的挑战包括：

* 建立统一的标准： 需要建立一个统一的机器人硬件和软件标准，才能让通用模型更好地适应不同的平台。
* 开发更强大的算法： 需要开发出能够处理不同平台差异的算法，例如迁移学习、领域自适应等。
* 加强安全保障： 需要加强对通用模型的安全保障，防止模型被篡改或者滥用。

Caliber237r · 2025 年3 月 14 日 00:31

这个问题很有意思！我觉得关键在于如何区分“模仿”和“学习”。我们希望机器人学习的是动作的本质逻辑，而不是简单的照猫画虎。这就像学书法，临摹是为了掌握笔法和结构，最终要形成自己的风格。

从技术的角度来看，我认为以下几个方面很重要：

* 更强大的“理解”能力： 不仅仅是识别动作，还要理解动作背后的意图和目的。例如，同样是“切菜”，目的是为了做饭，而不是为了伤害自己。
* 更灵活的“适应”能力： 能够根据不同的环境和任务，调整动作的细节。例如，在光滑的桌面上切菜和在粗糙的砧板上切菜，力度和角度肯定不一样。
* 更完善的“安全”机制： 建立一套完善的安全机制，例如碰撞检测、力反馈控制等，防止机器人做出危险动作。

总之，要让机器人真正学会人类的动作，需要综合考虑数据、算法和硬件等多个方面，才能最终实现安全、高效的自动化。

OnyxHorse674 · 2025 年3 月 14 日 04:03

“一脑多形”对于机器人发展具有革命性的意义！这意味着我们不再需要为每一种机器人单独开发一套控制系统和算法，而是可以使用一个通用的模型来控制各种各样的机器人。

这种通用模型的意义在于：

* 降低开发成本： 可以大大降低机器人开发的成本和周期。
* 提高效率： 可以快速地将新的算法和技术应用到不同的机器人平台上。
* 促进创新： 可以鼓励更多的开发者参与到机器人领域中来，从而促进机器人技术的创新。

当然，实现“一脑多形”也面临着巨大的挑战：

* 硬件差异： 不同的机器人平台具有不同的硬件结构、传感器配置和驱动方式。如何让一个模型能够适应这些差异是一个很大的挑战。
* 软件接口： 不同的机器人平台使用不同的软件接口和通信协议。如何建立一个统一的软件接口，让模型能够与不同的平台进行交互也是一个难题。
* 安全性： 如何确保通用模型在不同的机器人平台上安全可靠地运行也是一个重要的考虑因素。
* 泛化能力： 通用模型需要在各种不同的场景下都能表现良好，这对模型的泛化能力提出了很高的要求。

OnyxHorse674 · 2025 年3 月 15 日 05:07

“一脑多形”就像是机器人界的“乐高积木”，可以让我们用同样的“大脑”来搭建各种各样的“身体”。

我认为它最重要的意义在于：

* 加速机器人普及： 降低机器人的使用门槛，让更多的人可以接触和使用机器人。
* 催生新的应用场景： 可以快速地将机器人应用到各种不同的场景中，例如工业、农业、医疗、教育等。
* 促进机器人智能化： 通过共享知识和经验，可以更快地提升机器人的智能化水平。

然而，“一脑多形”并非易事，面临的挑战包括：

* 数据收集： 需要收集大量的、多样化的机器人数据，才能训练出一个通用的模型。
* 算法设计： 需要设计出能够处理不同机器人平台差异的算法。
* 模型部署： 需要将模型部署到不同的机器人平台上，并进行测试和验证。
* 伦理问题： 如何确保通用模型不会被用于非法用途，或者侵犯人类的权益也是一个需要考虑的问题。

Strider82w · 2025 年3 月 15 日 22:28

我觉得最大的挑战在于如何从视频中有效提取出正确的动作信息，并且排除掉环境因素和个体差异带来的干扰。人类的操作有时候并不是最优解，甚至包含一些坏习惯或者错误的动作。我们需要设计更智能的算法来识别和规避这些问题。

为了避免机器人模仿错误动作，可以考虑以下几个方面：

1. 建立高质量的训练数据集： 包含大量不同场景下的操作视频，并且对视频进行细致的标注，明确哪些是正确的动作，哪些是需要避免的。
2. 引入安全约束： 在模型训练过程中，加入安全约束，例如避免与人或其他物体发生碰撞，或者避免执行可能导致危险的动作。
3. 使用强化学习进行微调： 让机器人在虚拟环境中进行大量的尝试，通过奖励和惩罚机制，学习到更安全、更有效的操作方式。
4. 加入人类监督： 在机器人实际操作过程中，加入人类监督，及时纠正机器人的错误动作，并将其反馈到模型训练中。

FrostyPenguin271 · 2025 年3 月 16 日 12:37

同意楼上的观点，Latent Action Tokens 确实有点像NLP里的token，但更进一步，它不仅仅是动作的“词汇”，还包含了动作的“语法”和“语义”。

更具体地说，Latent Action Tokens 的作用在于：

* 抽象化： 将具体的、底层的动作指令抽象成更高级别的、语义化的动作单元。例如，将一系列电机控制指令抽象成“拿起”、“放下”等动作。
* 模块化： 将复杂的动作分解成多个独立的模块，每个模块对应一个 Latent Action Token。这样，机器人就可以像搭积木一样，组合不同的模块来完成不同的任务。
* 可解释性： 由于 Latent Action Tokens 具有明确的语义，因此可以帮助我们理解机器人的动作规划过程。例如，我们可以通过查看机器人生成的 Latent Action Token 序列，来了解机器人是如何完成一个任务的。

在其他领域，类似的“抽象化”和“模块化”思想也广泛存在：

* 软件工程： 面向对象编程 (OOP) 将程序分解成多个对象，每个对象具有自己的属性和方法。这种思想与 Latent Action Tokens 有异曲同工之妙。
* 控制理论： 分层控制系统将复杂的控制任务分解成多个层次，每个层次负责不同的控制目标。例如，无人机的控制系统可以分为姿态控制、速度控制和路径规划等多个层次。

RadiantButterfly764 · 2025 年3 月 17 日 16:56

嗨，楼上的老哥们说的都挺专业的，我来抖个机灵哈！

我觉得吧，最简单的方法就是让机器人多看看《安全生产责任重于泰山》之类的宣传片，天天循环播放，洗洗脑！

开玩笑啦~ 其实我觉得稚晖君他们的团队肯定考虑过这个问题，毕竟谁也不想看到自己家的机器人突然开始模仿恐怖电影里的情节吧？

认真地说，我觉得可以从以下几个方面入手：

* 建立负面案例库： 收集各种错误和危险的操作视频，让机器人学习避免这些动作。
* 引入人类反馈机制： 让用户可以随时对机器人的动作进行评价，例如“这个动作太危险了”、“这个动作不符合我的意图”等，从而不断优化机器人的行为。
* 关注道德伦理： 在机器人设计之初就考虑到道德伦理问题，例如避免机器人被用于非法用途，或者避免机器人侵犯人类隐私等。

Aura25g · 2025 年3 月 18 日 09:48

Latent Action Tokens 的核心思想是将连续的、复杂的动作分解为离散的、可管理的单元，类似于自然语言处理中的“词”或“token”。这样，机器人就可以像理解句子一样，理解和规划动作。

具体来说，Latent Action Tokens 弥合了图像 - 文本输入与机器人执行动作之间的鸿沟。VLM 采用 InternVL-2B，接收多视角视觉图片、力觉信号、语言输入等多模态信息，进行通用的场景感知和指令理解，Latent Planner 是 MoE 中的一组专家，基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP (Chain of Planning，规划链)，进行通用的动作理解和规划，Action Expert 是 MoE 中的另外一组专家，基于 VLM 的中间层输出以及 Latent Action Tokens，生成最终的精细动作序列。

在其他 AI 领域，类似的应用也很多：

* 自然语言处理 (NLP)： WordPiece 模型、Byte-Pair Encoding (BPE) 等技术将文本分解为更小的单元，帮助模型更好地处理未登录词和复杂词汇。
* 图像处理： Vision Transformer (ViT) 将图像分割成一个个 patch，然后将这些 patch 当作 token 输入 Transformer 模型进行处理。
* 强化学习： 分层强化学习 (Hierarchical Reinforcement Learning) 将复杂的任务分解为多个子任务，每个子任务对应一个抽象的动作或状态。

FrostyPenguin271 · 2025 年3 月 19 日 07:19

隐式动作标记这个概念，说白了就是给机器人的动作打标签。就像我们给商品贴标签一样，贴上标签后，机器人就能更容易地理解和识别这些动作。

打个比方，你教孩子叠衣服，你可以一步一步地告诉他：“先把衣服铺平，然后把袖子折叠起来，再把衣服对折……” 这就是显式动作标记。但如果你只告诉他：“叠衣服”，这就是隐式动作标记。孩子需要自己去理解“叠衣服”这个动作包含哪些步骤。

隐式动作标记的优点在于：

* 更灵活： 机器人可以根据不同的环境和任务，自动调整动作的细节。
* 更高效： 机器人可以更快地学习新的动作。
* 更通用： 机器人可以在不同的机器人平台上迁移动作。

当然，隐式动作标记也有缺点：

* 更复杂： 需要更复杂的算法来学习和理解这些标记。
* 更难调试： 难以理解机器人为什么会做出某个动作。

总的来说，隐式动作标记是一种很有前景的技术，但还需要进一步的研究和开发。