VLA-OS：解构机器人视觉语言动作模型任务规划与推理机制

almosthuman2014 · 2025 年7 月 31 日 13:09

VLA-OS：深度剖析机器人VLA任务规划，提供设计指南和未来方向。

原文标题：VLA-OS：NUS邵林团队探究机器人VLA做任务推理的秘密

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650983026&idx=4&sn=248e99a4aa731c6112b8ea6a1434ab44&

冷月清谈：

新加坡国立大学邵林团队发布VLA-OS研究，首次系统性地解构并分析了机器人VLA模型在任务规划和推理中的运作机制。该研究通过统一VLM骨干、数据集、模型架构和训练方法，对比了不同任务规划表征（语言、视觉、目标图像）和模型范式（ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA）对机器人性能的影响。研究揭示，基于视觉的规划表征性能优于语言规划，且具有更高的推理速度和更低的训练成本；同时，分层VLA范式（Hierarchical-VLA）在泛化能力和规划性能上表现出显著优势。VLA-OS还提供了详细的设计指南，建议优先使用视觉和目标图像规划，并根据资源选择分层或隐式联合范式，同时指出当前VLA模型结构和算法设计仍是关键，盲目扩展模型规模效果不佳。此外，研究还为未来机器人VLA模型的发展指明了四大方向，包括探索空间表征的神经机制、设计解耦训练机制、开发高效VLM信息蒸馏架构以及构建万亿级规划数据集。这些发现为下一代通用机器人VLA模型的研发提供了扎实的实验依据和理论指导。

怜星夜思：

1、既然论文发现VLA模型规模过大，比如超过3B参数，性能反而下降，而且视觉规划优于语言规划。那是不是意味着，在机器人领域，大模型并不总是越大越好？我们人类在做任务规划时，是更依赖语言这种抽象思维，还是更依赖直接的视觉或空间感知呢？这两种不同的规划方式，哪种更接近机器人的「直觉」？
2、论文提到“损失函数解耦”能够带来更好的效果，比如分层VLA范式表现更优。这听起来有点反直觉，按理说端到端训练应该更强大啊？在其他 AI 领域，有没有类似的“解耦训练”或者“分层模型”成功的案例？这种解耦思路对通用人工智能（AGI）的实现有什么启示呢？
3、论文提到构建“万亿级规划数据集”是未来有前景的方向，但机器人操作任务的数据集相比LLM和VLM少很多。这方面我们有哪些潜在的数据获取方式？比如模拟环境生成大量数据，或者像人类示教那样，通过众包等方式收集真实世界数据？哪种方式更可行、更高效，挑战又在哪里？

原文内容

本文第一作者为新加坡国立大学博士生高崇凯，其余作者为新加坡国立大学博士生刘子轩、实习生池正昊、博士生侯懿文、硕士生张雨轩、实习生林宇迪，中国科学技术大学本科生黄俊善，清华大学本科生费昕，硕士生方智睿，南洋理工大学硕士生江泽宇。本文的通讯作者为新加坡国立大学助理教授邵林。

为什么机器人能听懂指令却做不对动作？语言大模型指挥机器人，真的是最优解吗？端到端的范式到底是不是通向 AGI 的唯一道路？这些问题背后，藏着机器智能的未来密码。

近期，新加坡国立大学邵林团队发表了一项突破性研究 VLA-OS，首次系统性地解构和分析了机器人 VLA 模型进行任务规划和推理，进行了任务规划表征与模型范式的统一对比。这项工作通过系统、可控、详细的实验对比，不仅为研究者提供了翔实的研究成果，更为下一代通用机器人 VLA 模型指明了方向。

通过 VLA-OS，你可以获得什么：

VLA 通用设计指南；
结构清晰的 VLA 代码库，拥有集各家之所长（RoboVLM、OpenVLA-OFT）的先进设计；
标注好的多模态任务规划数据集；
规范的 VLA 训练流程。
VLA 的未来发展方向启示。

✍🏻️论文标题：VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

🚀 Arxiv： https://arxiv.org/abs/2506.17561
🏠 项目主页： https://nus-lins-lab.github.io/vlaos/
💻 源代码： https://github.com/HeegerGao/VLA-OS
📊 数据集： https://huggingface.co/datasets/Linslab/VLA-OS-Dataset
🤖 模型： https://huggingface.co/Linslab/VLA-OS

图 1 VLA-OS 整体概览

一、疑云密布：VLA 模型在进行任务规划时到底该怎么做？

VLA 模型（Vision-Language-Action Model）近年来展现出令人印象深刻的、解决复杂任务的操作能力。端到端的 VLA 模型仅仅使用数据驱动的模仿学习就可以实现过去需要进行复杂系统设计才能完成的任务，直接从图像和语言的原始输入映射到机器人的动作空间，展现出了强大的 scale up 的潜力。图 2 展示了一些端到端的 VLA 代表性工作。

图 2 一些端到端的 VLA 模型（ActionOnly-VLA）

然而，目前可用于训练 VLA 的数据集相比起 LLM 和 VLM 来说还非常少。因此研究人员最近开始尝试在 VLA 中添加任务推理模块来帮助 VLA 使用更少的数据完成复杂的任务。主流的方式包括两类：

使用一个端到端的模型来同时进行任务规划和策略学习（Integrated-VLA）。 这些模型通常会在模仿学习的损失函数上增加一个用于任务规划的损失函数，抑或是增加一些额外的任务规划训练表征，来使得基座大模型同时被任务规划和策略学习的任务进行训练。例如 EmbodiedCoT 添加了使用自然语言的任务分解的学习过程，而 UniVLA 采用了目标图像推理特征的隐式提取。图 3 展示了一些代表性工作：

图 3 Integrated-VLA 的一些工作

使用分层的范式（Hierarchical-VLA）， 即一个上层模型负责任务规划，另一个下层模型负责策略学习，二者之间没有梯度回传。例如，Hi-Robot 使用一个 VLM 输出任务分解后的简单语言规划指令，然后用一个 VLA 接收分解好的语言指令进行动作。图 4 展示了一些代表性工作：

图 4 Hierarchical-VLA 的一些工作

这些模型都展现出了令人印象深刻的实验结果。然而，目前的这些工作互相之间区别很大，而且这些区别还是多维度的：从采用的 VLM backbone、训练数据集、网络架构、训练方法，到针对任务规划所采用的范式、表征，都千差万别，导致我们很难判断真正的性能提升来源，使得研究者陷入「盲人摸象」的困境。

对于研究者来说，分析清楚这些 VLA 范式中到底是哪些部分在起作用、哪些部分还需要被提升是很关键的。只有清楚地知道这些，才能看清楚未来的发展方向和前进道路。

图 5 VLA 做任务规划的变量太多，难以进行深入分析

鉴于这个问题，我们计划采取控制变量的实验方法，专注于任务规划的「范式」和「表征」两大方面，然后统一其他因素，并直指五大核心研究问题：

a. 我们该选用哪种表征来进行任务规划？

b. 我们该选用哪种任务规划范式？

c. 任务规划和策略学习，哪部分现在还不够好？

d. 对于采用任务规划的 VLA 模型来说，是否还具备 scaling law？

e. 在 VLA 中采用任务规划后，对性能、泛化性、持续学习能力有什么样的提升？

图 6 VLA-OS 将对其他因素进行统一，使用控制变量的方法研究范式和表征

二、抽丝剥茧：VLA-OS —— 机器人模型的「乐高式」实验平台

为了实现控制变量的实验目标，我们需要针对 VLM backbone、数据集、模型架构、训练方法进行统一。

首先，我们构建了架构统一、参数递增的 VLM 模型家族。市面上目前并没有尺寸范围在 0.5B ~ 7B 之间的 VLM。因此，我们需要自己进行构建。我们选取了预训练好的 Qwen 2.5 LLM 的 0.5B/1.5B/3B/7B 四个模型作为 LLM 基座，然后为其配上使用 DINO+SigLIP 的混合视觉编码器，以及一个映射头。然后，我们使用 LlaVa v1.5 instruct 数据集，对整个 VLM 的所有参数进行了预训练，将 LLM 变成 VLM，用于给后续实验使用。

图 7 VLA-OS 可组合模块家族

然后，我们针对三个 VLA 的任务规划范式，设计了可组合的 VLA-OS 模型家族，首次实现三大范式的公平对比。我们设计了统一的动作头（action head）和推理头（planning head），使用统一的 KV Cache 提取方法来将 VLM 中的信息输入给各个头。如图 7 所示。

其中动作头是一个与 LLM 骨干网络具有相同层数的标准 Transformer，在每一层中使用分块因果注意力（Block-Wise Causal Attention）从 LLM 骨干网络的键值（KV）中提取输入信息。规划头中，语言规划头是一个与 LLM 骨干网络具有相同层数的标准 Transformer，视觉规划头是一个使用下文定义的坐标编码词表的 transformer，而目标图像规划头是一个采用类似于 VAR 架构的自回归图像生成器，也是一个与 LLM 骨干网络具有相同层数的标准 Transformer。值得注意的是，我们的代码结构兼容 HuggingFace 上的 LLM，而不是某一种特定的 LLM backbone。

针对三种 VLA 范式（ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA），我们组合使用 VLA-OS 的标准模块，构建了对应的 VLA-OS 模型实现，如图所示：

图 8 VLA-OS 研究的三种 VLA 范式和对应的网络实现

接着，为了构建能够对任务规划进行研究的统一、广泛、多样的训练数据集，我们整理和收集了六类数据集，并对它们做了统一的多模态任务规划表征标注。它们包括：

LIBERO：一个桌面级 2D 视觉机器人仿真操作任务集合；
The COLOSSEUM：一个桌面级的 3D 视觉机器人仿真操作任务集合；
真实世界的可形变物体操作任务集合；
DexArt：一个灵巧手的仿真操作任务集合；
FurnitureBench：一个精细的、长时序任务的机器人仿真平台操作任务集合；
PerAct2：一个桌面级 3D 视觉双臂机器人仿真操作任务集合。

我们的数据集总共包括大约 10,000 条轨迹，在视觉模态（2D 和 3D）、操作环境（仿真、现实）、执行器种类（夹爪、灵巧手）、物体种类（固体、铰链物体、可形变物体）、机械臂数量（单臂、双臂）等维度上都具有广泛的覆盖性。

图 9 VLA-OS 六大数据集

在此基础上，我们设计了三种任务规划表征，并针对所有数据进行了统一标注：

语言规划。语言规划数据在每个时间步包含 8 个不同的键，包括 Task、Plan、Subtask、Subtask Reason、Move、Move Reason、Gripper Position 和 Object Bounding Boxes。这些键包含对场景的理解和任务的分解。例如，对于「open the top drawer of the cabinet」这个任务来说，语言规划的标注为：

TASK: Open the top drawer of the cabinet.
PLAN: 1. Approach the cabinet. 2. Locate the top drawer. 3. Locate and grasp the drawer handle. 4. Open the drawer. 5. Stop.
VISIBLE OBJECTS: akita black bowl [100, 129, 133, 155], plate [17, 131, 56, 158], wooden cabinet [164, 75, 224, 175]
SUBTASK REASONING: The top drawer has been located; the robot now needs to position itself to grasp the handle.
SUBTASK: Locate and grasp the drawer handle.
MOVE REASONING: Moving left aligns the robot's end effector with the drawer handle.
MOVE: move left
GRIPPER POSITION: [167, 102, 166, 102, 165, 102, 164, 102, 162, 102, 161, 102, 160, 102, 158, 102, 156, 102, 154, 102, 153, 102, 151, 102, 149, 102, 147, 102, 145, 102, 143, 102]

视觉规划。视觉规划包含了三种扎根在图像上的空间语义信息。我们将整个图像分为 32x32 个网格，采用位置标记 <loc_i> 来表示从左上到右下的第 i 个网格。我们使用这种位置标记对所有物体的边界框、末端执行器位置流和目标物体可供性这三种表征作为视觉规划表示。例如，对于「Put the cream cheese box and the butter in the basket」，视觉规划表示的结果为：

VISUAL OBJECT BBOXES: alphabet soup [<loc_500>, <loc_632>], cream cheese [<loc_353>, <loc_452>], tomato sauce [<loc_461>, <loc_624>], ketchup [<loc_341>, <loc_503>], orange juice [<loc_538>, <loc_767>], milk [<loc_563>, <loc_791>], butter [<loc_684>, <loc_783>], basket [<loc_448>, <loc_775>].
VISUAL EE FLOW: <loc_387>, <loc_387>, <loc_387>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_451>, <loc_451>, <loc_451>, <loc_451>, <loc_451>.
VISUAL AFFORDANCE: <loc_354>, <loc_355>, <loc_356>, <loc_386>, <loc_387>, <loc_388>, <loc_418>, <loc_419>, <loc_420>

目标图像规划。目标图像规划直接使用第 K 个未来步骤的图像作为目标图像。

图 10 VLA-OS 的三种规划表征

三、水落石出：视觉表征与分层范式崛起

针对规划表征和 VLA 范式，我们通过 6 大测试数据集、超百次实验，得出 14 条有价值的发现。这些发现展示出了视觉规划表征和目标图像表征相比起语言表征的优势，以及分层 VLA 范式相比起其他范式的未来发展潜力。

发现 1：VLA 模型结构和训练算法仍然很影响性能，VLA 的 scale up 时刻还未到来。

我们首先针对 VLA-OS 模型进行了性能测试。在 LIBERO benchmark 上，我们对比了现有的常见 VLA 模型，涵盖各种尺寸、是否预训练、是否做任务规划等等。我们对所有的模型都在相应的 LIBERO 数据集上进行了训练，结果如下图所示：

图 11 VLA-OS 和其他模型的性能对比

我们可以看到，VLA-OS-A 的性能优于 train from scratch 的 Diffusion Policy（提升 13.2%），预训练+微调后的 OpenVLA 模型（提升 9.1%）、CoT-VLA（提升 4.5%）以及 DiT Policy（提升 3.2%），并与预训练+微调后的 π₀-FAST（提升 0.1%）表现相当。

尽管本模型尚不及当前最先进（SOTA）的一些方法，但上述结果已充分表明我们模型的设计具有良好的性能和竞争力。需特别指出的是，VLA-OS-A 是在无预训练的条件下从头开始训练的，并仅使用了参数规模为 0.5B 的语言模型作为骨干网络。

发现 2：对于 Integrated-VLA 来说，隐式任务规划比显式任务规划更好。

我们在 LIBERO-LONG 基准测试集上开展了语言规划、视觉规划、图像前瞻规划及其组合方式的实验。该基准包含 10 个长时间跨度任务，每个任务提供 50 条示教轨迹，旨在评估 Integrated-VLA 模型中隐式规划与显式规划变体的性能表现。实验结果如下所示。

图 12 隐式和显式的 Integrated-VLA 性能对比

隐式规划范式通过引入多种辅助任务规划目标作为训练过程中的附加损失项，从而在不改变推理阶段行为的前提下，相较于 ActionOnly-VLA 实现性能提升。

这表明，将任务规划作为辅助损失引入训练可以有效提高模型性能；然而，显式规划范式性能却发生下降，这可能是因为：1）在推理阶段，显式规划必须先完成整个规划过程，随后才能生成动作输出，可能带来规划误差累积问题。

通常，规划 token 的长度远远超过动作 token（约为 2000 对 8）；2）显式规划的策略损失梯度会同时回传给 VLM 和任务规划头，可能导致梯度冲突。

发现 3：相较于语言规划表示，基于视觉的规划表示（视觉规划和目标图像规划）在性能上表现更优，且具有更快的推理速度与更低的训练成本。

我们在 LIBERO-LONG 基准测试集上开展了语言规划、视觉规划、图像前瞻规划及其多种组合方式的实验。该基准包含 10 个长时间跨度任务，每个任务提供 50 条示范，旨在系统评估不同类型规划表示的性能表现。实验结果如下所示。

图 13 不同规划表征的性能对比

发现 4：在同时采用多种规划表示的情况下，Hierarchical-VLA 相较于 Integrated-VLA 范式表现出更优的性能。

我们在 LIBERO-LONG 基准测试集上展示了 Integrated-VLA 与 Hierarchical-VLA 两种范式在不同规划表示下的性能对比结果。

图 14 同时使用多种规划表征的性能对比

发现 5：Integrated-VLA 与 Hierarchical-VLA 在二维、三维、仿真及真实环境等多种任务中均显著优于 ActionOnly-VLA，且两者整体性能相近。

我们在六个基准测试集上展示了所有 VLA 范式的性能表现及其平均成功率。可以看出，Integrated-VLA 与 Hierarchical-VLA 在所有基准上均优于 ActionOnly-VLA，且两者之间的性能差距较小，表现整体接近。

图 15 多种 benchmark 上的各种 VLA 范式性能对比

发现 6：Integrated-VLA 与 Hierarchical-VLA 在任务规划预训练中均表现出相似的收益，任务成功率均有所提升，增幅相近。

发现 7：Hierarchical-VLA 展现出最强的泛化能力。

我们展示了所有 VLA 范式在 The-Colosseum (ALL-Perturbation) 基准测试集上的泛化性能，以及 Integrated-VLA 与 Hierarchical-VLA 在 LIBERO-90 上进行任务规划预训练后的性能提升情况，并在 LIBERO-LONG 上进行了测试评估。

结果表明，Hierarchical-VLA 实现了最优的泛化性能，而 Integrated-VLA 与 Hierarchical-VLA 均能从任务规划预训练中获得相似的性能提升。

图 16 泛化性能对比

发现 8：Hierarchical-VLA 在任务规划方面优于 Integrated-VLA。

为了明确任务失败是源于规划模块还是策略学习模块，我们对 Integrated-VLA（仅评估其任务规划部分）与 Hierarchical-VLA 在 LIBERO-LONG 基准上进行分析性评估，覆盖三种不同的规划表示形式。

具体地，我们手动将每个长时序任务划分为若干子任务，并在评估过程中强制将环境重置至各子任务的初始状态。我们分别计算每个子任务起点对应的规划输出的平均正确率（0 或 1）以及动作头的执行成功率（0 或 1），从而获得每个任务轨迹的任务分解得分（Task Decomposition Score，DCS）与策略执行得分（Policy Following Score，PFS）。需要指出的是，对于 Hierarchical-VLA，我们在测试 PFS 时提供了任务规划的真实结果（ground truth）。

图 17 纯规划性能对比

我们可以观察到，在不同的规划表示下，Hierarchical-VLA 在任务规划方面始终优于 Integrated-VLA，表现出更强的规划能力。

发现 9：基于视觉的规划表示更易于底层策略的跟随。

如上所述，我们展示了 Hierarchical-VLA 在不同规划表示下的策略执行得分（Policy Following Score, PFS），用于衡量底层策略对规划结果的执行能力。结果表明，基于视觉的规划表示在策略执行过程中具有更高的可跟随性。

图 18 下层策略跟随任务规划性能对比

我们可以观察到，基于视觉的规划表示（包括视觉规划与图像前瞻规划）更易于被底层策略所跟随，表现出更高的策略可执行性。

发现 10：语言规划表示头的自回归特性是其训练成本较高和推理速度较慢的主要原因。为进一步探究不同规划表示在训练成本与推理速度上的差异，我们在下图中展示了 Hierarchical-VLA 中不同规划头的前向传播过程。

图 19 不同规划头之间的工作模式对比

由于语言规划头与视觉规划头具备自回归特性，它们在生成规划 token 时需进行数百次前向传播，导致训练成本较高、推理速度较慢；而图像前瞻规划头（本工作中采用类似 VAR 的生成器）仅需前向传播 7 次即可生成完整的规划 token，推理开销大约是语言与视觉规划头的 1/100，显著更高效。

发现 11：所有 VLA 范式的性能随着标注动作的示范数据量增加而提升，具备良好的数据可扩展性。

为评估数据可扩展性，我们在 LIBERO-LONG 数据集上进行实验，该数据集包含 10 个任务，共计 500 条示范。我们分别使用 10%、40%、70% 和 100% 的数据量对三种 VLA 范式（模型规模为 S）进行训练，并评估其性能随数据规模变化的趋势。

图 20 VLA 的数据可扩展性

我们可以看到，所有 VLA 范式均具备良好的数据可扩展性，随着标注动作示范数据量的增加，其性能稳步提升。

发现 12：在约 5,000 条示范数据的「从零训练」任务中，LLM 骨干网络应限制在 0.5B 参数规模以内，或总模型参数规模不超过 1B，才能获得更优的性能表现。

为评估模型可扩展性，我们在 LIBERO-90 数据集上进行了实验，该数据集包含 90 个任务，共计 4,500 条示范。我们使用全部训练数据，选取了不同参数规模（0.5B、1.5B、3B 和 7B）的 Qwen-2.5 语言模型作为骨干网络进行对比实验，以探索模型规模对性能的影响。

图 21 VLA 的模型可扩展性

我们可以观察到，随着模型规模的增大，各种 VLA 范式的性能并未随之提升，反而在模型规模超过 3B 时出现下降的趋势。

发现 13：相比不含任务规划的范式（ActionOnly-VLA），包含任务规划的 VLA 范式（Integrated-VLA 与 Hierarchical-VLA）在前向迁移能力上更强，但遗忘速度也更快。

我们在 LIBERO-LONG 的 10 个任务上，按照任务顺序对三种 VLA 范式进行持续学习能力评估。实验中采用 Sequential Finetuning（SEQL）作为终身学习算法，评估指标采用 LIBERO 提供的原始度量方式，包括前向迁移（Forward Transfer，FWT）和负向后向迁移（Negative Backward Transfer，NBT）。

图 22 不同 VLA 范式的持续学习能力

发现 14：相较于基于语言的规划表示，基于视觉的规划表示在持续学习中展现出更优的前向迁移能力，且遗忘速度更慢。

我们在 LIBERO-LONG 的 10 个任务上，依次测试三种规划表示在持续学习场景下的表现。实验统一采用 Sequential Finetuning（SEQL）作为终身学习算法，并使用 LIBERO 提供的原始评估指标，包括前向迁移（Forward Transfer，FWT）和负向后向迁移（Negative Backward Transfer，NBT）。

图 23 不同规划表征的持续学习能力

四、月映万川：机器人 VLA 模型的「第一性原理」

设计指南（抄作业时间！）

a) 首选视觉表征规划和目标图像规划，语言规划仅作为辅助；

b) 资源充足选分层 VLA（Hierarchical-VLA），资源有限选隐式联合（Integrated-VLA）。

c) 对于小于五千条示教轨迹的下游任务来说，模型规模控制在 1B 参数内完全够用。

破解长期谜题

a) 目前 VLA 的结构和算法设计仍然很重要，还没有到无脑 scale up 的时刻。

b) 策略学习和任务规划目前来说都还需要提升。

c) 任务规划预训练是有效的。 d) 持续学习的代价：规划模型前向迁移能力更强，但遗忘速度更快。

未来四大方向

视觉为何优于语言？→ 探索空间表征的神经机制理论上来说，三种规划表征针对于目标操作任务所提供的信息均是完备的，那么为什么会有如此大的性能偏差呢？

如何避免规划与动作的梯度冲突？→ 设计解耦训练机制无论是在隐式 Integrated-VLA 和显式 Integrated-VLA 的比较，还是在分层 VLA 和 Integrated-VLA 的泛化比较中，都是「损失函数解耦」的一方获胜，也即任务规划的损失梯度和策略动作的损失梯度耦合地越少，最终效果越好。

超越 KV 提取 → 开发更高效的 VLM 信息蒸馏架构VLA-OS 目前采用的是类似于的模型结构设计，也就是提取每一层 LLM 的 KV 来给动作头和规划头。但是，这使得动作头和规划头的设计受限（例如，它们都必须和 LLM 有同样多的层数的 Transformer）。是否还有更为高效、限制更少的设计？

构建万亿级规划数据集 → 推动「规划大模型」诞生VLA-OS 的实验确认了无论使用哪种范式，增加任务规划都会对模型性能有提升，而且对规划头进行预训练还会进一步提升性能。因此，如何构建足够量的机器人操作任务规划数据集将是很有前景的方向。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Rift205c · 2025 年7 月 31 日 20:49

“万亿级”？哥们，你这是想把全世界的机器人工程师都累趴下啊！哈哈哈。这不就是人工智能领域的“富人游戏”嘛——谁有数据谁就牛！数据获取嘛，最直观的就是“打工人”模式，雇一堆人，手把手教机器人，估计得把全球人民变成“机器人老师”。或者来个“元宇宙”模式，直接在虚拟世界里让机器人自己瞎玩，玩出个万亿数据，然后祈祷这些虚拟经验在现实世界能用。我觉得最酷的还是“机器人偷学”模式，在人类不知道的情况下，偷偷观察人类怎么操作，然后自己偷偷学习。要不咱们搞个“全民机器人挑战赛”，大家把自己的家居机器人操作视频都上传，然后用AI自动标注？这可能比纯靠实验室自己做数据集来得快，就是隐私问题……咳咳，当我没说！

Ember34n · 2025 年8 月 1 日 16:50

看到大家在讨论“机器人模型是不是越大越好”这个话题。我觉得这事儿得看具体任务和数据量。就像你考小学数学，非要用个博士论文的脑子去算，可能还不如小学生算得快呢。论文里也说了，机器人数据集少，你给它个超大的模型，它吃不饱，自然消化不良。视觉规划比语言规划好理解，就像你学骑自行车，是看一遍视频学得快，还是听一遍教程描述学得快？身体会告诉你答案。咱人脑也不是光靠语言活着的，很多时候都是下意识地“看一眼就知道怎么做”。机器人也一样，直接的视觉输入可能才是它理解世界的“母语”。

Caliber237r · 2025 年8 月 2 日 07:00

问到“损失函数解耦”和AGI的启示，我觉得这就像咱们人类学东西。想象一下，你既要学怎么写一篇完美的作文（规划），又要同时学怎么握笔、怎么控制笔触（动作）。如果这两个任务混在一起，你可能就手忙脚乱，字也写不好，作文也写不出来。但如果先练习把字写好，再集中精力思考文章结构，是不是效率更高？AI也一样，让它分层负责不同的“能力”，可能比一股脑全往一个模型里塞更有效率。在AI绘画里，比如ControlNet，它就是把“内容生成”和“姿态控制”分开了，效果就好得惊人。所以AGI可能也不是一个“全能超人”，而是一个由多个“专业选手”组成的高效团队。

StarryUnicorn587 · 2025 年8 月 3 日 17:22

关于“解耦训练反直觉”这个点，我个人觉得并不反直觉，反而可能代表了从功能主义角度对复杂系统的一种理解。在经典的控制理论和机器人学中，任务规划和底层控制本来就是解耦的，规划器给出高层指令，控制器负责执行。大模型虽然强调端到端，但当数据不足或任务复杂度高时，一个单一的巨大模型要同时学习高层抽象（规划）和低层细节（动作）确实容易出现梯度冲突，导致次优解。分层或模块化设计，可以帮助模型在不同层面上专注学习，减少“互相干扰”。在其他AI领域，强化学习中的Actor-Critic架构，GANS中的生成器与判别器分离，或是在一些多任务学习中为不同任务设计独立损失函数或子网络，都体现了某种程度的“解耦”思想。对AGI的启示是，AGI可能不是一个扁平的、端到端的巨物，而是一个高度模块化、协作且能动态重构的复杂系统，每个模块专注于特定功能，并通过明确的接口进行通信，从而实现更强大的鲁棒性和泛化能力。

Shadow53r · 2025 年8 月 5 日 01:25

兄弟，你这问题问到点子上了！“端到端”听起来是高大上，但现实往往是“理想很丰满，现实很骨感”啊！就像我们平时打工，老板希望你啥都会，身兼数职，结果呢？样样通样样松！不如把任务拆开，让专业的人办专业的事。这不就是“分工合作”的朴素道理嘛！至于AGI，“解耦”要是真能搞定，那以后AI是不是都能有“人格分裂”了？一个负责写诗，一个负责扫地，互不干涉，完美！哈哈，开个玩笑哈，但原理确实是让各司其职，避免互相扯后腿。

MidnightOwl519 · 2025 年8 月 5 日 01:42

哈哈，问得好！“是不是越大越好”？这不就是咱常说的“杀鸡焉用宰牛刀”嘛！看来机器人也学会了“抠门”了，资源有限就别瞎搞大模型，实用才是王道。至于人类，咱肯定不是纯靠语言规划啊，不然大家都是嘴炮选手，手上功夫就废了。想想那些顶尖的手艺人、运动员，那是直觉+肌肉记忆++视觉反馈的完美结合，哪是几句“向左移，抓取”就能描述清楚的？机器人搞不好也是，它心里想的不是“把瓶子移到左边”，而是直接“手就过去了”。所以啊，它可能更喜欢“眼见为实”的规划方式！

NobleStag037 · 2025 年8 月 5 日 17:24

关于“万亿级规划数据集”的问题，这绝对是机器人领域的大难题和未来突破口。目前来看，模拟环境是快速生成大量数据最可行的方式，例如Isaac Sim、Sapien等仿真平台可以高效生成多样化的环境和交互数据，而且可以方便地进行高精度标注，避免人工标注的巨大成本。然而，仿真到现实的“域适应”问题是其主要挑战，模拟数据训练的模型在真实世界中可能表现不佳。众包或人类示教则可以提供高质量的真实世界数据，但其收集成本极高，且难以保证数据的多样性和覆盖性，尤其是一些罕见但重要的操作。未来的方向可能是结合两者：前期在模拟环境中进行大规模预训练，学习通用能力；后期通过少量真实世界数据进行微调，或者通过强化学习、自监督学习等方法，让机器人在真实环境中自行探索和学习，辅以人类反馈进行筛选和修正。这需要跨学科的协作，计算资源和数据管理系统也必须跟上。

Echo319s · 2025 年8 月 5 日 22:35

提到“万亿级规划数据集”，这简直是机器人界的“梦想”啊！我现在看到的主流做法，主要有两派：一是“炼丹炉”派，疯狂搞仿真，比如Google的Robotics Transformer系列就大量用到了Google自身庞大的合成数据。好处是可控、速度快、成本相对低，坏处就是模拟和现实总有差距，容易“水土不服”。二是“血汗工厂”派，用人类示教，比如Mobile ALOHA这种。优点是真实、质量高，缺点就是收集慢、量少、贵得要死！还有一种是让机器人自己玩，通过“自我探索”来生成数据，但效率和安全性是个大问题。我个人觉得未来可能是仿真生成初级底座，然后通过少量的真实世界交互和模仿学习来“洗炼”模型，说不定还有点“自我监督”的黑科技，让机器人自己边玩边学，这样才能真正搞出大动静。

Haven14j · 2025 年8 月 7 日 08:03

回答关于“模型规模和人类直觉”的问题。这篇研究确实挑战了“参数越大越好”的普遍认知，至少在资源有限、数据量较小的机器人VLA任务上是如此。这可能因为过大的模型在数据量不足时容易遇到过拟合问题，或者其内部的复杂性并非当前机器人任务所必需，反而增加了训练难度。至于人类，我们的大脑其实是视觉、语言、听觉等多种模态高度融合且层级化处理的。在执行具体操作任务时，比如拿起一个杯子，我们可能更多地依赖直接的空间感知和肌肉记忆（类似视觉规划和动作控制），语言更多是用来表达目标或分解复杂任务。机器人的“直觉”或许也更接近这种与物理世界交互的直接感知，而不是纯粹的语言逻辑推理。长远来看，多模态融合且能自适应调整不同模态比重，可能是通向AGI的关键。