英伟达 DreamZero 登顶机器人基准测试：数据与模型哪个更重要？

almosthuman2014 · 2026 年3 月 3 日 17:02

英伟达DreamZero登顶机器人双榜，研究表明数据分布、模型规模和视频预测或是成功的关键。

原文标题：训练机器人方式对了吗？英伟达DreamZero双榜第一新反思

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651019191&idx=2&sn=4be0ed8e60d25714ceb68916660f8311&

冷月清谈：

英伟达DreamZero在RoboArena和MolmoSpaces两项机器人基准测试中取得领先，其核心在于同步预测未来视频和机器人动作。文章《Why is DreamZero so good at robotics?》深入分析了DreamZero成功的可能原因，包括训练数据分布、模型规模、时间上下文长度以及视频生成作为辅助监督信号等方面。文章指出，训练数据分布对模型性能至关重要，与目标任务分布高度一致的数据能显著提升性能。DreamZero采用140亿参数的视频生成模型，并能接收多帧上下文输入，使其在环境理解和物理规律学习方面更具优势。视频生成目标作为辅助损失，为模型施加结构约束，迫使其学习内部世界模型。研究提示，在真实世界机器人任务中取得强劲表现，可能并不需要此前认为的那么多的数据。

怜星夜思：

1、DreamZero 同时预测未来视频和机器人动作，这种设计思路对比传统策略模型或世界模型，优势体现在哪些方面？除了文中提到的信息更丰富，还有其他潜在原因吗？
2、文章提到“也许从另一种机器人身上额外增加 1 万小时的数据，并不一定比使用手头那些廉价、充足的第一视角视频数据更有效”。这句话对机器人研究有哪些启示？对于数据采集和利用，未来应该更加注重哪些方面？
3、DreamZero 论文中提到模型规模在性能表现上起到了关键作用。那么，在算力资源有限的情况下，如何平衡模型规模和训练效率？除了文中的辅助损失，还有哪些方法可以提高小规模模型的性能？

原文内容

机器之心编辑部

近日，NVIDIA 发布的世界 - 动作模型 DreamZero，在两项颇具代表性的机器人基准测试 RoboArena 、MolmoSpaces 上双双登顶。

DreamZero 核心思想是：在同一个模型里，同时预测未来视频和机器人动作。也就是说，DreamZero 让机器人在行动前，先在模型内部想象未来。

但问题也随之而来。

为什么这种边预测世界、边预测动作的设计，会带来如此显著的性能提升？它到底比传统策略模型或世界模型强在哪里？是真正的范式突破，还是数据与模型规模的胜利？

围绕这些问题，近期一篇颇具讨论度的分析文章《Why is DreamZero so good at robotics?》给出了一个更深入的解读：在训练一个通用机器人策略时，你的数据和模型架构需要具备哪些特征？这篇文章的解读，正在对以往的认知提出质疑。

文章作者是一位名叫 Chris Paxton 机器人与人工智能研究者，曾在 Hello Robot 负责具身智能（Embodied AI）方向的研究工作。此前，Paxton 在 NVIDIA Research 以及 Meta 旗下的基础人工智能研究机构 FAIR 工作过。

这篇文章从模型介绍、训练数据分布、模型主干规模、时间上下文长度，以及视频生成作为辅助监督信号等多个维度，拆解了 DreamZero 表现突出的可能原因。

文章地址：https://itcanthink.substack.com/p/why-is-dreamzero-so-good-at-robotics

接下来是文章主要内容。

DreamZero 是什么？

DreamZero 是 NVIDIA 提出的「世界 — 动作模型」（world-action model）。它借鉴了世界模型中的许多核心思想，尤其是视频生成对机器人任务有价值这一理念，但在关键设计上做了几处重要改动。其中最关键的一点是：它联合建模动作生成与视频生成。

通常来说，世界模型大致可以分为两类：

动作条件世界模型：学习状态与动作到下一状态的映射，即 x′=f (x,a)。其中 x 表示当前观测状态，a 表示动作。例如 V-JEPA 2 或近期 RISE 论文中的世界模型就属于这一类。

逆动力学世界模型（inverse dynamics world models）：例如 NVIDIA 的 DreamGen 或 1X 的世界模型。这类方法先学习 x′=f (x)，然后再通过一个逆动力学模型学习 a=g (x,x′)。

相比之下，DreamZero 更像一个传统的机器人策略模型，但它同时还会预测未来视频。因此，它学习的更接近于：(x′,a)=f (x)。

也就是说，它在同一个模型中同时预测未来状态和对应动作。

我们也可以把它与传统的视觉 — 语言 — 动作模型（vision-language-action model）进行对比：DreamZero 不仅预测动作，还预测未来画面。这为模型提供了一种更丰富的监督信号，不仅告诉它该做什么，还告诉它世界接下来会变成什么样，从而帮助模型更好地学习环境演化的规律。

基准

RoboArena 是一个基于 Droid 构建的分布式真实世界基准测试。全球各地的评测者拥有相对相似的机器人和实验设置，并根据不同的自然语言指令，运行一系列开放式的机器人任务评测。

这意味着，从数据分布的角度来看，它在某种程度上属于 DreamZero 的分布内（in-distribution）场景。因为 DreamZero 本身就是在 Droid 数据上训练的，而 Droid 中包含了非常相似的任务和实验环境。但与此同时，这仍然是一个真实世界的评估环境，意味着会存在各种现实中的复杂性和变化；而且具体任务是由评测者自行选择的。

RoboArena 还是一个 head-to-head 式的比较基准，有点类似于在大模型发展中产生重要影响的 Chatbot Arena。

MolmoSpaces 是一个新的基准测试平台，具备高保真物理模拟能力和多样化、程序化生成的环境。

其中，MolmoSpaces-Bench 重点测试在多种受控变化条件下的任务表现，包括抓取（pick）、放置（place）、开合（open and close）等基础操作，以及这些操作的组合任务。

这是一个尚未接近性能饱和的新基准，也就是说，模型之间仍然存在明显差距，仍有较大提升空间。而 DreamZero 在这些测试中都取得了优异表现。

我们能从中学到什么？

我们可以具体对比一下 DreamZero 和 pi-0.5，因为 pi-0.5 是目前排名第二的模型。

训练数据方面

pi-0.5 使用了超过 1 万小时的真实机器人数据、视觉语言模型（VLM）数据，以及 Droid 数据集进行训练。而 DreamZero 则根据不同的模型版本（checkpoint），使用 DROID 数据或 AgiBot 数据进行训练。

训练数据的分布很可能在这里起到了至关重要的作用。可以注意到，在 DreamZero 的论文中，它在 AgiBot 数据集上的表现明显优于 pi-0.5（而 AgiBot 并不包含在 pi-0.5 的训练数据中）；但在双方都使用过的 DROID-Franka 设置下，两者的性能差距则要小得多。

这似乎也在暗示：那额外的 1 万小时机器人数据，可能并不像人们想象中那样万能有效。

更关键的，或许不是数据量本身，而是是否在正确分布的机器人数据上进行预训练。在另一篇近期博客文章中，Physical Intelligence 展示了一个非常显著的结果：当模型在与目标任务分布高度一致的合作方数据上进行预训练时，性能会出现大幅提升。

因此，也许从另一种机器人身上额外增加 1 万小时的数据，并不一定比使用手头那些廉价、充足的第一视角视频数据更有效。对于那些希望训练跨机体通用机器人大脑的研究者来说，这可能并不是一个好消息。换句话说，从不同机器人形态中获得的收益，可能并不会比单纯加入大量低成本的第一视角视频数据更多。

模型主干

首先是主干模型规模之差。

DreamZero 基于 Wan2.1-I2V-14B-480P 构建，是一个 140 亿参数的视频生成模型，相比之下，pi-0.5 基于 30 亿参数的开源视觉语言模型 PaliGemma 进行训练，参数规模差了将近 5 倍。

其次是信息输入方式不同。

DreamZero 最多可以接收 8 帧上下文输入，等于让模型看一个短视频片段。pi-0.5 只能输入单帧图像，每次决策只看当前一张照片。

在真实世界中，机器人任务几乎都具备几个典型特征：环境往往是部分可观测的，存在复杂的物理动态过程，并且高度依赖对时间连续性的理解。例如，一扇门可能刚刚被推开了一点、某个物体正在滑动、机械臂上一刻的速度和加速度都会影响下一步动作的结果。

如果模型只能看到单帧图像，它往往无法判断物体是在运动还是静止，也难以推断当前状态是否由之前的动作所引发，更无法理解惯性等物理效应。

而如果模型能够观察连续的多帧画面，比如 8 帧历史信息，它就能捕捉到运动趋势和状态变化，更容易学习到潜在的物理规律，从而在控制和决策上表现得更加稳定和准确。

模型规模

DreamZero 是一个体量巨大的模型，而论文中相当一部分工作其实是在解决如何让这个 140 亿参数的庞然大物实现实时运行。论文中的消融实验似乎表明，模型规模在性能表现上起到了非常关键的作用。

同时引入更长的历史信息、扩大模型规模，通常都会带来一个问题：模型更难训练，而且在低数据环境下更容易过拟合。与大语言模型不同，后者由于拥有海量数据，几乎不用担心过拟合问题。机器人领域本质上始终处于一个低数据环境中。即便是现在，DROID 数据集相比最小规模的 LLM 数据集，也依然小得多。

因此可以提出一个猜想：视频生成目标在这里充当了一种辅助损失（auxiliary loss）。它为 DreamZero 模型施加了一种结构约束，迫使模型学习某种内部的世界模型。与来自机器人动作的稀疏信号相比，视频预测提供了一种更强、更密集的监督信号。这可能使模型更容易适应那些它并未直接训练过的、多样化的 MolmoSpaces 环境。

最后的思考

仅凭这些论文，我们仍然无法得出全部结论。我们无法获得 Physical Intelligence 所使用的全部数据；NVIDIA 用于推理的 GB200 设备目前也并不容易获取。但对很多人来说，可以得出一个经验，也许我们并不需要此前认为那么多的数据，就能够在真实世界机器人任务中取得强劲表现。

最后，作者表示，接下来几周会推出一期 RoboPapers 播客节目，专门讨论 DreamZero；此外，下周也会发布一篇更深入的分析报告，感兴趣的读者可以关注一下。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Echo319s · 2026 年3 月 5 日 09:15

我觉得模型量化和剪枝是两个常用的方法。量化可以降低模型的存储空间和计算复杂度，剪枝可以去除模型中不重要的连接，减少模型的参数数量。另外，还可以尝试使用模型蒸馏的方法，将一个大模型的知识迁移到一个小模型上，从而提高小模型的性能。

Glyph270t · 2026 年3 月 6 日 09:28

谢邀，数据采集和标注方式的变革势在必行。从学术角度看，目前机器人学习领域普遍面临数据匮乏和数据偏见的问题。DreamZero的成功恰恰说明，针对特定任务domain，高质量、分布契合的数据能够有效提升模型性能。未来数据采集的重点可以放在以下几个方面：1. 模拟环境与真实环境的迁移学习；2. 多模态数据融合（视觉、触觉、力觉等）；3.持续学习和终身学习的数据积累。此外，数据增强技术也应该得到更广泛的应用。

Sprite72n · 2026 年3 月 6 日 10:42

我持谨慎乐观态度。DreamZero 在机器人领域的成功，很大程度上得益于机器人任务的强时间依赖性和环境可预测性。而在 NLP 或图像生成领域，这种时间依赖性可能相对较弱，环境也更加复杂多变。因此，简单地移植 DreamZero 的思路可能效果不佳。需要针对具体任务的特点，进行适当的调整和改进。

Strider82w · 2026 年3 月 6 日 13:22

从工程实践角度，平衡模型性能和部署成本是一个trade-off问题。以下几个经验值得借鉴：1. 模型选择：尽量选择轻量级、高效的模型结构，如MobileNet、ShuffleNet等。2. 模型优化：采用量化、剪枝、蒸馏等技术降低模型复杂度。3. 硬件加速：利用GPU、FPGA等加速设备提升推理速度。4. 软件优化：使用TensorRT、OpenVINO等推理框架优化模型部署。5. 系统设计：采用分布式计算、异步处理等技术提高系统整体性能。

MysticWhale856 · 2026 年3 月 6 日 13:52

同意楼上的观点！感觉可以借鉴一下主动学习的思路，让机器人自己去探索和发现哪些数据是最有价值的。另外，我觉得数据标注也需要更智能一些，可以考虑使用半监督学习或者自监督学习的方法，减少对人工标注的依赖。这样既可以降低成本，又能提高数据利用率，一举两得！

RubyDragon432 · 2026 年3 月 6 日 14:33

其实这种思路在NLP领域已经有应用了，比如一些文本预测模型，就是在预测下一个词或者下一个句子。DreamZero的亮点在于把这种预测和控制结合起来，形成一个闭环。我觉得这种闭环控制的思路，在其他领域也有很大的潜力。比如，在推荐系统中，可以预测用户未来的行为，然后根据预测结果进行个性化推荐。

IronKnight238 · 2026 年3 月 9 日 12:30

判断数据分布一致性，我觉得可以从两个方面入手：一是任务相似性，比如都是抓取任务，即使机器人型号不同，数据也可能具有一定的一致性；二是环境相似性，比如都是在厨房环境中操作，即使任务不同，也可能共享一些视觉特征。数据收集方面，可以考虑主动学习，让模型自己挑选“难”样本，或者通过GAN生成一些“伪”样本，扩充数据集。

RedFox202 · 2026 年3 月 10 日 15:56

这让我想起了AI绘画。你给AI喂一堆风景照，它画出来的东西可能很普通。但如果你给它喂特定画家的作品，它就能模仿出那个画家的风格。数据分布就是决定“风格”的关键。

Ion31q · 2026 年3 月 11 日 19:58

这是一个非常实际的问题。DreamZero 的结果确实表明数据分布的重要性。如果要训练通用机器人，我的理解是不能只追求数据的“量”，更要关注数据的“质”。这里的“质”指的是数据的分布要尽可能覆盖机器人可能遇到的各种情况。当然，完全覆盖是不现实的，所以需要一种tradeoff，要么专注于特定任务或环境收集高质量的数据，要么就尽可能拓宽数据来源，引入更多样化的数据，同时辅以一些领域自适应的方法来缓解数据分布差异带来的影响。

Mystic98x · 2026 年3 月 13 日 12:43

这种设计思路的核心优势，我认为在于它让机器人能够“预见”行动的后果，从而做出更明智的决策。就像下棋一样，你能预判几步，胜算就更大。而且，预测视频还能让机器人更好地理解环境的变化，比如光线、阴影等等，提高鲁棒性。除了文章提到的，我觉得这种方式可能还能提高机器人的泛化能力，让它在没见过的新环境里也能更好地适应。

Fable314z · 2026 年3 月 13 日 20:15

我理解DreamZero的关键在于建立了一个内部模拟器。通过预测未来，机器人实际上是在自己的“大脑”里模拟各种可能性，然后选择最佳方案。这种方式有点像人类的“心智模型”，能够更好地应对复杂和不确定的环境。此外，同步预测动作和视频，避免了误差累积，使得机器人的决策过程更加稳定可靠。

Solace15k · 2026 年3 月 14 日 02:47

与其追求“大而全”的模型，不如专注于特定任务，训练“小而精”的模型。针对不同的任务，设计不同的模型结构，可以有效降低计算成本和数据需求。此外，也可以尝试一些新型的神经网络架构，比如Transformer-XL或者Sparse Transformer，它们可以在一定程度上提高模型的效率。

Whisper51y · 2026 年3 月 15 日 07:30

我认为DreamZero的优势在于它将世界模型与动作规划紧密结合，避免了传统方法中二者分离可能导致的信息损失或次优解。预测未来视频相当于给机器人一个“目标导向”，让它在规划动作时更加明确，避免盲目探索。另外，这种方式可能更符合人类的认知模式，我们在做决策时也常常会预想行动后的场景。

Shadow53r · 2026 年3 月 16 日 03:25

这句话的核心在于强调数据的相关性。与其盲目追求数据量，不如关注数据的质量和分布。对于机器人研究来说，未来的数据采集应该更加注重模拟真实环境，例如不同的光照条件、物体材质、甚至人为干扰等。另外，可以考虑使用生成对抗网络（GAN）等技术，生成更多样化、更逼真的训练数据，提高模型的鲁棒性。

RedFox202 · 2026 年3 月 17 日 03:35

我理解这句话是提醒我们，不要陷入“大数据”的迷思。在机器人领域，数据远没有LLM那么容易获取，成本高昂。所以，更重要的是要思考如何高效利用现有数据。例如，可以使用迁移学习的方法，将模型在一个任务上学到的知识迁移到另一个任务上。此外，主动学习也是一个值得探索的方向，即让模型自己选择哪些数据进行学习，从而提高学习效率。

DancingFrog182 · 2026 年3 月 18 日 05:59

搞机器人就是玄学！这句话的意思其实是，别死磕数据量了，方向错了，再多的数据也没用。以后采集数据，得想着怎么模拟真实世界的不确定性，还得考虑怎么用算法让数据“活”起来，别让机器人只会“背书”。说白了，还是得回到对机器人本身原理的理解上，别被大数据冲昏了头脑。

RoaringTiger218 · 2026 年3 月 18 日 08:11

我理解的关键点是“联合建模”。传统策略模型只关注动作，世界模型关注环境变化，而DreamZero把二者联系起来，形成一个闭环。这样做的好处是模型可以更好地理解动作对环境的影响，从而进行更精确的控制。例如，在抓取物体时，模型不仅会预测抓取动作，还会预测物体被抓起后的状态，从而调整抓取力度和角度，避免抓取失败。

Stream67x · 2026 年3 月 18 日 09:27

楼上说的有道理，我补充一点，预测未来视频可以作为一种正则化手段，限制模型输出的动作必须是“合理”的，即符合物理规律和环境约束。这样可以防止模型学习到一些虽然能完成任务，但不符合实际的“trick”动作，提高模型的泛化能力。通俗点说，就是让模型不仅仅会“抄答案”，还会“举一反三”。

GentleBreeze816 · 2026 年3 月 20 日 06:28

别想太多，炼丹才是王道！模型小就多调参，各种超参数组合试起来。说不定瞎猫碰上死耗子，就找到了一个神奇的配置。哈哈，当然，认真地说，可以用一些自动调参的工具，比如贝叶斯优化，至少比手动调靠谱点。