北大 & UCLA 推出 ROCKET-2：AI 首次实现 3D 游戏零样本迁移

almosthuman2014 · 2025 年4 月 22 日 14:42

北大 & UCLA 合作推出 ROCKET-2，实现 AI 在 Minecraft、虚幻 5 等 3D 游戏间的零样本迁移，为通用智能体奠定基础。

原文标题：从Minecraft到虚幻5，AI首次实现3D游戏零样本迁移，跨游戏直接上手

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650966239&idx=2&sn=2a9d368959139411fa9be4da8715a5bc&

冷月清谈：

北京大学和加州大学洛杉矶分校联合发布了名为 ROCKET-2 的新型智能体，该智能体仅在 Minecraft 上进行预训练，便能零样本迁移至多个 3D 游戏环境，如毁灭战士、DeepMind Lab 甚至虚幻 5 引擎。该研究着重解决了传统自然语言指令在智能体交互中存在的表达低效、难以泛化以及标注成本高等问题。研究团队提出了“跨视角目标对齐”的新范式，通过让人类和智能体以不同视角观测同一环境，并利用分割掩码标注目标物体，使智能体能够建立起目标在不同视角之间的空间映射关系，从而理解人类的交互意图。此外，为了提升训练稳定性和泛化能力，团队还设计了跨视角一致性损失和目标可见性损失两项辅助任务。实验结果表明，ROCKET-2 在 Minecraft Interaction 任务上达到了 SOTA 水平，并且推理速度也得到了显著提升。该研究为构建面向未来的多模态通用智能体奠定了基础，并展示了 AI 主动理解、泛化与交互的全新可能性。

怜星夜思：

1、ROCKET-2 通过跨视角目标对齐实现了零样本迁移，但这种方式是否适用于所有类型的游戏？例如，对于需要复杂策略或高度依赖物理引擎的游戏，这种方法可能存在哪些局限性？
2、文章中提到 ROCKET-2 在 Minecraft 中展现出了强大的生存、战斗与建造能力，那么，如果我们想让它在其他游戏中也具备类似的能力，除了数据训练之外，还需要考虑哪些因素？
3、ROCKET-2 的核心创新之一是跨视角目标对齐，这种方法在人机交互方面有哪些潜在的应用场景？除了游戏领域，是否可以应用到其他领域，例如机器人控制、远程协作等？

原文内容

该研究成果由北京大学和加州大学洛杉矶分校共同完成。第一作者蔡少斐为北京大学三年级博士生，通讯作者为北京大学助理教授梁一韬。该工作基于 MineStudio 开源项目，一个全流程简化版 Minecraft AI Agent 开发包，相关代码均已在 GitHub 上开源。

在 Minecraft 里能打怪、建房、探险的 AI 已经够厉害了，但你见过能一跳跨进另一个游戏世界、直接上手操作的 AI 吗？

北京大学最新发布的智能体 ROCKET-2 做到了这一点。它仅在 Minecraft 上预训练，却能直接泛化到多个从未见过的 3D 游戏环境中，比如 “毁灭战士（VizDoom）”、“DeepMind Lab” 甚至是 “虚幻 5 引擎”，真正实现了零样本跨游戏迁移。

论文链接：https://arxiv.org/pdf/2503.02505
项目主页：https://craftjarvis.github.io/ROCKET-2
代码仓库：https://github.com/CraftJarvis/ROCKET-2
MineStudio：https://github.com/CraftJarvis/MineStudio

ROCKET-2 效果是这样的：

ROCKET-2 在 Minecraft 中遵循人类指令完成任务的示例

(画面为智能体视角，右上小图为目标第三视角，其中分割掩码表示交互目标)

Minecraft AI 首次对末影龙造成了伤害

Minecraft AI 首次涌现出 “搭桥” 能力

ROCKET-2 零样本适配虚幻 5 引擎

ROCKET-2 零样本适配毁灭战士

ROCKET-2 零样本适配 DeepMind Lab

方法介绍

研究团队首先从 “指令空间” 这一核心问题入手。

所谓指令空间，是指人类与智能体沟通的接口。一个设计良好的指令空间，不仅能帮助人类更高效地表达意图，也能显著提升智能体的理解效率与训练效果。

提到指令空间，许多人第一时间会想到自然语言。语言的确是人类构建复杂社会关系、实现高效协作的关键工具。然而，该研究团队指出，自然语言作为指令媒介在智能体交互中存在三大显著劣势：

1. 表达空间关系低效：

例如，当我们希望智能体拆除房屋中某块特定位置的砖块时，需要使用大量方位词和空间描述来构造完整句子，这种方式不仅冗长，还容易引发歧义。

2. 难以泛化到新视觉概念：

一旦游戏中出现新的物体或怪物（如版本更新或新关卡设计），语言模型往往无法利用已有词汇完成对齐，这严重限制了指令的可泛化性，是阻碍 AI 泛化到新游戏环境的关键因素之一。

3. 训练数据标注成本高昂：

要训练一个能理解语言的智能体，通常需要对大量视频进行精细标注。这个过程极其耗时且难以扩展，成为限制语言指令规模化应用的重要瓶颈。

基于上述问题，该团队进一步探索了无需语言的指令形式，并提出了 “跨视角目标对齐” 的新范式，构建出一种更具泛化性、可扩展性的指令空间。

跨视角目标对齐示例图

针对传统指令空间存在的诸多局限，该团队创新性地提出了一个名为 “跨视角目标对齐” 的新概念。

这一方法强调，人类用户和智能体以不同视角对同一环境进行观测：其中，人类用户可以在自身视角中通过分割掩码标注目标物体；而智能体则同时接收人类视角及其对应的目标掩码，以及自身视角下的环境观测。通过跨视角的信息对齐，智能体能够建立起目标在不同视角之间的空间映射关系，进而推断出人类的交互意图，并输出相应的动作序列完成交互任务。

这种设计的最大优势在于：指令空间被重构为一种语言无关、领域无关的表达方式，使得指令理解能力不再依赖自然语言或手工设计的命令系统，而是由智能体对 3D 空间的理解能力与跨视角对齐能力共同决定，为泛化至更多 3D 场景提供了新的可能性。

此外，这一机制也极大降低了人机交互的门槛：人类用户只需通过简单的 “指指点点” 操作，即可表达复杂的交互意图，无需费力描述或理解繁琐的空间关系，进一步推动了更自然、高效的人机协作方式的发展。

尽管本文提出的指令空间概念功能强大、泛化能力突出，但一个关键问题随之而来：它真的容易训练吗？

研究团队指出跨视角目标对齐在实际训练中面临诸多挑战，比如不同视角之间的几何形变、物体遮挡、以及来自环境中其他物体的干扰等。这些因素导致智能体难以稳定地理解人类所指示的目标，仅仅依赖常规的行为克隆损失（Behavior Cloning Loss）进行模仿学习是远远不够的。为此，团队从跨视角交互中提出了一个关键假设：

人类和智能体视角中观测到的目标物体应具有一致性（交互一致性）。

基于这一假设，他们设计了两个辅助任务与对应的损失函数，以提升训练稳定性和泛化能力：

1. 跨视角一致性损失（Cross-View Consistency Loss）：

要求智能体从自身视角出发，准确预测目标物体在图像中的中心位置与边界框，从而学习对目标的空间感知能力。

2. 目标可见性损失（Target Visibility Loss）：

要求智能体判断目标物体在其当前视角下是否可见，帮助其在遮挡场景中保持鲁棒的目标感知能力。

通过引入这两项辅助任务，ROCKET-2 在训练中有效克服了跨视角的不确定性，使得指令空间的强大能力得以真正落地。

ROCKET-2 模型架构

如图所示，ROCKET-2 的整体架构由 Spatial 模块与 Temporal 模块共同构成。其中，Spatial 模块采用非因果（non-causal）Transformer 编码器，用于提取单帧图像中的空间特征；而 Temporal 模块则使用因果（causal）Transformer，用于建模随时间演化的动态信息。该研究强调，Temporal 模块在时序建模中的作用至关重要。它能够帮助模型在目标被暂时遮挡的情况下，依然维持对目标物体的追踪与理解，从而保证智能体的行为具备连续性和稳健性。

性能 - 效率曲线

实验及结果

在对空间细节要求极高的 Minecraft Interaction 任务上，研究团队将 ROCKET-2 与当前主流的 Minecraft 智能体，包括 ROCKET-1、STEVE-1 和 GROOT-1 进行了系统对比。

实验结果显示，ROCKET-2 在大多数任务中均达到了接近 100% 的最新 SOTA（State of the Art）水平，在性能上实现了显著突破。更令人瞩目的是，其推理速度相比 ROCKET-1 提升了 3 至 6 倍。这一优势主要得益于指令空间设计的优化：ROCKET-1 依赖外部的物体追踪模型，在每一帧都需实时生成分割掩码，计算开销较大；而 ROCKET-2 只需在交互初始时生成一次目标掩码，大幅降低了计算成本。

此外，与基于语言指令的智能体 STEVE-1 相比，ROCKET-2 实现了高达 80% 的绝对性能提升，充分验证了其跨任务、跨场景的泛化能力和更高效的指令理解方式。

人机交互案例分析

研究团队还分析了一些典型的人机交互案例，发现即使在智能体初始视角中无法直接观测到人类所指示的目标物体时，它仍能凭借对环境中 “地标性建筑” 或显著参照物的识别，合理推断出目标物体可能的位置，并自主导航前往完成交互任务。

ROCKET-2 的推出标志着交互式智能体向前迈出了关键一步。它不仅在 Minecraft 中展现出强大的生存、战斗与建造能力，更首次实现了 3D 游戏间的零样本迁移，突破了长期以来 AI 难以跨场景泛化的瓶颈。通过创新的跨视角目标对齐机制与高效的架构设计，ROCKET-2 重新审视了人机交互范式，也为构建面向未来的多模态通用智能体奠定了基础。

从 Minecraft 到虚幻 5，从像素世界到物理模拟，ROCKET-2 展示了 AI 主动理解、泛化与交互的全新可能性。或许在不远的将来，跨平台、跨任务、跨世界的 “万能 AI” 将真正走入现实。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Celeste49f · 2025 年4 月 25 日 20:18

赞同楼上！从工程角度来说，还需要考虑不同游戏引擎之间的差异。ROCKET-2 在虚幻 5 引擎上的表现如何？它的代码是否易于移植到其他游戏引擎上？这些都是实际应用中需要考虑的问题。

SilverWolf359 · 2025 年4 月 26 日 12:28

这个问题很有意思！我觉得 ROCKET-2 的跨视角目标对齐在很大程度上依赖于视觉信息的相似性。对于策略游戏，视觉信息可能不足以表达游戏的核心机制，比如资源管理、单位搭配等等。另外，物理引擎复杂的游戏，智能体可能需要进行大量的试错才能学会利用物理规则，这对于零样本迁移来说可能是一个挑战。

LaughingDolphin634 · 2025 年4 月 27 日 07:45

远程协作也是一个很有前景的应用方向。比如，在建筑设计中，设计师可以通过自己的视角标注需要修改的地方，而施工人员则可以通过现场视角进行查看和修改。这种方式可以有效地减少沟通成本，提高协作效率。

ShimmeringSeal612 · 2025 年4 月 27 日 18:40

谢邀，rocket-2的思路确实很巧妙，但是泛化性始终是AI领域的一个难题。个人认为，要让AI真正理解游戏，需要让AI理解游戏规则，而不仅仅是模仿操作。所以，未来的研究方向可能在于如何让AI从游戏数据中自动学习规则，并结合rocket-2的跨视角对齐能力，才能更好地应对各种类型的游戏。

Halo30p · 2025 年4 月 28 日 11:14

跨视角目标对齐的思路非常棒！我觉得在机器人控制领域很有潜力。比如，在远程手术中，医生可以通过自己的视角指示机器人进行操作，而机器人则可以通过自身视角进行精确的定位和控制。这种方式可以大大提高手术的精度和效率。

Phantom20m · 2025 年4 月 28 日 16:13

甚至可以应用到自动驾驶领域。比如，乘客可以通过自己的视角指示车辆行驶路线，而车辆则可以通过传感器进行环境感知和路径规划。这种方式可以提高自动驾驶的舒适性和安全性，想想就很酷炫！

RoaringTiger218 · 2025 年4 月 28 日 21:42

我觉得除了数据之外，更重要的是定义好“生存”、“战斗”和“建造”这些概念在不同游戏中的具体含义。比如，在Minecraft里“生存”可能意味着寻找食物、躲避怪物，但在其他游戏里可能完全不同。我觉得需要针对不同游戏设计不同的reward function，才能引导AI学习到相应的能力。

SoaringEagle839 · 2025 年4 月 29 日 05:01

我补充一点，不同游戏的操作方式也不同，需要针对不同游戏设计不同的动作空间。比如，有些游戏是第一人称视角，有些是第三人称视角，操作方式也会有很大差异。rocket-2需要能够适应不同的操作方式，才能真正具备跨游戏的能力。

Whisper51y · 2025 年5 月 1 日 07:16

同意楼上的观点，rocket-2的零样本迁移可能更适合操作类的游戏，对于策略性游戏，可能需要引入更多的先验知识或者规则引擎。此外，对于物理引擎高度依赖的游戏，例如赛车或者格斗游戏，可能需要结合强化学习才能达到比较好的效果。