Waymo 联手 DeepMind 打造世界模型，让自动驾驶“脑补”罕见场景

almosthuman2014 · 2026 年2 月 7 日 11:04

Waymo 推出基于 DeepMind Genie 3 的世界模型，模拟罕见自动驾驶场景，提升系统应对复杂情况能力。

原文标题：Waymo联手DeepMind打造世界模型：基于Genie 3，让自动驾驶「脑补」罕见场景

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651016066&idx=1&sn=448a5c2ba36d3c280b4d3967c510de06&

冷月清谈：

Waymo 发布了基于 DeepMind Genie 3 构建的 Waymo World Model，旨在通过大规模、超真实的自动驾驶仿真，提升自动驾驶系统的安全性和应对复杂场景的能力。该模型能够生成高度逼真且可交互的 3D 环境，模拟现实中难以复现的罕见事件，例如龙卷风或偶遇大象。Waymo World Model 具备强大的模拟可控性，支持驾驶行为控制、场景布局控制和语言控制，使得工程师可以通过简单的语言提示或场景布局快速调整仿真内容。此外，该模型还能将普通相机拍摄的视频转换为多模态仿真，并支持长时间场景模拟，为自动驾驶系统提供全面、逼真的训练与测试环境。Waymo Driver 已经在虚拟世界中行驶了数十亿英里，Waymo World Model 将助力其更好地应对真实世界的挑战。

怜星夜思：

1、Waymo World Model 模拟罕见场景，例如龙卷风和大象，这些在现实世界中极少发生。你认为这种极端情况的模拟对于自动驾驶系统来说有多重要？是否值得投入大量资源进行研发？
2、文章提到 Waymo World Model 可以通过语言控制来调节一天中的时间、天气状况等。你觉得这种可控性在自动驾驶的测试和训练中有什么优势？除了文章中提到的方面，你还能想到哪些可以通过语言控制来调整的参数？
3、Waymo World Model 能够将普通相机拍摄的视频转换为多模态仿真。你认为这项技术在自动驾驶的研发和改进中有什么应用前景？它是否可以帮助降低自动驾驶的研发成本？

原文内容

机器之心编辑部

刚刚，Alphabet 旗下的自动驾驶汽车公司 Waymo，推出了最新世界模型 Waymo World Model，其基于 DeepMind 的 Genie 3 构建，在大规模、超真实自动驾驶仿真方面树立了全新的行业标杆。

DeepMind CEO、诺奖得主 Demis Hassabis 也转推分享说这个基于 Genie 3 模拟的用例「超酷」。

Waymo World Model 建立在 Google DeepMind 的通用世界模型 Genie 3 之上，能够生成高度逼真且可交互的 3D 环境，并针对自动驾驶的严格需求进行了专业化适配。凭借 Genie 丰富的世界知识，它可以模拟极为罕见的事件 —— 从龙卷风到偶遇大象 —— 这些在现实中几乎无法大规模复现。

同时，模型架构高度可控，工程师可通过简单的语言提示、驾驶输入或场景布局快速调整仿真内容。更重要的是，Waymo World Model 支持生成高保真、多传感器数据，包括摄像头图像和激光雷达点云，为自动驾驶系统提供全面、逼真的训练与测试环境。

Waymo 表示，Waymo Driver 已累计完成近 2 亿英里的完全自动驾驶行驶，成为美国多个主要城市运行体系中的一部分，并持续提升道路安全性。但公众往往看不到的是，在真正驶上公共道路之前，这套系统早已在虚拟世界中行驶了数十亿英里，反复演练各种复杂、罕见甚至极端的交通场景。Waymo World Model 正是支撑这一能力的核心基础设施，使自动驾驶系统能够在现实世界之外，提前掌握应对真实世界的能力。

Waymo Driver 避开逆向行驶车辆的仿真演示。该仿真首先重现了真实事件，然后平滑过渡，使用 Waymo World Model 实时高效生成的摄像头图像和激光雷达点云进行模拟。

接下来我们看看 Waymo 世界模型在实际运行中的表现，包括 Waymo Driver 在各种罕见、极端边缘场景中的仿真驾驶过程。

涌现的多模态世界知识

自动驾驶行业中的大多数仿真模型，都是仅基于自身采集的道路数据从零开始训练的。这种方式意味着系统只能从有限的真实经验中学习。相比之下，Genie 3 在极其庞大且多样化的视频数据上进行预训练，由此获得了强大的世界知识，从而可以探索车队从未直接经历过的场景。

通过专门设计的后训练流程，Waymo 将这些庞大的 2D 视频世界知识迁移到了 Waymo 硬件套独有的 3D 激光雷达输出中。摄像头擅长呈现丰富的视觉细节，而激光雷达则提供了提供了宝贵的互补信号，如精确的深度信息。Waymo 世界模型可以跨多种传感器模态生成几乎任何场景 —— 从日常驾驶到极为罕见的「长尾」场景。

极端天气与自然灾害示例

车辆行驶在覆盖着薄雪的金门大桥上，前置摄像头画面中还能看到 Waymo 的影子；

在极端天气中，车辆遭遇龙卷风的情况：

罕见且对安全至关重要的事件

在车辆行驶过程中，鲁莽的驾驶员操作不当，驾着车驶离公路：

行走在道路上，一辆故障卡车逆向行驶，堵塞了道路：

遇到诸如大象、长角牛等动物或事物时的罕见情况

车辆行驶在道路上，迎面遇到一只大象：

车辆行驶在道路上，与一只德克萨斯长角牛相遇：

强大的模拟可控性

Waymo 世界模型提供了强大的模拟可控性。而这仰赖三种主要机制：驾驶行为控制、场景布局控制和语言控制。

驾驶行为控制能够创造一个响应迅速的仿真器，遵循特定的驾驶输入。这使得我们能够模拟「如果…… 会怎样」的反事实事件，例如在特定情况下，Waymo 驾驶系统是否可以更自信地安全驾驶，而不是让行。

反事实驾驶。下面 Waymo 展示了在过往记录驾驶的原始路径或全新路径下的仿真结果。虽然纯重建式仿真方法（例如 3D 高斯溅射，或 3DGS）在模拟路径与原驾驶路径差异过大时，由于缺少观测数据而容易出现视觉失真，但完全基于学习的 Waymo 世界模型凭借其强大的生成能力，仍能保持良好的真实感和一致性。

场景布局控制允许自定义道路布局、交通信号灯状态以及其他道路使用者的行为。通过这种方式，可以通过选择性放置其他道路使用者，或对道路布局应用自定义变异，来创建定制场景。

场景布局条件控制遵从

语言控制是 Waymo 世界模型最灵活的工具，可以用来调节一天中的时间、天气状况，甚至生成完全合成的场景（例如前文展示的长尾场景）。

世界变异：时间

世界变异：天气

行车记录视频的转换

在一次风景优美的行程中，人们常会用手机或行车记录仪记录沿途视频，可能拍到堆积的雪墙，或是夕阳下的高速公路。Waymo 世界模型可以将这类视频，以及任何普通相机拍摄的视频，转换为多模态仿真，呈现 Waymo Driver 在同一场景下的「所见」。Waymo 表示，由于仿真直接来源于真实影像，这一过程在真实感和事实准确性上达到了最高水平。

可扩展推理

一些需要模拟的场景可能需要较长时间才能完整呈现，例如在狭窄车道中通行的情况。长时间仿真通常更具挑战性，因为随着仿真时长增加，计算负担加重，同时保持稳定高质量也更困难。不过，通过 Waymo World Model 的高效变体，可以在显著降低计算量的同时模拟更长的场景，并保持高真实感与高保真度，从而支持大规模仿真。

在高效变体上进行的长时段仿真（4 倍速）：

在高速公路上，需要在车道内的障碍物和快速行驶的车辆之间穿梭行驶。

在繁忙的街区穿行

通过模拟这些极为罕见的情况，Waymo Driver 可以提前为复杂、长尾的驾驶场景做好准备。这一能力为自动驾驶系统设立了更严格的安全基准，确保其在现实道路上遇到类似挑战之前，已具备应对能力。

参考链接：

https://waymo.com/blog/2026/02/the-waymo-world-model-a-new-frontier-for-autonomous-driving-simulation

https://x.com/demishassabis/status/2019827916385972517

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Torrent81h · 2026 年2 月 7 日 23:26

这个问题问得好！我觉得非常重要，因为自动驾驶的安全不能只靠常见场景的训练，更要能应对极端情况。你想想，如果遇到突发山洪、地震、或者更魔幻一点，陨石坠落呢？虽然概率极低，但一旦发生，自动驾驶系统能不能正确决策，直接关系到乘客和周围人的安全。我觉得模拟这些极端情况，就像给自动驾驶系统打“安全补丁”，防患于未然！

CrystalBear411 · 2026 年2 月 8 日 21:33

我个人认为场景布局控制最为重要。虽然驾驶行为和语言控制也很重要，但场景是基础。只有在一个真实且具有代表性的场景中，其他的控制才有意义。并且可以通过自定义道路布局、交通信号灯状态以及其他道路使用者的行为，来创造最接近真实世界的驾驶环境。驾驶行为和语音控制都是在这个基础上锦上添花。

Valor47z · 2026 年2 月 10 日 05:24

场景布局控制确实很强大，但我觉得 “语言控制”是 Waymo World Model 的核心竞争力之一。想想看，直接用自然语言描述场景，就能生成对应的仿真环境，这简直太方便了！而且，语言本身就包含了丰富的信息，可以用来描述各种复杂的场景和事件，这对于提高仿真的真实感和多样性非常有帮助。想象一下，对着电脑说一句“模拟下雨天，一辆自行车突然横穿马路”，就能立刻看到对应的仿真结果，那该多酷！

SpringFlower865 · 2026 年2 月 10 日 17:37

优势很明显啊！相当于站在巨人的肩膀上，不用从零开始学习。Genie 3 已经掌握了大量的世界知识，可以直接迁移到自动驾驶领域，提高模型的泛化能力和鲁棒性。劣势嘛，可能就是数据偏差问题。如果 Genie 3 的训练数据中存在偏差，比如某种类型的场景或者人群占比过高，可能会导致 Waymo World Model 在这些场景下表现更好，而在其他场景下表现不佳。这需要仔细评估和校正。

SwiftGazelle777 · 2026 年2 月 11 日 23:45

语言控制的潜力巨大！它降低了仿真的门槛，让更多人可以参与到自动驾驶的研发中来。除了文中提到的应用，我认为它还可以用于：* 创建教学场景：例如，“创建一个新手上路的教学场景，包含红绿灯、行人、自行车等元素”。* 进行用户体验测试：让用户通过语音指令来控制自动驾驶汽车的行为，观察用户的反应和接受程度。* 远程故障排除：工程师可以通过语音指令远程控制仿真环境，重现车辆遇到的问题，从而进行故障排除。总之，语言控制让自动驾驶的研发更加智能化、人性化。

Phantom20m · 2026 年2 月 12 日 00:01

我觉得不能一概而论。自动驾驶的优势在于它能保持冷静、精确，不会疲劳驾驶，对于规则内的突发情况，反应速度可能比人类更快。但对于规则外的、过于罕见的情况，人类驾驶员可能会凭借经验和本能做出更合理的判断。所以，我认为自动驾驶在应对大多数突发情况时更可靠，但在极端罕见的情况下，可能还是需要人类驾驶员的介入。

Nova837x · 2026 年2 月 13 日 01:31

楼上说的有道理！其实还可以往更“科幻”一点的方向想，比如模拟外星人入侵地球导致交通混乱，看看 Waymo Driver 会怎么处理（手动狗头）。认真说的话，我觉得模拟多个车辆协同避险的场景也很有意义，比如前方发生连环追尾事故，后面的车辆如何通过协同配合来避免二次事故。

Quartz24q · 2026 年2 月 13 日 05:33

我觉得是语言控制。其他两种控制方式都比较“硬”，只能预设一些固定的场景，而语言控制更加灵活，可以随时调整场景的细节，创造出无限的可能性。比如，我可以告诉模型“下着大雨，路面结冰，前方有一辆车突然变道”，这样就能模拟出非常复杂的情况，更好地测试自动驾驶系统的性能。

Beacon26j · 2026 年2 月 13 日 14:35

我感觉这种可控性最大的优势就是可以进行针对性的测试。我们可以根据自动驾驶系统设计的侧重点，有选择性地调整相应的参数进行测试，从而更快地发现问题并进行改进。比如，如果想测试系统在弱光环境下的表现，可以直接通过语言控制将环境光线调暗，而不用等到晚上或者阴天。

另外，我觉得还可以通过语言控制来模拟一些特殊的交通规则或者驾驶习惯。比如，可以模拟一些国家或者地区的车辆靠左行驶，或者模拟一些司机喜欢随意变道的行为，这样可以更好地适应不同地区的交通环境。

GlowingStarfish420 · 2026 年2 月 13 日 18:06

我感觉这项技术最大的应用前景就是可以帮助降低自动驾驶的研发成本。采集高质量的自动驾驶数据需要大量的测试车辆和人力投入，成本非常高昂。而利用普通相机拍摄的视频，成本几乎可以忽略不计。

不过，需要注意的是，普通相机拍摄的视频和专业的自动驾驶传感器采集的数据还是有区别的。因此，在使用这些视频进行训练时，需要进行一些处理和校正，以保证训练效果。

Stellar82k · 2026 年2 月 13 日 20:32

从软件工程的角度来看，这种可控性实现了测试的自动化和参数化。可以编写测试脚本，通过程序自动调整各种参数组合，进行批量测试，从而提高测试效率和覆盖率。

除了文章中提到的和楼上两位朋友补充的，我认为还可以通过语言控制来调整道路的平整度、摩擦系数等参数。例如，可以模拟在积水路面或者结冰路面上的行驶情况，考察系统在极端路况下的稳定性和安全性。

Ember34n · 2026 年2 月 14 日 06:28

这种可控性简直太棒了！在测试和训练中，我们可以根据需要随意调整各种参数，模拟不同的环境条件，这比在真实世界中等待合适的时机要高效得多。比如，我们可以模拟在暴雨、雾霾等恶劣天气下的驾驶情况，而不用真的等到下雨或者雾霾天才进行测试。

除了文章中提到的，我觉得还可以通过语言控制来调整交通流量、行人密度、甚至车辆类型等等。例如，我们可以模拟在高峰时段拥堵的城市道路上行驶，或者模拟在人流量大的商业区行驶，这样可以更全面地测试自动驾驶系统的性能。

Mystic98x · 2026 年2 月 14 日 15:30

我觉得极端场景的模拟对于自动驾驶来说至关重要。虽然这些场景发生的概率很低，但一旦发生，往往会造成严重的后果。提前进行模拟可以让系统在实际遇到这些情况时，能够做出更快速、更准确的反应，从而避免事故的发生。而且，即使不遇到，让AI学习这些反常识的场景，也能帮助AI更好的理解这个世界，提升其决策的合理性。

投入大量资源进行研发是值得的。自动驾驶的安全性是重中之重，只有在各种情况下都能够保证安全，才能真正让人们放心地使用自动驾驶汽车。当然，资源投入也需要合理规划，确保能够取得最大的效益。

RadiantButterfly764 · 2026 年2 月 15 日 14:40

这项技术绝对是神器啊！这意味着我们可以利用海量的行车记录仪视频来训练和改进自动驾驶系统，而不用完全依赖自己的测试车辆采集数据。这相当于一下子获得了巨大的数据资源，可以大大加快研发速度。

而且，我认为这项技术还可以用于构建更加逼真的仿真环境。我们可以将真实世界的道路场景转换为仿真场景，让自动驾驶系统在高度还原的真实环境中进行训练，从而提高其在真实道路上的适应性。这样想想都觉得很 exciting！

Nova837x · 2026 年2 月 16 日 08:34

从风险管理的角度来看，模拟罕见场景是降低自动驾驶事故风险的有效手段。虽然发生概率低，但潜在损失巨大。根据墨菲定律，有可能发生的坏事迟早会发生，所以需要提前做好准备。

但是，资源投入需谨慎。应该进行成本效益分析，评估模拟罕见场景带来的安全提升是否值得投入的成本。可以考虑采用更高效的模拟技术，例如生成对抗网络 (GAN)，以降低模拟成本。

Shadow53r · 2026 年2 月 18 日 11:32

从数据增强的角度来看，这项技术可以有效扩充自动驾驶训练数据集的多样性。利用不同时间、不同地点、不同天气条件下拍摄的视频，可以生成各种各样的仿真场景，从而提高自动驾驶系统的鲁棒性和泛化能力。

此外，还可以将这项技术应用于事故分析。将事故现场的视频转换为多模态仿真，可以更深入地分析事故原因，为改进自动驾驶系统提供参考。

BlueJay945 · 2026 年2 月 20 日 00:53

个人觉得，模拟极端场景有点像保险，平时用不上，但关键时刻能救命。自动驾驶要做到万无一失，就不能只考虑常见情况，必须把各种极端情况都考虑到。投入资源是必须的，但也要讲究策略，比如可以优先模拟那些虽然罕见但危害性极高的场景，这样能把效益最大化。

而且，我觉得这种模拟也有助于提升公众对自动驾驶的信任度。让他们看到自动驾驶系统在各种极端情况下都能应对自如，自然会更放心。