利用世界模型提升 自动驾驶场景4D重建效果

DriveDreamer4D是首个利用世界模型增强4D驾驶场景重建效果的算法,显著提升了图像渲染质量和时空一致性,推动了自动驾驶空间智能的发展。

原文标题:世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果

原文作者:机器之心

冷月清谈:

- 传统自动驾驶中利用NeRF等方法进行场景重建时,由于数据缺乏,在复杂驾驶操作下的效果不佳。

- DriveDreamer4D首次提出利用世界模型来增强4D场景重建,可以生成丰富多样的视角数据,用于闭环仿真中,提升重建质量。

- DriveDreamer4D可以与多种重建算法(PVG,S3Gaussian,Deformable-GS)结合,提升其图像渲染质量和时空一致性。

- 实验和用户研究表明,DriveDreamer4D可以显著改善图像渲染效果以及自动驾驶车辆和车道线在4D场景中的时空一致性。

- DriveDreamer4D是极佳科技空间智能研究的延续,为端到端自动驾驶和闭环仿真中的场景重建提供了新的解决方案。

怜星夜思:

1、DriveDreamer4D 的主要优势体现在哪些方面?
2、DriveDreamer4D 的潜在应用有哪些?
3、DriveDreamer4D的原理是什么?

原文内容

机器之心发布

机器之心编辑部


近日,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,是首个利用世界模型增强 4D 驾驶场景重建效果的工作。DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果,在 user study 实验中获得了超过 80% 的偏好投票,为走向空间智能和 4D 世界模型迈出了坚实的一步。


  • 论文链接:https://arxiv.org/abs/2410.13571
  • 项目主页:https://drivedreamer4d.github.io/
  • 代码地址:https://github.com/GigaAI-research/DriveDreamer4D

闭环仿真技术是推动端到端自动驾驶系统发展的关键。目前的传感器仿真方法,如 NeRF 与 3DGS,主要依赖于训练数据分布,若训练数据不足,则这些方法在复杂驾驶操作(例如变道、加速或减速)的重建效果不佳。近来,自动驾驶世界模型(World Model)证明其可以生成丰富驾驶数据。在此背景下,本文提出了 DriveDreamer4D,是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。

DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。

DriveDreamer4D 利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频(例如变道场景)。如下图所示,DriveDreamer4D 不仅可以提升多种重建算法(PVG,S3Gaussian,Deformable-GS)的图像渲染质量,还可以提升驾驶前景(车辆)和背景(车道线)的时空一致性。



DriveDreamer4D 的总体结构框图如下所示,轨迹生成模块(NTGM)用于调整原始轨迹动作,如转向角度和速度,以生成新的轨迹。这些新轨迹为提取结构化信息(如车辆 3D 框和背景车道线细节)提供了全新的视角。随后,基于世界模型的视频生成能力,并利用更新轨迹后得到的结构化信息作为控制条件,可以合成新轨迹的视频。最后,原始轨迹视频与新轨迹视频相结合,进行 4DGS 模型的优化。


在实验中,如下第一列视频所示,可以看出多种传统算法(PVG, S3Gaussian,Deformable-GS在变道场景下的车道线、天空、车辆都会模糊,甚至出现 “鬼影” 现象。而 DriveDreamer4D 可以提升多种重建算法在复杂变道场景下的视频渲染效果,不仅消除了 “鬼影”,而且提升了交通元素的渲染质量,车辆和车道线都更加清晰。




除了变道,在车辆变速场景下,传统算法(PVG,S3Gaussian,Deformable-GS)的表现能力也受到限制,如下第一列视频所示,这些算法在自车加速时,前方的车辆都出现了 “拖影” 现象。而经过 DriveDreamer4D 提升后,渲染的车辆的时空一致性更高。




定量实验中,本文证明了 DriveDreamer4D 不仅可以提升多种重建算法 (PVG, S3Gaussian,Deformable-GS)的图像渲染质量 (如表 2),还可以提升车辆和车道线渲染的时空一致性(如表 1)。此外,本文还通过 user study(表 3)证明用户更加偏好 DriveDreamer4D 的渲染效果,获得了超过 80% 的投票率。

表 1 DriveDreamer4D 提升了车辆和车道线重建渲染的时空一致性

表 2 DriveDreamer4D 提升了图像重建渲染质量

表 3 User study 证明用户更加偏好 DriveDreamer4D 的渲染效果

本项 DriveDreamer4D 工作是极佳科技研究团队之前 DriveDreamer 和 DriveDreamer-2 工作的延续。

DriveDreamer 是首个面向真实驾驶场景的世界模型,可以根据不同的控制条件生成自动驾驶周视视频,有效提升了 BEV 感知的性能;DriveDreamer-2 在此基础上,引入大语言模型,可以生成用户自定义的驾驶数据,进一步提升了长尾和 corner case 场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新轨迹视频(例如变道、加减速),从而大幅提升了多种 4DGS 算法的重建效果。

本篇论文的牵头完成单位为极佳科技,是一家空间智能公司,致力于将视频生成提升到 4D 世界模型,赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动,走向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作,以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力,都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司,在物理空间和虚拟空间两方面都已取得显著的技术和商业进展,获得了行业广泛的认可。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

DriveDreamer4D 的原理是基于世界模型,它可以生成与真实世界相似的驾驶数据,用于训练和增强自动驾驶系统。具体来说,它通过调整原始轨迹的动作,生成新的轨迹视频,并利用这些视频来优化 4DGS 模型。

简单来说,DriveDreamer4D就像是一个可以“做梦”的计算机,它会生成各种各样的虚拟驾驶场景,让自动驾驶系统在梦中不断学习和成长。

DriveDreamer4D 的应用不仅限于自动驾驶领域,它还能用于其他需要对动态场景进行建模和理解的领域,比如机器人导航、无人机控制等。

通俗地说,DriveDreamer4D 就好像是一个自动驾驶的“教练”,它可以不断生成新的驾驶场景,让自动驾驶系统在各种复杂情况下进行训练,从而提高其应对真实世界的能力。

DriveDreamer4D的主要优势在于它可以利用世界模型生成丰富的视角数据,用于闭环仿真,提升重建质量。同时,它可以与多种重建算法结合,提升图像渲染质量和时空一致性。

DriveDreamer4D的潜在应用非常广泛,例如:
- 自动驾驶:提升自动驾驶系统的场景理解能力,提高安全性。
- 闭环仿真:为自动驾驶系统提供更逼真的训练环境。
- 游戏开发:制作更逼真、沉浸式的驾驶游戏体验。
- 机器视觉:增强机器视觉系统对动态场景的理解能力。

DriveDreamer4D 采用了先进的机器学习技术,包括世界模型和强化学习,它可以不断学习和优化,从而生成越来越逼真的驾驶场景,帮助自动驾驶系统在虚拟世界中积累丰富的经验。

DriveDreamer4D 的优势在于它实现了自动驾驶场景的4D重建,也就是不仅考虑了空间维度,还考虑了时间维度。这对于自动驾驶系统非常重要,因为它们需要对周围环境有全面的理解,才能做出正确的决策。

这么说吧,DriveDreamer4D就像是一个AI界的“导演”,它可以创造出各种各样的虚拟驾驶场景,让自动驾驶汽车在里面“拍戏”,从而学到更多应对真实路况的经验。