Wonderland:单图生成高质量3D场景的新突破

Wonderland模型,仅需单图,即可快速生成高质量、大范围3D场景,为视频和3D创作带来新可能。

原文标题:单张图像探索3D奇境:Wonderland让高质量3D场景生成更高效

原文作者:机器之心

冷月清谈:

Wonderland模型能够仅凭单张图像生成高质量、大范围的3D场景。它巧妙地结合了视频生成模型和3D重建模型,并引入多项创新技术,实现了高效的3D场景构建。

其核心技术包括:

1. 向视频扩散模型嵌入3D意识:通过引入相机位姿控制,使模型理解空间关系,将单张图像扩展至多视角视频。
2. 双分支相机控制机制:利用ControlNet和LoRA模块精确控制相机视角变化,提升视频质量和几何一致性。
3. 大规模latent-based 3D重建模型(LaLRM):利用生成的视频latent直接重构3D场景,显著降低了时间和资源成本。

Wonderland在多个数据集上表现优异,超越了现有方法,尤其在视角控制精度、场景生成质量、3D重建一致性和生成效率方面。相较于其他模型,Wonderland生成完整3D场景的速度提升显著。该技术在多个领域,如建筑设计、虚拟现实和游戏开发等,都具有广阔的应用前景。

怜星夜思:

1、Wonderland模型生成3D场景的速度很快,但它生成的场景精度如何?能否达到专业建模软件的精度?
2、Wonderland模型的输入只是一张图片,那么它如何理解图片中的深度信息和空间关系?
3、Wonderland模型的出现会对哪些行业产生影响?除了文中提到的那些,还有什么其他的应用场景?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力,他们专注于视频生成以及3D/4D场景生成与重建的研究,致力于创造更加真实、高质量的3D和4D场景。团队成员期待与更多志同道合的研究者们交流与合作。


在人类的认知中,从单张图像中感知并想象三维世界是一项天然的能力。我们能直观地估算距离、形状,猜想被遮挡区域的几何信息。然而,将这一复杂的认知过程赋予机器却充满挑战。最近,来自多伦多大学、Snap Inc. 和 UCLA 的研究团队推出了全新的模型 ——Wonderland,它能够从单张图像生成高质量、广范围的 3D 场景,在单视图 3D 场景生成领域取得了突破性进展。

图片


  • 论文地址: https://arxiv.org/abs/2412.12091

  • 项目主页:https://snap-research.github.io/wonderland/


图片

技术突破:从单张图像到三维世界的关键创新

传统的 3D 重建技术往往依赖于多视角数据或逐个场景 (per-scene) 的优化,且在处理背景和不可见区域时容易失真。为解决这些问题,Wonderland 创新性地结合视频生成模型和大规模 3D 重建模型,实现了高效高质量的大规模 3D 场景生成:

  1. 向视频扩散模型中嵌入 3D 意识:通过向视频扩散模型中引入相机位姿控制,Wonderland 在视频 latent 空间中嵌入了场景的多视角信息,并能保证 3D 一致性。视频生成模型在相机运动轨迹的精准控制下,将单张图像扩展为包含丰富空间关系的多视角视频。

  2. 双分支相机控制机制:利用 ControlNet 和 LoRA 模块,Wonderland 实现了在视频生成过程中对于丰富的相机视角变化的精确控制,显著提升了多视角生成的视频质量、几何一致性和静态特征。

  3. 大规模 latent-based 3D 重建模型(LaLRM):Wonderland 创新地引入了 3D 重建模型 LaLRM,利用视频生成模型生成的 latent 直接重构 3D 场景(feed-forward reconstruction)。重建模型的训练采用了高效的逐步训练策略,将视频 latent 空间中的信息转化为 3D 高斯点分布(3D Gaussian Splatting, 3DGS),显著降低了内存需求和重建时间成本。凭借这种设计,LaLRM 能够有效地将生成和重建任务对齐,同时在图像空间与三维空间之间建立了桥梁,实现了更加高效且一致的广阔 3D 场景构建。


效果展示 — 视频生成

基于单张图和 camera condition,实现视频生成的精准视角控制:





Camera-guided 视频生成模型可以精确地遵循轨迹的条件,生成 3D-geometry 一致的高质量视频,并具有很强的泛化性,可以遵循各种复杂的轨迹,并适用于各种风格的输入图片。

更多的例子:

不同的输入图片,同样的三条相机轨迹,生成的视频:

图片


图片


图片


给定输入图片和多条相机轨迹,生成视频可以深度地探索场景:

图片

图片

图片

图片


效果展示 —3D 场景生成

基于单张图,利用 LaLRM, Wonderland 可以生成高质量的、广阔的 3D 场景:

(以下展示均为从建立的3DGS Rendering出的结果)


图片

图片

图片

图片

基于单张图和多条相机轨迹,Wonderland 可以深度探索和生成高质量的、广阔的 3D 场景:





卓越性能:在视觉质量和生成效率等多个维度上表现卓越

Wonderland 的主要特点在于其精确的视角控制、卓越的场景生成质量、生成的高效性和广泛的适用性。实验结果显示,该模型在多个数据集上的表现超越现有方法,包括视频生成的视角控制、视频生成的视觉质量、3D 重建的几何一致性和渲染的图像质量、以及端到端的生成速度均取得了优异的表现:

  1. 双分支相机条件策略:通过引入双分支相机条件控制策略,视频扩散模型能够生成 3D-geometry 一致的多视图场景捕捉,且相较于现有方法达到了更精确的姿态控制。

  2. Zero-shot 3D 场景生成:在单图像输入的前提下,Wonderland 可进行高效的 3D 场景前向重建,在多个基准数据集(例如 RealEstate10K、DL3DV 和 Tanks-and-Temples)上的 3D 场景重建质量均优于现有方法。

  3. 广覆盖场景生成能力:与过去的 3D 前向重建通常受限于小视角范围或者物体级别的重建不同,Wonderland 能够高效生成广范围的复杂场景。其生成的 3D 场景不仅具备高度的几何一致性,还具有很强的泛化性,能处理 out-of-domain 的场景。

  4. 超高效率:在单张图像输入的问题设定下,利用单张 A100,Wonderland 仅需约 5 分钟即可生成完整的 3D 场景。这一速度相比需要 16 分钟的 Cat3D 提升了 3.2 倍,相较需要 3 小时的 ZeroNVS 更是提升了 36 倍。


应用场景:视频和 3D 场景内容创作的新工具

Wonderland 的出现为视频和 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域,该技术展现了广阔的应用潜力。通过其精准的视频位姿控制和具备广视角、高清晰度的 3D 场景生成能力,Wonderland 能够满足复杂场景中对高质量内容的需求,为创作者带来更多可能性。

未来展望

尽管模型表现优异,Wonderland 研发团队深知仍有许多值得提升和探索的方向。例如,进一步优化对动态场景的适配能力、提升对真实场景细节的还原度等,都是未来努力的重点。希望通过不断改进和完善,让这一研发思路不仅推动单视图 3D 场景生成技术的进步,也能为视频生成与 3D 技术在实际应用中的广泛普及贡献力量。


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


我觉得Wonderland的精度应该够一些初步设计或者概念验证阶段使用,快速生成一个大概的3D模型看看效果。如果要追求高精度,后续可能还是需要专业建模软件进行细化处理。毕竟快速和高精度很多时候是鱼和熊掌不可兼得嘛。

“双分支相机控制机制”应该也起到了一定作用,它可以精确控制相机视角的变化,生成更符合3D几何一致性的视频,从而帮助模型更好地理解空间结构。就像我们人眼观察物体一样,通过不同的视角才能更好地感知物体的形状和空间位置。

文章里提到了“向视频扩散模型嵌入3D意识”,通过引入相机位姿控制,让模型能够理解空间关系。我猜测可能是通过训练过程中学习大量的图像和对应的3D数据,让模型能够从单张图像中推断出潜在的深度信息和空间结构。

Wonderland的应用场景应该非常广泛。除了文章中提到的建筑设计、虚拟现实、影视特效和游戏开发,我觉得还可以用于教育领域,比如创建虚拟博物馆、历史遗迹等等,让学生可以更直观地学习历史和文化。

电商领域也可能用到这个技术,比如快速生成商品的3D模型,让消费者可以更全面地了解商品的细节。或者用于虚拟试衣间,让消费者可以直接看到衣服上身的效果。

这应该跟Wonderland结合了视频生成模型有关。它不是直接从单张图生成3D,而是先生成一个多视角的视频,相当于模拟了从不同角度观察物体的过程,这样就能更好地理解深度和空间关系了。

关于Wonderland模型的精度问题,文章中提到了它在多个数据集上的表现优于现有方法,速度也更快。但这只是相对而言,要达到专业建模软件的精度,可能还有一段距离。毕竟专业软件的功能更全面,建模流程也更精细,Wonderland主要还是面向快速生成场景的需求。

我觉得还可以应用于城市规划领域,比如根据城市规划图快速生成3D城市模型,方便规划人员进行评估和调整。甚至可以用于灾害模拟和应急预案的制定,快速构建灾害场景,提高应急响应速度。

Wonderland的优势在于快速生成大范围3D场景,这对于一些对精度要求不那么苛刻,但对效率要求很高的应用场景来说非常有价值。比如游戏里的场景快速搭建,或者一些虚拟现实的初步演示等等。至于能否达到专业建模软件的精度,还需要更多实际应用和测试来验证。