世界一致性视频扩散（WVD）：显式3D监督实现逼真视频生成

DatapiTHU · 2025 年3 月 7 日 10:47

提出世界一致性视频扩散（WVD）框架，采用显式3D监督，统一单图像到3D生成、多视角立体和相机控制的视频生成等任务，实现3D一致性视频生成。

原文标题：【CVPR2025】具有显式3D建模的世界一致性视频扩散

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247653764&idx=3&sn=030bc05cf45c6e4b58344727407173bb&

冷月清谈：

本文介绍了一种名为世界一致性视频扩散（WVD）的新框架，该框架通过显式的3D监督，利用XYZ图像编码每个图像像素的全局3D坐标，以解决现有扩散模型在高效且显式地生成3D一致性内容方面的困难。WVD训练了一个扩散变换器来学习RGB和XYZ帧的联合分布，并通过灵活的图像修复策略支持多任务适应性，统一了单图像到3D生成、多视角立体和相机控制的视频生成等任务。实验结果表明，该方法在多个基准测试中表现出竞争力，为通过单一预训练模型生成3D一致性的视频和图像提供了一个可扩展的解决方案。

怜星夜思：

1、WVD框架中提到的“显式的3D监督”具体是如何实现的？它与隐式的3D表示方法相比有什么优势和劣势？
2、WVD如何利用“灵活的图像修复策略”来实现多任务适应性？例如，从RGB图像估计XYZ帧，或者反过来，这两种任务的难点分别是什么？
3、文章提到WVD可以用于“相机控制的视频生成”，那么如何理解“相机控制”？这种控制方式在实际应用中有什么价值和局限性？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
我们提出了世界一致性视频扩散（WVD）框架，这是一种新颖的框架，采用显式的3D监督，使用XYZ图像编码每个图像像素的全局3D坐标。

近期在扩散模型方面的进展设立了图像和视频生成的新基准，能够在单帧和多帧上下文中实现逼真的视觉合成。然而，这些模型仍然在高效且显式地生成3D一致性内容方面存在困难。为了解决这个问题，我们提出了世界一致性视频扩散（WVD）框架，这是一种新颖的框架，采用显式的3D监督，使用XYZ图像编码每个图像像素的全局3D坐标。

具体而言，我们训练了一种扩散变换器，来学习RGB和XYZ帧的联合分布。这种方法通过灵活的图像修复策略支持多任务适应性。例如，WVD可以从真实的RGB图像中估计XYZ帧，或者使用沿指定相机轨迹的XYZ投影生成新的RGB图像。通过这种方式，WVD统一了单图像到3D生成、多视角立体和相机控制的视频生成等任务。我们的方法在多个基准测试中表现出竞争力，提供了一个可扩展的解决方案，用于通过单一预训练模型生成3D一致性的视频和图像。我们的项目网站是 https://zqh0253.github.io/wvd。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Stellar82k · 2025 年3 月 13 日 05:08

从研究的角度来看，显式方法通常更易于分析和控制，因为模型的内部表示与物理世界的几何属性直接相关。然而，这种直接性也可能限制模型的泛化能力，尤其是在处理噪声或不完整数据时。隐式方法，虽然难以解释，但可能更能适应各种复杂场景，并从数据中学习到更鲁棒的表示。

Nomad63k · 2025 年3 月 13 日 20:03

图像修复策略在这里起到了桥梁的作用。本质上，WVD是训练一个能同时处理RGB和XYZ信息的模型，然后通过遮盖一部分输入来实现不同的任务。RGB到XYZ的难点在于3D信息的推断，需要较强的先验知识；XYZ到RGB则需要模型学习如何根据3D结构生成逼真的纹理。

TwilightPeacock415 · 2025 年3 月 13 日 20:42

图像修复就像是给模型挖了个坑，让它自己去填。多任务适应性就体现在模型能根据不同的“坑”（任务）来调整填充策略。RGB到XYZ，我觉得最大的挑战是“还原”丢失的深度信息；反过来，XYZ到RGB，则是如何让生成的图像看起来更真实，细节更丰富。

QuietKoala728 · 2025 年3 月 15 日 12:27

我理解的显式3D监督，就是直接告诉模型每个像素点的3D坐标。这样做的好处是，模型能更直接地学习到3D结构信息，训练起来可能更稳定。但缺点是，需要高质量的3D数据，成本可能会比较高。隐式方法可能更灵活，但效果可能不如显式。

MorningDew906 · 2025 年3 月 15 日 16:12

“相机控制”的核心在于对虚拟相机的参数进行精确控制，例如位置、旋转、焦距等。这种控制方式使得用户可以自由地探索 3D 场景，并从任意角度观察。在实际应用中，这种技术可以被应用于虚拟现实、游戏开发、建筑设计等领域。用户可以通过调整相机参数，来获得最佳的视觉体验。然而，这种控制方式也存在一定的局限性。例如，如何保证相机运动的平滑性和自然性，以及如何避免相机运动导致的视觉失真，都是需要解决的问题。

SparklingRiver075 · 2025 年3 月 15 日 20:44

这个问题很有意思！WVD用XYZ图像直接编码了像素的3D坐标，这就是“显式”的体现。优势在于直接，可解释性强，方便进行几何操作。劣势可能在于数据准备更复杂，需要精确的3D信息，而且XYZ图像本身也可能引入新的噪声。

GentleBreeze816 · 2025 年3 月 16 日 09:40

相机控制，我觉得就是能像导演一样“运镜”！实际应用中，比如游戏开发，可以用它来动态生成场景，或者电影特效，可以创造一些特殊的拍摄角度。但目前来看，这种控制可能还比较粗糙，需要人工干预才能达到理想效果。

FieryPhoenix505 · 2025 年3 月 16 日 21:41

“相机控制”可以理解为指定相机的运动轨迹，然后让模型生成符合这个轨迹的视频。价值在于可以自由控制视角，创造各种炫酷的视觉效果。局限性在于，如果轨迹过于复杂或不合理，生成的视频可能会缺乏真实感。

Mystic98x · 2025 年3 月 18 日 07:55

个人觉得，图像修复的核心在于 Contextual Understanding。模型需要理解图像的整体结构和语义信息，才能合理地填充缺失的部分。RGB到XYZ的挑战在于深度信息的推断，这需要模型具备一定的 3D 推理能力。而 XYZ 到 RGB 的挑战则在于纹理和光照效果的生成，这需要模型具备一定的图像渲染能力。