世界一致性视频扩散(WVD):显式3D监督实现逼真视频生成

提出世界一致性视频扩散(WVD)框架,采用显式3D监督,统一单图像到3D生成、多视角立体和相机控制的视频生成等任务,实现3D一致性视频生成。

原文标题:【CVPR2025】具有显式3D建模的世界一致性视频扩散

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为世界一致性视频扩散(WVD)的新框架,该框架通过显式的3D监督,利用XYZ图像编码每个图像像素的全局3D坐标,以解决现有扩散模型在高效且显式地生成3D一致性内容方面的困难。WVD训练了一个扩散变换器来学习RGB和XYZ帧的联合分布,并通过灵活的图像修复策略支持多任务适应性,统一了单图像到3D生成、多视角立体和相机控制的视频生成等任务。实验结果表明,该方法在多个基准测试中表现出竞争力,为通过单一预训练模型生成3D一致性的视频和图像提供了一个可扩展的解决方案。

怜星夜思:

1、WVD框架中提到的“显式的3D监督”具体是如何实现的?它与隐式的3D表示方法相比有什么优势和劣势?
2、WVD如何利用“灵活的图像修复策略”来实现多任务适应性?例如,从RGB图像估计XYZ帧,或者反过来,这两种任务的难点分别是什么?
3、文章提到WVD可以用于“相机控制的视频生成”,那么如何理解“相机控制”?这种控制方式在实际应用中有什么价值和局限性?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们提出了世界一致性视频扩散(WVD)框架,这是一种新颖的框架,采用显式的3D监督,使用XYZ图像编码每个图像像素的全局3D坐标。


近期在扩散模型方面的进展设立了图像和视频生成的新基准,能够在单帧和多帧上下文中实现逼真的视觉合成。然而,这些模型仍然在高效且显式地生成3D一致性内容方面存在困难。为了解决这个问题,我们提出了世界一致性视频扩散(WVD)框架,这是一种新颖的框架,采用显式的3D监督,使用XYZ图像编码每个图像像素的全局3D坐标。
具体而言,我们训练了一种扩散变换器,来学习RGB和XYZ帧的联合分布。这种方法通过灵活的图像修复策略支持多任务适应性。例如,WVD可以从真实的RGB图像中估计XYZ帧,或者使用沿指定相机轨迹的XYZ投影生成新的RGB图像。通过这种方式,WVD统一了单图像到3D生成、多视角立体和相机控制的视频生成等任务。我们的方法在多个基准测试中表现出竞争力,提供了一个可扩展的解决方案,用于通过单一预训练模型生成3D一致性的视频和图像。我们的项目网站是 https://zqh0253.github.io/wvd



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


从研究的角度来看,显式方法通常更易于分析和控制,因为模型的内部表示与物理世界的几何属性直接相关。然而,这种直接性也可能限制模型的泛化能力,尤其是在处理噪声或不完整数据时。隐式方法,虽然难以解释,但可能更能适应各种复杂场景,并从数据中学习到更鲁棒的表示。

图像修复策略在这里起到了桥梁的作用。本质上,WVD是训练一个能同时处理RGB和XYZ信息的模型,然后通过遮盖一部分输入来实现不同的任务。RGB到XYZ的难点在于3D信息的推断,需要较强的先验知识;XYZ到RGB则需要模型学习如何根据3D结构生成逼真的纹理。

图像修复就像是给模型挖了个坑,让它自己去填。多任务适应性就体现在模型能根据不同的“坑”(任务)来调整填充策略。RGB到XYZ,我觉得最大的挑战是“还原”丢失的深度信息;反过来,XYZ到RGB,则是如何让生成的图像看起来更真实,细节更丰富。

我理解的显式3D监督,就是直接告诉模型每个像素点的3D坐标。这样做的好处是,模型能更直接地学习到3D结构信息,训练起来可能更稳定。但缺点是,需要高质量的3D数据,成本可能会比较高。隐式方法可能更灵活,但效果可能不如显式。

“相机控制”的核心在于对虚拟相机的参数进行精确控制,例如位置、旋转、焦距等。这种控制方式使得用户可以自由地探索 3D 场景,并从任意角度观察。在实际应用中,这种技术可以被应用于虚拟现实、游戏开发、建筑设计等领域。用户可以通过调整相机参数,来获得最佳的视觉体验。然而,这种控制方式也存在一定的局限性。例如,如何保证相机运动的平滑性和自然性,以及如何避免相机运动导致的视觉失真,都是需要解决的问题。

这个问题很有意思!WVD用XYZ图像直接编码了像素的3D坐标,这就是“显式”的体现。优势在于直接,可解释性强,方便进行几何操作。劣势可能在于数据准备更复杂,需要精确的3D信息,而且XYZ图像本身也可能引入新的噪声。

相机控制,我觉得就是能像导演一样“运镜”!实际应用中,比如游戏开发,可以用它来动态生成场景,或者电影特效,可以创造一些特殊的拍摄角度。但目前来看,这种控制可能还比较粗糙,需要人工干预才能达到理想效果。

“相机控制”可以理解为指定相机的运动轨迹,然后让模型生成符合这个轨迹的视频。价值在于可以自由控制视角,创造各种炫酷的视觉效果。局限性在于,如果轨迹过于复杂或不合理,生成的视频可能会缺乏真实感。

个人觉得,图像修复的核心在于 Contextual Understanding。模型需要理解图像的整体结构和语义信息,才能合理地填充缺失的部分。RGB到XYZ的挑战在于深度信息的推断,这需要模型具备一定的 3D 推理能力。而 XYZ 到 RGB 的挑战则在于纹理和光照效果的生成,这需要模型具备一定的图像渲染能力。