清华大学推出VideoScene:一步式视频扩散模型,加速3D场景生成

清华大学推出VideoScene,一款“一步式”视频扩散模型,加速视频到3D场景的生成,大幅提升效率与质量,为相关应用带来新可能。

原文标题:CVPR 2025 HighLight|打通视频到3D的最后一公里,清华团队推出一键式视频扩散模型VideoScene

原文作者:机器之心

冷月清谈:

清华大学研究团队提出了VideoScene,一种“一步式”视频扩散模型,旨在解决从视频到3D场景生成中的效率问题。该模型继承并改进了ReconX的理念,通过3D跃迁流蒸馏策略加速推理过程,并结合动态降噪策略提升生成质量。VideoScene在保证高质量的同时大幅提升生成效率,实验结果表明,其生成速度和质量均优于现有模型,有望在实时游戏、自动驾驶等领域发挥重要作用。

怜星夜思:

1、VideoScene通过跳跃式跨越冗余降噪步骤来加速推理过程,这种方式在其他领域中有没有类似的应用?能否举例说明?
2、VideoScene在处理复杂场景时,如何避免物体漂移和结构坍塌等问题?除了动态降噪策略,还有什么其他的技术手段可以提升生成视频的稳定性?
3、VideoScene在实时游戏和自动驾驶等领域的应用前景如何?它可能面临哪些挑战?

原文内容


论文有两位共同一作。汪晗阳,清华大学计算机系本科四年级,研究方向为三维视觉、生成模型,已在CVPR、ECCV、NeurIPS等会议发表论文。刘芳甫,清华大学电子工程系直博二年级,研究方向为生成模型 (3D AIGC和Video Generation等),已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。

图片

从视频到 3D 的桥梁:VideoScene 一步到位


随着 VR/AR、游戏娱乐、自动驾驶等领域对 3D 场景生成的需求不断攀升,从稀疏视角重建 3D 场景已成为一大热点课题。但传统方法往往需要大量图片、繁琐的多步迭代,既费时又难以保证高质量的 3D 结构重建。


来自清华大学的研究团队首次提出 VideoScene:一款 “一步式” 视频扩散模型,专注于 3D 场景视频生成。它利用了 3D-aware leap flow distillation 策略,通过跳跃式跨越冗余降噪步骤,极大地加速了推理过程,同时结合动态降噪策略,实现了对 3D 先验信息的充分利用,从而在保证高质量的同时大幅提升生成效率。



  • 论文标题:VideoScene:Distilling Video Diffusion Model to Generate 3D Scenes in One Step

  • 论文地址: https://arxiv.org/abs/2504.01956 

  • 项目主页: https://hanyang-21.github.io/VideoScene 

  • Github 仓库: https://github.com/hanyang-21/VideoScene


稀疏视角重建方法挑战


在稀疏视角重建领域,从少量图像中精准恢复 3D 场景是个极具挑战性的难题。传统方法依赖多视角图像间的匹配与几何计算 ,但当视角稀疏时,匹配点不足、几何约束缺失,使得重建的 3D 模型充满瑕疵,像物体结构扭曲、空洞出现等。


为突破这一困境,一些前沿方法另辟蹊径,像 ReconX 就创新性地借助视频生成模型强大的生成能力,把重建问题与生成问题有机结合。它将稀疏视角图像构建成全局点云,编码为 3D 结构条件,引导视频扩散模型生成具有 3D 一致性的视频帧,再基于这些帧重建 3D 场景,在一定程度上缓解了稀疏视角重建的不适定问题。


不过,当前大多数 video to 3D 工具仍存在效率低下的问题。一方面,生成的 3D 视频质量欠佳,难以生成三维结构稳定、细节丰富、时空连贯的视频。在处理复杂场景时,模型容易出现物体漂移、结构坍塌等问题,导致生成的 3D 视频实用性大打折扣。另一方面,基于扩散模型的视频生成通常需要多步降噪过程,每一步都涉及大量计算,不仅耗时久,还带来高昂的计算开销,限制了其在实际场景中的应用。


继承与超越:ReconX 理念的进化


此前研究团队提出 video-to-3D 的稀释视角重建方法 ReconX,核心在于将 3D 结构指导融入视频扩散模型的条件空间,以此生成 3D 一致的帧,进而重建 3D 场景。它通过构建全局点云并编码为 3D 结构条件,引导视频扩散模型工作 ,在一定程度上解决了稀疏视角重建中 3D 一致性的问题。


VideoScene 继承了 ReconX 将 3D 结构与视频扩散相结合的理念,并在此基础上实现了重大改进,堪称 ReconX 的 “turbo 版本”。


在 3D 结构指导方面,VideoScene 通过独特的 3D 跃迁流蒸馏策略,巧妙地跳过了传统扩散模型中耗时且冗余的步骤,直接从含有丰富 3D 信息的粗略场景渲染视频开始,加速了整个扩散过程。同时也使得 3D 结构信息能更准确地融入视频扩散过程。在生成视频帧时,VideoScene 引入了更强大的动态降噪策略,不仅仅依赖于固定的降噪模式,而是根据视频内容的动态变化实时调整降噪参数,从而既保证了生成视频的高质量,又极大地提高了效率。


研究团队提出的 VideoScene 方法流程图


实验结果


通过在多个真实世界数据集上的大量实验,VideoScene 展示出了卓越的性能。它不仅在生成速度上远超现有的视频扩散模型,而且在生成质量上也毫不逊色,甚至在某些情况下还能达到更好的效果。这意味着 VideoScene 有望成为未来视频到 3D 应用中的一个重要工具。在实时游戏、自动驾驶等需要高效 3D 重建的领域,有潜力能发挥巨大的作用。


VideoScene 单步生成结果优于 baseline 模型 50 步生成结果


视频扩散模型在不同去噪步数下的表现



如果你对 VideoScene 感兴趣,想要深入了解它的技术细节和实验结果,可访问论文原文、项目主页和 GitHub 仓库。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

从我了解的情况来看,在科学计算领域,多重网格方法也有点类似的思想。它通过在不同尺度的网格上进行计算,来加速求解偏微分方程的速度,避免在精细网格上进行大量的迭代计算。或许VideoScene的这个思路也能借鉴到其他生成模型中,进一步提升效率。

防止“喝醉的像素”乱跑,我觉得给它们戴上“脚镣”很重要!除了上面提到的时序一致性约束,还可以试试以下土方法:

* 光流引导: 用光流来追踪像素的运动轨迹,确保相邻帧之间的运动是平滑的。
* 关键帧稳定: 先生成一些高质量的关键帧,再用插帧算法生成中间帧,类似动画制作的原理。
* 后期防抖: 实在不行,就用视频防抖算法进行后期处理,亡羊补牢一下。

这个问题问到了VideoScene的关键!除了动态降噪策略,我认为还可以从以下几个方面提升视频的稳定性:

1. 更强的3D先验引导: 引入更精确的3D结构信息,比如使用多视角几何约束或者引入语义信息,可以更好地引导视频生成,减少漂移和坍塌。
2. 时序一致性约束: 在损失函数中加入时序一致性约束项,鼓励模型生成相邻帧之间平滑过渡的视频,避免突变。
3. 对抗训练: 引入判别器来判断生成的视频是否真实,通过对抗训练来提升生成视频的质量和稳定性。

VideoScene在实时游戏和自动驾驶领域的应用前景非常广阔。在实时游戏中,它可以用于快速生成游戏场景,提升游戏开发的效率。在自动驾驶领域,它可以用于模拟各种复杂的驾驶场景,帮助自动驾驶系统进行训练和测试。

但它也面临一些挑战:

1. 实时性要求: 实时游戏和自动驾驶对实时性要求非常高,VideoScene需要进一步提升生成速度。
2. 场景复杂度: 真实世界的场景非常复杂,VideoScene需要提升处理复杂场景的能力。
3. 数据依赖: VideoScene依赖于大量的数据进行训练,如何获取高质量的数据是一个挑战。

这个问题很有意思!让我想想,类似的思路在其他领域应该也有应用。比如在机器学习中的模型压缩领域,知识蒸馏就是一种类似的策略。知识蒸馏通过训练一个小模型来模仿一个大模型,从而达到加速推理的目的,有点像VideoScene跳过冗余步骤的感觉。还有像图像处理中的超分辨率重建,也有一些方法会直接从低分辨率图像预测高分辨率图像,而不是逐步迭代,也能提高效率。

我认为除了上面提到的挑战,VideoScene还需要考虑安全性问题。在自动驾驶领域,如果生成的3D场景存在偏差,可能会导致自动驾驶系统做出错误的决策,从而引发安全事故。因此,需要对VideoScene的安全性进行严格的评估和验证。

谢邀,人在工地,刚下航母。这种思路让我想起了电路设计里的“捷径旁路”(shortcut connections),允许信号直接跳过某些运算单元,加速信号传递。在算法领域,动态规划里的剪枝操作也有异曲同工之妙,通过提前排除不可能的最优解分支,减少不必要的计算,提高效率。看来“抄近路”的智慧真是无处不在啊!

VideoScene就像一位“速写大师”,能快速勾勒出3D场景的轮廓。但要让它真正服务于游戏和自动驾驶,还得解决几个难题:

* 细节鸿沟: 目前生成的3D场景细节还不够丰富,需要进一步提升真实感。
* 互动性缺失: 游戏和自动驾驶需要与环境互动,VideoScene需要支持动态场景生成和互动。
* 成本控制: 训练和部署VideoScene的成本较高,需要进一步降低成本,实现普及。

我个人的想法是,可以尝试引入物理引擎来模拟场景中的物体运动。通过物理引擎的约束,可以保证物体运动的合理性和稳定性,从而避免漂移和坍塌等问题。当然,这会增加计算复杂度,需要在效率和质量之间找到平衡。