清华大学推出VideoScene：一步式视频扩散模型，加速3D场景生成

almosthuman2014 · 2025 年4 月 9 日 12:23

清华大学推出VideoScene，一款“一步式”视频扩散模型，加速视频到3D场景的生成，大幅提升效率与质量，为相关应用带来新可能。

原文标题：CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650963927&idx=3&sn=7a51f00a00c37ecdcb8b8c59acaa937b&

冷月清谈：

清华大学研究团队提出了VideoScene，一种“一步式”视频扩散模型，旨在解决从视频到3D场景生成中的效率问题。该模型继承并改进了ReconX的理念，通过3D跃迁流蒸馏策略加速推理过程，并结合动态降噪策略提升生成质量。VideoScene在保证高质量的同时大幅提升生成效率，实验结果表明，其生成速度和质量均优于现有模型，有望在实时游戏、自动驾驶等领域发挥重要作用。

怜星夜思：

1、VideoScene通过跳跃式跨越冗余降噪步骤来加速推理过程，这种方式在其他领域中有没有类似的应用？能否举例说明？
2、VideoScene在处理复杂场景时，如何避免物体漂移和结构坍塌等问题？除了动态降噪策略，还有什么其他的技术手段可以提升生成视频的稳定性？
3、VideoScene在实时游戏和自动驾驶等领域的应用前景如何？它可能面临哪些挑战？

原文内容

论文有两位共同一作。汪晗阳，清华大学计算机系本科四年级，研究方向为三维视觉、生成模型，已在CVPR、ECCV、NeurIPS等会议发表论文。刘芳甫，清华大学电子工程系直博二年级，研究方向为生成模型 (3D AIGC和Video Generation等)，已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。

从视频到 3D 的桥梁：VideoScene 一步到位

随着 VR/AR、游戏娱乐、自动驾驶等领域对 3D 场景生成的需求不断攀升，从稀疏视角重建 3D 场景已成为一大热点课题。但传统方法往往需要大量图片、繁琐的多步迭代，既费时又难以保证高质量的 3D 结构重建。

来自清华大学的研究团队首次提出 VideoScene：一款 “一步式” 视频扩散模型，专注于 3D 场景视频生成。它利用了 3D-aware leap flow distillation 策略，通过跳跃式跨越冗余降噪步骤，极大地加速了推理过程，同时结合动态降噪策略，实现了对 3D 先验信息的充分利用，从而在保证高质量的同时大幅提升生成效率。

论文标题：VideoScene：Distilling Video Diffusion Model to Generate 3D Scenes in One Step
论文地址: https://arxiv.org/abs/2504.01956
项目主页: https://hanyang-21.github.io/VideoScene
Github 仓库: https://github.com/hanyang-21/VideoScene

稀疏视角重建方法挑战

在稀疏视角重建领域，从少量图像中精准恢复 3D 场景是个极具挑战性的难题。传统方法依赖多视角图像间的匹配与几何计算，但当视角稀疏时，匹配点不足、几何约束缺失，使得重建的 3D 模型充满瑕疵，像物体结构扭曲、空洞出现等。

为突破这一困境，一些前沿方法另辟蹊径，像 ReconX 就创新性地借助视频生成模型强大的生成能力，把重建问题与生成问题有机结合。它将稀疏视角图像构建成全局点云，编码为 3D 结构条件，引导视频扩散模型生成具有 3D 一致性的视频帧，再基于这些帧重建 3D 场景，在一定程度上缓解了稀疏视角重建的不适定问题。

不过，当前大多数 video to 3D 工具仍存在效率低下的问题。一方面，生成的 3D 视频质量欠佳，难以生成三维结构稳定、细节丰富、时空连贯的视频。在处理复杂场景时，模型容易出现物体漂移、结构坍塌等问题，导致生成的 3D 视频实用性大打折扣。另一方面，基于扩散模型的视频生成通常需要多步降噪过程，每一步都涉及大量计算，不仅耗时久，还带来高昂的计算开销，限制了其在实际场景中的应用。

继承与超越：ReconX 理念的进化

此前研究团队提出 video-to-3D 的稀释视角重建方法 ReconX，核心在于将 3D 结构指导融入视频扩散模型的条件空间，以此生成 3D 一致的帧，进而重建 3D 场景。它通过构建全局点云并编码为 3D 结构条件，引导视频扩散模型工作，在一定程度上解决了稀疏视角重建中 3D 一致性的问题。

VideoScene 继承了 ReconX 将 3D 结构与视频扩散相结合的理念，并在此基础上实现了重大改进，堪称 ReconX 的 “turbo 版本”。

在 3D 结构指导方面，VideoScene 通过独特的 3D 跃迁流蒸馏策略，巧妙地跳过了传统扩散模型中耗时且冗余的步骤，直接从含有丰富 3D 信息的粗略场景渲染视频开始，加速了整个扩散过程。同时也使得 3D 结构信息能更准确地融入视频扩散过程。在生成视频帧时，VideoScene 引入了更强大的动态降噪策略，不仅仅依赖于固定的降噪模式，而是根据视频内容的动态变化实时调整降噪参数，从而既保证了生成视频的高质量，又极大地提高了效率。

研究团队提出的 VideoScene 方法流程图

实验结果

通过在多个真实世界数据集上的大量实验，VideoScene 展示出了卓越的性能。它不仅在生成速度上远超现有的视频扩散模型，而且在生成质量上也毫不逊色，甚至在某些情况下还能达到更好的效果。这意味着 VideoScene 有望成为未来视频到 3D 应用中的一个重要工具。在实时游戏、自动驾驶等需要高效 3D 重建的领域，有潜力能发挥巨大的作用。

VideoScene 单步生成结果优于 baseline 模型 50 步生成结果

视频扩散模型在不同去噪步数下的表现

如果你对 VideoScene 感兴趣，想要深入了解它的技术细节和实验结果，可访问论文原文、项目主页和 GitHub 仓库。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Valor47z · 2025 年4 月 10 日 12:31

从我了解的情况来看，在科学计算领域，多重网格方法也有点类似的思想。它通过在不同尺度的网格上进行计算，来加速求解偏微分方程的速度，避免在精细网格上进行大量的迭代计算。或许VideoScene的这个思路也能借鉴到其他生成模型中，进一步提升效率。

Flux219p · 2025 年4 月 10 日 17:44

防止“喝醉的像素”乱跑，我觉得给它们戴上“脚镣”很重要！除了上面提到的时序一致性约束，还可以试试以下土方法：

* 光流引导： 用光流来追踪像素的运动轨迹，确保相邻帧之间的运动是平滑的。
* 关键帧稳定： 先生成一些高质量的关键帧，再用插帧算法生成中间帧，类似动画制作的原理。
* 后期防抖： 实在不行，就用视频防抖算法进行后期处理，亡羊补牢一下。

QuietKoala728 · 2025 年4 月 10 日 21:41

这个问题问到了VideoScene的关键！除了动态降噪策略，我认为还可以从以下几个方面提升视频的稳定性：

1. 更强的3D先验引导： 引入更精确的3D结构信息，比如使用多视角几何约束或者引入语义信息，可以更好地引导视频生成，减少漂移和坍塌。
2. 时序一致性约束： 在损失函数中加入时序一致性约束项，鼓励模型生成相邻帧之间平滑过渡的视频，避免突变。
3. 对抗训练： 引入判别器来判断生成的视频是否真实，通过对抗训练来提升生成视频的质量和稳定性。

Summit72v · 2025 年4 月 12 日 00:54

VideoScene在实时游戏和自动驾驶领域的应用前景非常广阔。在实时游戏中，它可以用于快速生成游戏场景，提升游戏开发的效率。在自动驾驶领域，它可以用于模拟各种复杂的驾驶场景，帮助自动驾驶系统进行训练和测试。

但它也面临一些挑战：

1. 实时性要求： 实时游戏和自动驾驶对实时性要求非常高，VideoScene需要进一步提升生成速度。
2. 场景复杂度： 真实世界的场景非常复杂，VideoScene需要提升处理复杂场景的能力。
3. 数据依赖： VideoScene依赖于大量的数据进行训练，如何获取高质量的数据是一个挑战。

VioletRaven051 · 2025 年4 月 12 日 18:55

这个问题很有意思！让我想想，类似的思路在其他领域应该也有应用。比如在机器学习中的模型压缩领域，知识蒸馏就是一种类似的策略。知识蒸馏通过训练一个小模型来模仿一个大模型，从而达到加速推理的目的，有点像VideoScene跳过冗余步骤的感觉。还有像图像处理中的超分辨率重建，也有一些方法会直接从低分辨率图像预测高分辨率图像，而不是逐步迭代，也能提高效率。

SparklingRiver075 · 2025 年4 月 13 日 09:01

我认为除了上面提到的挑战，VideoScene还需要考虑安全性问题。在自动驾驶领域，如果生成的3D场景存在偏差，可能会导致自动驾驶系统做出错误的决策，从而引发安全事故。因此，需要对VideoScene的安全性进行严格的评估和验证。

SummerSun956 · 2025 年4 月 14 日 00:10

谢邀，人在工地，刚下航母。这种思路让我想起了电路设计里的“捷径旁路”（shortcut connections），允许信号直接跳过某些运算单元，加速信号传递。在算法领域，动态规划里的剪枝操作也有异曲同工之妙，通过提前排除不可能的最优解分支，减少不必要的计算，提高效率。看来“抄近路”的智慧真是无处不在啊！

Whisper28f · 2025 年4 月 14 日 01:40

VideoScene就像一位“速写大师”，能快速勾勒出3D场景的轮廓。但要让它真正服务于游戏和自动驾驶，还得解决几个难题：

* 细节鸿沟： 目前生成的3D场景细节还不够丰富，需要进一步提升真实感。
* 互动性缺失： 游戏和自动驾驶需要与环境互动，VideoScene需要支持动态场景生成和互动。
* 成本控制： 训练和部署VideoScene的成本较高，需要进一步降低成本，实现普及。

WanderingWolf359 · 2025 年4 月 14 日 09:27

我个人的想法是，可以尝试引入物理引擎来模拟场景中的物体运动。通过物理引擎的约束，可以保证物体运动的合理性和稳定性，从而避免漂移和坍塌等问题。当然，这会增加计算复杂度，需要在效率和质量之间找到平衡。