CineMaster:快手可灵团队发布3D感知可控电影级视频生成框架

快手可灵发布CineMaster,首个3D感知可控视频生成框架!像电影导演一样,自由控制场景元素和相机运动,AI影视制作更进一步。

原文标题:SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

原文作者:机器之心

冷月清谈:

快手可灵团队推出了CineMaster,这是一个电影级文本到视频生成框架,旨在实现3D感知和可控的视频生成。CineMaster允许用户通过交互式界面在3D空间中调整物体和相机的位置,类似于电影导演布置场景。该框架通过两阶段工作流实现:首先构建3D感知的控制信号,然后通过集成了物体和相机运动控制信号的模型生成视频。为了训练模型,研究团队还设计了一个数据构建流程,从任意视频中提取3D bounding boxes、类别标签和相机轨迹。实验结果表明,CineMaster能够生成高质量、符合用户控制信号的视频,解决了传统方法中目标运动和相机运动耦合的问题。

怜星夜思:

1、CineMaster通过控制3D场景中的物体和相机运动来实现视频生成,这种方式相比于直接从文本生成视频有哪些优势和局限?未来的发展方向会是什么?
2、CineMaster的数据构建流程中,利用Qwen2-VL增强Grounding DINO的性能,并使用SAM v2进行视频实例分割,这种方法在实际应用中可能遇到哪些挑战?如何解决这些挑战?
3、CineMaster目前主要关注的是目标和相机的运动控制,未来如果要进一步提升视频的真实感和艺术性,还可以从哪些方面入手?

原文内容


Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作,限制了 AI 影视制作的能力。


近期,可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试,推出了电影级文本到视频生成框架 CineMaster,允许用户在提供全局文本描述的基础上,通过提出的交互式工作流辅助用户像专业导演一样布置场景,设定目标与相机的运动,指导模型生成用户想要的视频内容。目前该论文已录用于 SIGGRAPH 2025。



  • 论文标题:CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
  • 论文地址:https://arxiv.org/abs/2502.08639
  • 项目主页:https://cinemaster-dev.github.io/



CineMaster 支持 3D 感知的目标、相机运动控制

a) 目标相机联合控制


图片


b) 目标运动控制


图片


c) 相机运动控制


图片


可以观察到,CineMaster 可以根据用户提供的多模态细粒度的控制信号生成期望的视频,支持较大幅度的目标、相机运动的可控生成。


CineMaster 框架

CineMaster 通过两阶段的工作流,实现高度可控的文本到视频生成:


阶段 1:构建 3D 感知的控制信号。用户可以通过交互式界面在 3D 空间中调整物体的边界框(3D Bounding Box)和摄像机位置,这个过程类似于真实的电影拍摄过程,即导演多次调整演员在场景中的排布和相机的运动。随后,导出相机轨迹和每帧的投影深度图,作为后续生成的条件信号。


阶段 2:如图所示,该方法框架通过语义布局 ControlNet 的架构集成了物体的运动控制信号和物体的类别标签信息,从而明确地控制每个目标的运动。此外,通过 Camera Adapter 集成了相机运动控制信号表示视频序列的全局运动。



CineMaster 训练数据构建流程


数据构建流程旨在从任意视频中提取 3D bounding boxes、类别标签、视频相机轨迹,主要包含 4 个步骤:


  • 通过 Qwen2-VL 增强的实体描述提升开放词汇目标检测模型 Grounding DINO 的性能,并通过 SAM v2 实现视频实例分割;

  • 利用 DepthAnything V2 估计视频的绝对深度;

  • 在每个目标的 Mask 最大帧通过深度投影分割结果到点云空间计算 3D bounding box;

  • 访问由 Spatial Tracker 实现的 3D 点跟踪结果,计算所有目标在视频序列中的 3D bounding box,并投影整个 3D 场景得到深度图。

此外,该框架利用 MonST3R 计算了视频的相机轨迹。

对比结果


上图中研究者将 CineMaster 与基线方法进行了比较。据观察,基线方法无法显式地关联给定的运动条件和相应的目标,也存在目标运动和相机运动耦合的问题。而 CineMaster 可以合成符合文本提示、目标、相机控制信号的高质量视频。请访问项目主页查看视频结果。


总结

在本文中,研究者期望为用户提供强大的 3D 感知的可控视频生成能力,让用户能够像专业导演一样创作。为此,首先设计了一个 3D 感知的交互工作流,允许用户直观地编辑目标和相机的运动;随后开发了一个多模态条件控制视频生成模型,生成用户想要的视频。此外,该方法精心设计了一套从任意视频中提取 3D 控制信号的数据构建流程,为 3D 可控视频生成领域的研究提供了实践经验。


更多细节请参阅原论文。


快手视觉生成与互动中心 (Kuaishou Visual Generation and Interaction Center)是「可灵」视频生成大模型背后的核心团队,主要技术方向是视觉内容生成和多模态互动。我们致力于通过计算机视觉/图形学、多模态机器学习、XR/HCI等多领域的交叉,一方面帮助每个人更好的表达自己和创作优质内容,另一方面为每个人提供更好的内容体验和交互方式。


我们长期招聘GenAI、多模态等方向的优秀人才(社招、校招、实习生),欢迎加入我们!


邮箱:zhangluowa@kuaishou.com


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得最大的挑战在于鲁棒性。Grounding DINO这种模型在实验室里跑得飞起,但一到真实场景就容易翻车,尤其是在光线不好、物体快速移动的情况下。要解决这个问题,一方面要靠算法优化,另一方面也要靠数据增强,多喂给模型一些脏数据,让它学会适应各种恶劣环境。另外,我觉得半监督学习也是一个不错的方向,可以利用大量未标注的视频数据来提升模型的泛化能力。

挑战:1.对于遮挡严重或运动模糊的物体,分割精度可能会下降;2.Qwen2-VL的实体描述可能不够准确,影响Grounding DINO的检测效果;3.数据构建流程的自动化程度有待提高,人工干预仍然较多。 解决方案:1.引入更鲁棒的分割算法,例如基于光流的运动分割;2.优化Qwen2-VL的提示词,或者使用更强大的实体描述模型;3.开发自动化标注工具,减少人工干预。

还可以考虑引入物理引擎,模拟更真实的物理效果,比如碰撞、爆炸、水流等等。现在的视频生成模型,在处理这些物理效果时往往显得不够自然。另外,我觉得还可以加入一些高级的镜头技巧,比如希区柯克变焦、盗梦空间等,让视频更具电影感。当然,这些都需要大量的计算资源和算法优化。

学院派分析一波:CineMaster的核心在于将传统的视频生成问题分解为更细粒度的控制任务,通过3D场景的构建,将文本描述转化为具体的空间关系和运动轨迹。这种方法更符合影视制作的逻辑,也更容易实现精确控制。然而,这种方式的泛化能力可能存在问题,对于未见过的新奇场景,模型可能难以生成合理的结果。未来的研究方向应该关注如何提升模型的泛化能力,使其能够处理更复杂的场景和运动。

我觉得色彩和音效也很重要!色彩能直接影响观众的情绪,而好的音效能增强代入感。想象一下,如果CineMaster能让用户自定义视频的色调和配乐,那创作空间就更大了。比如,我想生成一个充满赛博朋克风格的追车视频,那就可以把色调调成冷色系,配上电子音乐,想想就带感!

优势:可控性更高,能更精确地表达想要的场景和动作,避免了纯文本生成视频时可能出现的偏差和模糊。局限:需要用户具备一定的3D空间想象力和操作能力,前期设置相对复杂。未来方向:降低用户操作门槛,比如加入预设场景、智能推荐运动轨迹等,进一步提升生成视频的真实感和艺术性。

谢邀,个人觉得3D控制的最大优势在于它解耦了物体和相机的运动,不像传统文本生成那样容易出现镜头抖动或者物体乱飞的情况。但是吧,这种方式也确实需要用户花时间去摆弄那些3D box,上手难度肯定比纯文本高多了。长期来看,我觉得CineMaster这种模式会和文本生成互相补充,给不同需求的用户提供选择。想象一下,以后拍短视频,直接用手机建个简单的3D场景,然后AI就能帮你生成各种炫酷的运镜效果,想想就刺激!

利益相关,稍微了解一些这方面的东西。这种流水线式的处理方式,最大的问题其实是误差累积。每个环节的误差都会传递到下一个环节,最终导致生成结果不尽如人意。而且,这种流程对于计算资源的要求也很高,跑一次数据可能需要大量的GPU时间。所以,我觉得未来的研究方向应该是如何优化整个流程,减少误差传递,同时降低计算成本。比如,可以尝试将多个环节整合到一个模型中,进行端到端的训练。

可以考虑加入光照、材质、纹理等更精细的控制。现在的模型生成的视频,在这些细节方面往往不够逼真。另外,还可以引入风格迁移技术,让用户能够自定义视频的艺术风格,比如模仿某个著名导演的拍摄手法。