CineTrans:基于掩码机制的时间级可控多镜头视频生成模型

CineTrans提出了一种基于掩码机制的转场可控多镜头视频生成模型,并开源了代码、模型权重和数据集。

原文标题:ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒

原文作者:机器之心

冷月清谈:

上海人工智能实验室的研究团队提出了CineTrans,一种基于掩码机制的全新方法,旨在解决视频生成模型在多镜头视频中面临的转场控制问题。CineTrans通过块对角掩码的通用机制,使视频生成模型能高效地自动化转场。此外,为了提升转场效果,研究团队还设计了多镜头视频生产管线,并创建了高质量的多镜头数据集Cine250K。CineTrans的核心在于利用扩散模型对多镜头序列的理解,构建掩码以实现时间级转场控制,同时保持镜头间一致性与视频质量。相较于逐镜头生成和端到端生成,CineTrans在转场与一致性之间实现了平衡。通过选择性的掩码策略,CineTrans能够进行全局信息交互和镜头内局部交互,从而在保持全局一致性的前提下形成稳定的转场。微调后的CineTrans还具备了电影级剪辑的先验知识,能够生成更具电影美学的转场效果。该研究为未来针对镜头设计和更多剪辑艺术先验的多镜头视频探索奠定了基础,并且代码、模型权重、数据集已开源。

怜星夜思:

1、CineTrans通过掩码机制实现了转场控制,那么这种方法在其他视频生成任务中,例如风格迁移或内容编辑方面,是否也具有潜力?
2、CineTrans依赖于大规模多镜头数据集Cine250K进行微调,那么数据集的质量和多样性对模型最终的生成效果有多大影响?如果数据集存在偏差,比如过度偏向某种风格或主题,会对生成结果产生什么影响?
3、CineTrans目前主要关注于转场的时间级控制,未来是否有可能加入更多对转场风格的控制,比如指定转场类型(淡入淡出、划像等)或者转场速度?

原文内容


本文一作吴晓雪目前是复旦-上海人工智能实验室的联培博士生,目前的研究方向是可控多镜头生成、长视频生成。


随着视频生成模型的快速发展,其在画面质量、条件控制、美学表现上都已表现出影视级效果。然而,影视级长视频往往并非为单个镜头的无限延续,而是具有转场的多镜头序列(Multi-shot Sequence)。闭源模型 Sora2、Veo3 中多镜头视频已经能够表现出惊艳的效果。


如何使生成的视频带有自然的转场,如何指定转场的位置,如何令多个镜头形成丰富的语义流信号,是视频生成模型在未来所面临的新挑战。


针对这些问题,来自上海人工智能实验室的研究团队提出了一种基于掩码机制的全新方法 CineTrans


基于对注意力特性的观察,CineTrans 提出块对角掩码的通用机制,使视频生成模型能高效地自动化转场。为了进一步提升转场模型的效果和准确性,作者设计了详细的多镜头视频生产管线,并收集了一个高质量、多镜头数据集 Cine250K,大幅提升多镜头转场视频生成的效果。作为首个时间级可控的自动化转场模型,CineTrans 为这一领域的众多后续方法提供了关键技术。


本文将深入介绍这篇被 ICLR 2026 接收的工作。



  • 论文标题: CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

  • 论文链接: https://arxiv.org/pdf/2508.11484

  • 项目链接: https://uknowsth.github.io/CineTrans/

  • 代码链接: https://github.com/Vchitect/CineTrans

  • 数据集链接:https://huggingface.co/datasets/NumlockUknowSth/Cine250K



来看看 CineTrans 的效果:


图片
图片
图片


Multi-Shot Case 观测:
扩散模型是如何理解多镜头的

首先思考:在镜头转场情境中,相比于单镜头视频,模型在处理多镜头序列时有何不同。对于这点,作者假设,对于两个相邻帧之间的相关性,过渡点与非过渡点之间存在显著差异,前者需要在像素级(pixel-level)差异的前提下保证语义级(semantic-level)的一致性,后者则需要实现视觉连贯性。


而在 Attention Layer 中,所有 visual token 的交互是平等的,但 Q 对于不同 K、V 的关注度则会有所不同,这表明了使用 Attention Map 作为重要观测工具的可能性。


作者对大规模预训练模型中概率出现的 Multi-Shot Case 进行观测,如预期地发现,某些 Layer 表现出较强的镜头内关联(Intra-shot)和较弱的镜头间关联(Inter-shot)。更具体地说,Attention Map 矩阵呈现块对角结构。经过量化(intra-shot vs. inter-shot probability 26.88, r=0.71),这一点被进一步证实。



此外,作者还在某些 Layer 发现了所有 visual token 对第一帧信息的高度关注。这启发了利用 Attention 内部隐式理解达成外部条件显式转场控制的方法设计。



CineTrans:
基于掩码的控制方法

基于前文的观察,作者提出了块对角掩码架构(Block-Diagonal Mask Mechanism),并将第一帧作为锚点(Anchor),符合 Diffusion Model 本身的特性,意图在不破坏模型本身结构和先验知识的前提下实现预定义的转场时间控制。


将该掩码应用在部分 Attention Layer 中,作者发现,即使在未经训练(training-free)的情况下,模型也能在保持视觉质量的同时实现较强的时间级控制效果。


图片
图片


包括逐镜头生成(Shot-by-Shot)与端到端生成(End-to-End)的以往工作都可视作从两个维度解决多镜头问题:


  • 转场的发生确保视频中的两帧发生明显的像素级跳变,镜头边界不出现局部崩坏、粘连的情况。


  • 转场前后的一致性维持确保发生转场前后的画面内容在语义上呈现强关联,令画面的切换不会打断观看者的体验。


逐镜头的生成通过分别合成每个镜头自然保证的转场的发生,但将一致性的依赖至于模型外部(external),例如条件注入(conditioning)、关键帧生成(keyframe);端到端的生成通过 visual token 在前向过程中完全交互来维持整体一致性,但并不显式区分镜头间与镜头内,从而需要大规模训练才能让模型学会 multi-shot 的概念,且缺乏明确的时间级控制手段。


相比之下,CineTrans 通过选择性的掩码策略在这两个维度实现了一种平衡方案:


  • 全局信息交互通过第一帧的 anchor 与未经掩码的 full attention,visual token 进行全局交互,实现来自模型内部(internal)的一致性保证。


  • 镜头内局部交互在块对角掩码的作用下,镜头间的交互被限制,相邻镜头之间的像素信息自然形成跳变,在保持全局一致性的前提下形成稳定的转场。


进一步地,在通过多镜头视频数据集微调以后,CineTrans 也具备了电影级剪辑的先验知识,将转场前后的镜头关联理解内化在模型参数中,实现更具备电影美学的转场效果。此外,为了更丰富的内容表现,CineTrans 也在 video-text cross attention 结构中使用了 shot-level 的掩码机制,实现内容上的细粒度控制。



Cine250K:
丰富的多镜头数据集

文章还提出了 Cine250K,这也是 CineTrans 微调所采用的多镜头数据。Cine250K 经过了精细的设计,捕捉人类剪辑序列中的先验知识,提供优秀美学表现、精确镜头标签、层级细节标注的视频数据。其构建过程主要由三个阶段构成:


  • 分割缝合阶段(Split & Stitch):经过镜头切换识别后,基于镜头间相邻帧之间的语义相似性将视频缝合起来,并删除软过渡的帧,明确镜头界限,奠定模型间镜头一致性的基调,提供时间级镜头标注。


  • 筛选阶段(Selection):基于镜头数量、视频基本信息、美学表现等进行筛选。


  • 多层级标注(Caption):为了细粒度语义控制,对逐个镜头进行内容、风格、氛围多个维度的标注,同时得到总体信息,为多粒度控制提供可能。


经过处理,最后得到了约 25 万个经过精细处理的多镜头视频-文本对,它提供了丰富的剪辑艺术先验信息,对多镜头生成任务来说,具有重要意义。


实验结果评估与分析

文中将 CineTrans 的转场效果与多种 Multi-shot 生成方法进行对比,包括逐镜头生成方法(StoryDiffusion + CogVideoXI2V)、大规模预训练方法(HunyuanVideo)和定制化方法(Cinematron LoRA)。结果表现出了大幅度超过基线的转场控制得分(Transition Control Score),以及在 Unet 和 DiT 架构上的泛化性。



此外,为了更好地比较镜头间一致性,作者还提出了基于 JS 散度的新指标,以衡量真实剪辑的数据与生成数据的分布差异。经过可视化,CineTrans 生成的视频在一致性分布也最接近人类剪辑的视频数据,表现出了贴近人类剪辑习惯的多镜头生成能力。


总结与展望

利用扩散模型本身对多镜头序列的理解构建掩码,CineTrans 实现了符合模型先验的时间级转场控制,同时保持了镜头间一致性与视频质量。作为从逐镜头生成转向端到端生成的重要工作,它在转场与一致性之间的权衡问题上给出了一个行之有效的答案,为未来针对镜头设计、更多剪辑艺术先验的多镜头视频探索打下了坚实的基础。


目前,CineTrans 的代码、模型权重、数据集已在 GitHub 开源,欢迎社区进一步研究与使用。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得这绝对是未来的一个重要方向。目前CineTrans实现了时间上的控制,但转场本身还可以有很多变化。如果能够像控制视频内容一样控制转场的风格,那生成的视频就更加个性化了。这可能需要更精细的掩码设计,或者引入额外的条件信息来引导模型。

从学术角度来看,CineTrans的掩码机制本质上是一种对Attention机制的约束。这种约束可以被视为一种正则化手段,有助于模型学习到更加结构化的表示。因此,我认为在其他需要精细控制的视频生成任务中,都可以尝试引入类似的掩码机制。当然,具体的掩码设计可能需要根据任务的特点进行调整。

我想到一个例子,之前有些AI绘画模型,因为训练数据集里亚洲人脸的数据比较少,导致生成出来的人物要么不像亚洲人,要么就是带有刻板印象。所以说,数据集真的太重要了!没有好的数据,再厉害的算法也是白搭。

这个想法太棒了!就像给视频加滤镜一样,以后我们就可以给视频加各种各样的“转场特效”了!淡入淡出显得温柔,快速划像显得节奏感强,哈哈,感觉以后人人都是剪辑大师!

从技术角度来看,可以将转场风格的控制问题转化为一个条件生成问题。可以通过构建一个包含不同转场风格的数据集,然后训练模型学习从条件信息到转场效果的映射。例如,可以使用文本描述或视觉特征来表示转场风格,然后将其作为模型的输入。

这个问题很有意思!我觉得CineTrans的掩码思路确实可能在其他视频生成任务中发挥作用。例如,在风格迁移中,我们可以用掩码来控制哪些区域应用特定的风格,从而实现更精细化的风格迁移效果。或者在内容编辑中,使用掩码可以有选择性地修改视频中的特定对象或区域,避免影响到其他部分。本质上,都是利用掩码来引导模型关注局部信息,同时保持全局的一致性。

从数据挖掘的角度来看,数据集的偏差会导致模型学习到虚假的相关性(spurious correlation)。例如,如果数据集中所有转场都发生在场景变化时,模型可能会错误地认为转场必须伴随场景变化。这种情况下,即使给模型提供一个语义上合理的转场点,它也可能无法正确生成转场效果。

我感觉这个思路有点像图像处理里的抠图和PS啊!视频其实就是一帧帧的图像,如果能像PS那样精确控制视频里的每个元素,那想象空间就太大了!比如我想把视频里的人换个衣服,或者把背景换成外太空,想想就刺激!

数据集的影响是毋庸置疑的。如果Cine250K数据集存在偏差,比如包含了很多动作片的剪辑风格,那么CineTrans很可能也会倾向于生成类似风格的视频。这其实是所有机器学习模型都面临的问题——数据决定了模型的上限。高质量、多样化的数据集才能训练出泛化能力更强的模型。