CamCloneMaster:AI视频生成中的无参数化运镜克隆新范式

港中文&快手CamCloneMaster:AI视频运镜一键克隆,电影级效果触手可及!

原文标题:SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster

原文作者:机器之心

冷月清谈:

香港中文大学与快手可灵团队联合发布了全新的AI视频生成框架CamCloneMaster,旨在解决传统AI视频生成中精确控制电影级相机运镜的难题。该框架的核心创新在于引入了“参考即用”的新范式,用户只需提供一个参考视频,CamCloneMaster便能直接克隆其相机运动并应用于新内容,从根本上摆脱了对复杂相机参数的依赖,有效避免了传统方法因参数估计不准导致的误差。 CamCloneMaster设计简洁高效,通过Token拼接策略,在一个统一框架内同时实现了相机可控的图像到视频(I2V)和视频到视频(V2V)任务。此外,团队还开源了一个迄今为止规模最大的合成数据集——Camera Clone Dataset,包含115万数据对,为相关研究提供了宝贵资源。实验结果显示,CamCloneMaster在运镜准确性、视频视觉质量和时序连贯性上均显著优于现有SOTA方法。这一成果已被计算机图形学顶级会议SIGGRAPH Asia 2025接收,有望推动AI视频创作进入一个运镜更自由、表达更丰富的新阶段。

怜星夜思:

1、文章说CamCloneMaster能“克隆”参考视频的运镜,那这个参考视频是不是随便一个手机拍的短片都行?还是说它对参考视频的质量、内容甚至运镜复杂度有特殊要求?如果参考视频质量不高,比如画面抖动严重或者光线很差,克隆出来的效果会怎么样呢?
2、CamCloneMaster能实现电影级运镜一键克隆,这无疑会给影视行业、短视频创作等领域带来巨大变革。但同时,如果某段视频的运镜可以被随意克隆甚至应用到看起来毫不相干的内容上,会不会带来一些关于版权、原创性乃至虚假信息传播的伦理问题?大家怎么看这类双刃剑的挑战?
3、文章里提到CamCloneMaster实现了“一键克隆”和“参考即用”这种便捷模式,那对于咱们普通用户来说,它是不是真的能做到“开箱即用”的傻瓜操作?它的计算资源需求高不高?未来有没有可能在手机等移动设备上实现,让更多人能享受到这种电影级运镜的乐趣?

原文内容


本文第一作者罗亚文,香港中文大学 MMLab 博士一年级在读,研究方向为视频生成,导师为薛天帆教授。个人主页: https://luo0207.github.io/yawenluo/


作为视频创作者,你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头,或是重现《泰坦尼克号》船头经典的追踪运镜?


在 AI 视频生成中,这些依赖精确相机运动的创意,实现起来却往往异常困难。


一个直接的想法是先用相机位姿估计模型从参考视频中提取相机参数,然后使用相机参数作为控制条件引导视频生成过程。


然而,这条看似容易的路径,实则充满了陷阱:现实场景中的动态物体和复杂遮挡关系,常常导致模型估算出的相机参数出现偏差或错误,让生成的运镜效果与预期大相径庭。


为了解决这一痛点,香港中文大学与快手可灵团队联合提出了一种全新的运镜可控的视频生成框架 CamCloneMaster。它引入了一种「参考即用」的新范式,用户只需提供一段参考视频,模型就能直接「克隆」其相机运动并应用于新内容,从根本上告别了对相机参数的依赖。该工作被计算机图形学顶级会议 SIGGRAPH Asia 2025 接收,其训练、测试代码和高质量渲染数据集 CamClone Dataset 均已开源。该工作所提出的数据集规模宏大,包含115万数据对,39.1万视频,覆盖40个不同的3D场景,9.77万条多样化的相机轨迹。




  • 论文标题:CamCloneMaster: Enabling Reference-based Camera Control for Video Generation

  • 项目主页: https://camclonemaster.github.io/

  • 论文: https://arxiv.org/abs/2506.03140

  • 数据集: https://huggingface.co/datasets/KwaiVGI/CameraClone-Dataset

  • 代码: https://github.com/KwaiVGI/CamCloneMaster


CamCloneMaster 能力展示


a) 相机可控的图生视频(I2V)



b) 相机可控的视频重运镜(V2V)



CamCloneMaster 创新点


研究者表示,CamCloneMaster 的主要创新点是:


  • 提出了一种全新的、无需相机参数的参考式控制范式:用户仅需提供一个参考视频,就能直观、便捷地控制生成视频的镜头运动。


  • 设计了一个简洁高效的统一框架:通过 Token 拼接策略,在单个模型内同时实现了相机可控的 I2V 和 V2V 任务,避免了额外的控制模块,参数效率极高。


  • 构建并开源了首个大规模相机运镜克隆数据集,为相机运镜控制提供了宝贵的研究数据资源。


CamCloneMaster 算法解读



如上图所示,CamCloneMaster 的核心算法和框架极为简单有效:它将作为条件的相机运动参考视频(Camera Motion Reference)和可选的内容参考视频(Content Reference),通过一个 3D VAE 编码器转换成潜在空间的 Latent Tokens。


随后,这些条件 Tokens 与需要去噪的目标视频的噪声 Tokens,在时间维度(Frame Dimension)上进行直接拼接。拼接后的序列被送入 Diffusion Transformer 中进行处理。这种设计使得模型可以通过注意力机制来学习如何利用来自参考视频的相机运动线索和内容信息,从而指导视频的生成。


Camera Clone 数据集



为了有效地训练模型学习「克隆」相机运动,团队使用虚幻引擎 5(Unreal Engine 5)构建了一个庞大的高质量合成数据集——Camera Clone Dataset:


  • 规模宏大:包含 115 万数据对和 39.1 万个视频,覆盖 40 个不同的 3D 场景、3.91 万个机位点和 9.77 万条多样化的相机轨迹。

  • 数据配对:数据集的关键特性是提供了大量的三元组视频——运镜参考视频、内容参考视频以及目标视频。

  • 多样性丰富:相机轨迹涵盖了从简单的平移、旋转到复杂的组合路径,模拟了真实世界中各种可能的拍摄手法。


实验结果


在定量和定性比较中,CamCloneMaster 在各项指标上均显著优于当前的 SOTA 方法:


定性实验结果:



定量实验结果:



无论是在相机运动的准确性(更低的旋转和平移误差),还是在生成视频的视觉质量(更低的 FVD/FID)和时序连贯性上,CamCloneMaster 都展现出了卓越的性能。


总结


CamCloneMaster 通过一种直观、高效的参考式控制方法,极大地简化了 AI 视频生成中的相机运动控制。其统一的 I2V 和 V2V 框架,以及优越的性能表现,验证了基于参考视频的运镜控制这一思路的巨大潜力。同时,开源的大规模数据集也将为社区的相关研究提供强有力的支持,有望推动 AIGC 视频创作进入一个运镜更自由、表达更丰富的新阶段。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

从技术层面讲,参考视频的质量、内容复杂度以及运镜轨迹的独特性都会直接影响克隆效果。如果参考视频质量差(例如低分辨率、模糊、剧烈抖动),模型从中提取相机运动特征的难度会大大增加,可能导致生成结果不准确或视觉伪影。此外,非人类拍摄的视频(如监控)虽然运镜固定,但其场景和目标物的复杂性可能与普通电影场景差异巨大,泛化能力有待验证。高质量的参考视频能提供更清晰、更准确的运动模式,从而指导生成更符合预期的结果。

伦理问题是这类AI技术发展中不可回避的。如果经典影片的标志性运镜能被轻易复制并应用于其他内容,首先会引发著作权和邻接权的争议。原作者的创作独特性和商业价值可能受到侵蚀。其次,若运镜与虚假内容结合,如将政治人物的演讲视频运用至有偏见的叙事运镜中,可能助长假新闻、误导公众,甚至影响社会稳定。因此,在技术推广的同时,需要建立明确的使用规范、水印标识机制,甚至法律框架来规避潜在风险。

呃,听起来以后我这种手残党也能拍出“大片感”了!以后我的Vlog可以像《碟中谍》一样酷炫,我的猫片可以有《动物世界》的史诗感?想想就刺激!至于伦理嘛……哎呀,反正现在P图换脸啥的也一堆,运镜克隆可能就是下一个“技术双刃剑”吧。关键看怎么用,别拿来搞坏事就行。或者以后就规定,克隆运镜的视频要打个“AI辅助”的标签?

嘿,这个问题问得好,我的显卡已经在瑟瑟发抖了!:joy: 我估计肯定不是随手拍的抖音短视频都能当“参考”的。至少得是那种有一定叙事性、运镜比较流畅的片段吧。不然你给它一个拍猫吃罐头的视频,让它克隆出《泰坦尼克号》那种史诗感,那AI估计也要崩溃了。我觉得质量不够高的,顶多学个皮毛,还可能把噪点啊、抖动啊这些也一起“克隆”过来。

尽管CamCloneMaster采用了高效的框架,但视频生成本身仍然是计算密集型任务,特别是在追求高质量和长时间生成时。大规模数据集的训练和推理都需要强大的GPU资源。对于普通用户直接在消费级硬件(如PC或手机)上实现“一键式”电影级运镜,目前来看仍存在性能瓶颈。更现实的普及方式可能是通过云服务API或集成到专业视频编辑软件中,用户通过网络提交任务,在云端完成处理后返回结果。这样既能降低用户硬件门槛,又能充分利用专业的计算资源。

手机上实现?开玩笑吧!:joy: 我的手机P个图都卡得要死,还想跑这个?!估计我得先换个iPhone 20再考虑一下。我觉得至少初期肯定还是得专业的电脑配好显卡才能玩得转。至于“傻瓜操作”,理论上是能做到,毕竟“一键生成”是AI视频的终极目标之一。但要生成让人惊艳的“电影级”效果,估计还是需要一点审美和前期规划的,真要完全无脑,可能出来的都是“土味大片”吧,哈哈。

“一键式”听起来很美,但多少AI工具都是看着简单用着复杂。对于普通用户,它可能确实能简化操作,但“电影级”的最终效果,离不开对内容、构图、叙事节奏的理解。我觉得前期可能还是需要一定的学习曲线,比如选什么样的参考视频能达到预期效果,或者如何与自己的内容结合。完全傻瓜式的,估计还要等很久。计算资源嘛,看它开源了,估计高性能显卡是少不了的,手机上跑……嗯,还得再等等,或者出个云端API服务?

哇,这个技术太有想象空间了!对影视行业来说,可以大大降低专业运镜的成本和门槛,尤其是一些独立制作人或者预算有限的团队,能用上电影级的运镜,作品质量瞬间提升。短视频创作者也能玩出更多花样,也许以后会出现很多“模仿xxx经典运镜”的挑战。不过,版权问题确实是个大头,比如我克隆了别人的运镜,算不算侵权?平台该怎么界定和管理,这是需要提前思考的。

参考视频质量肯定是个关键啊!你想想,你给它个抖得厉害、光线又差的视频做参考,它能克隆出啥好运镜?个人感觉至少要画面稳定、主题清晰的视频才靠谱。而且是不是还得考虑运镜的复杂程度?太简单的可能还好,复杂的《盗梦空间》那种,一般手机很难拍出合格的参考吧。毕竟AI再厉害,也得有好的“学习材料”啊。