ReCamMaster:单视频智能重运镜技术及新型数据集

ReCamMaster,一项AI视频重运镜技术,能让现有视频按新轨迹重新拍摄,并可用于4D重建与去抖动。团队还开源高质量数据集,验证了视频生成在复杂任务上的巨大潜力。

原文标题:ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

原文作者:机器之心

冷月清谈:

ReCamMaster 是一款由可灵研究团队提出的视频生成模型,旨在解决视频拍摄中因设备限制或技术不足导致的运镜问题。它允许用户上传任意视频,并通过指定新的相机轨迹,对现有视频进行重新运镜处理,实现诸如模拟无人机视角或消除画面抖动等效果。

该模型不仅能够实现视频的智能重运镜,还在多个前沿领域展现出强大的应用价值,包括 4D 场景重建、视频去抖动以及为自动驾驶和具身智能提供高质量的数据生成。这意味着普通用户可以轻松调整视频视角,专业创作者也能提升制作效率。

ReCamMaster的核心创新在于提出了一种简单且高效的“video conditioning”范式,通过在补丁化后沿时间维度拼接条件视频与目标视频,显著提升了生成性能。此外,研究团队还同步开源了一个高质量的多相机同步拍摄视频数据集 MultiCamVideo-Dataset。这个数据集利用虚幻引擎5渲染,包含13,600个动态场景,总计136,000个视频,极大地推动了相机可控视频生成与4D重建等领域的研究。

实验结果表明,ReCamMaster 在与现有先进方法的比较中,性能取得了显著提升。这一成果将单视频的重运镜效果首次提升至准产品级水平,充分验证了视频生成模型在此类复杂任务上的巨大潜力

怜星夜思:

1、ReCamMaster这技术听起来好酷!但感觉离我们普通B站UP主、短视频博主挺远的,操作起来是不是特别复杂?我们什么时候才能用上这种「鼠标拖拖点点」就能给视频换运镜的功能啊?
2、这种重运镜技术如果和现在的AI换脸、换音结合起来,会不会让假视频越来越真?以后我们看到一个视频,怎么判断它是不是被AI动过手脚的甚至改变了原意呢?感觉有点细思极恐。
3、文章里提到了重运镜在自动驾驶和具身智能领域的数据生成作用,这方向听起来很硬核。那除了这些,ReCamMaster还能不能和VR/AR、元宇宙这些概念结合起来,玩出什么新花样?想象一下,在虚拟世界里,是不是也能随意“重新拍摄”现实视频呢?

原文内容


本文第一作者白健弘,浙江大学26届博士生,研究方向为视频生成,目前正在寻找工业界全职岗位。


作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果?例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?


为了解决以上问题,可灵研究团队提出了一种可将输入视频沿新相机轨迹重新运镜的视频生成模型 ReCamMaster。用户可以上传任意视频并指定新相机拍摄轨迹,实现已有视频的重运镜。该工作还发布了一个高质量多相机同步拍摄的视频数据集 MultiCamVideo-Dataset,数据集和训练、测试代码均已开源



此外,ReCamMaster 在 4D 重建、视频去抖动、自动驾驶、具身智能等领域有较强的应用价值。



  • 论文标题:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

  • 项目主页:https://jianhongbai.github.io/ReCamMaster

  • 代码:https://github.com/KwaiVGI/ReCamMaster

  • 论文:https://arxiv.org/abs/2503.11647


1.ReCamMaster 能力展示


a) 视频重运镜


图片


b) 4D 场景重建


图片


c) 视频去抖动


图片


d) 在自动驾驶、具身智能等场景作为数据生成器


图片


图片


可以观察到,ReCamMaster 生成的视频可以保持原视频中的场景和动态,并在不同场景有较好的泛化性。更多示例请访问项目主页:https://jianhongbai.github.io/ReCamMaster/


2.ReCamMaster 创新点


研究者表示,ReCamMaster 的主要创新点为:


  • 提出了一种新的简单且有效的 video conditioning 范式,性能较之前方法有大幅度提升。

  • 发布了一个高质量多相机同步拍摄的视频数据集。该数据集在相机可控的视频生成、4D 重建等领域有较高的实用价值。

  • 首次将单视频的重运镜效果做到准产品级的性能,验证了视频生成模型在此类任务上的巨大潜力。


3. ReCamMaster 算法解读



如上图所示,ReCamMaster 的核心创新点在于提出了一种新的 video conditioning 范式,即将 condition video 与 target video 在 patchify 之后沿时间维度拼接。所提出的 video conditioning 范式较之前工作所常用的通道维度拼接有显著的性能提升。


4.MultiCamVideo 数据集


MultiCamVideo 数据集是使用 Unreal Engine 5 渲染的多摄像机同步视频数据集。它包含 13,600 个不同的动态场景,每个场景由 10 个摄像机沿不同的相机轨迹拍摄,总计 136,000 个视频,112,000 个不同的相机轨迹。MultiCamVideo 以 66 个不同的人物为 “主要拍摄对象”,93 种不同的人物动作,和 37 个高质量 3D 环境作为背景。数据集示例如下:



5.ReCamMaster 实验结果



视频中研究者将 ReCamMaster 与最先进的方法进行了比较,ReCamMaster 较 baseline 有较大幅度的性能提升。


6. 总结


在本文中,研究者提出了 ReCamMaster,一种可将输入视频沿新相机轨迹重新运镜的视频生成模型。ReCamMaster 的核心创新点在于提出了一种简单且有效的 video conditioning 范式,其性能显著优于 baseline 方法。此外、研究者还发布了多相机同步视频数据集 MultiCamVideo-Dataset 用于相机可控的视频生成、4D 重建等领域的研究。


更多细节请参阅原论文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


对于“这种重运镜技术如果和现在的AI换脸、换音结合起来,会不会让假视频越来越真?以后我们看到一个视频,怎么判断它是不是被AI动过手脚的甚至改变了原意呢?”这个问题,我的担忧是显而易见的。AI技术的双刃剑效应在这里体现得特别明显。随着合成视频门槛越来越低,造谣和传播虚假信息会变得更具迷惑性。未来可能需要立法强制要求AI生成内容打上水印或元数据标记,或者研发更强大的AI内容识别工具来鉴别真伪。否则,我们可能会进入一个“眼见不实”的时代,信任危机加剧。

严格来说,“重新拍摄”现实视频在虚拟世界里,这听起来更像是实时渲染和场景重建技术的结合。ReCamMaster处理的是已有视频,如果结合三维重建和实时渲染引擎,比如虚幻引擎(MultiCamVideo数据集就是用它渲染的),理论上是完全可以实现的。你可以把真实世界的场景扫描进来,然后就像在游戏里一样,自由调整虚拟摄像机的位置和轨迹来“重拍”这个场景。这对于游戏开发、影视预演甚至建筑设计可视化都有颠覆性的影响。未来的游戏可能不再是预设好的动画,而是玩家可以“导演”的实时互动电影。

关于“ReCamMaster还能不能和VR/AR、元宇宙这些概念结合起来,玩出什么新花样?想象一下,在虚拟世界里,是不是也能随意“重新拍摄”现实视频呢?”我觉得这简直是绝配!想象一下,你在VR里观看一段演唱会视频,突然想从舞台中央乐队成员的视角看,或者从观众席的某个特定位置看,ReCamMaster就能帮你“重塑”这个视角,实现沉浸式体验的最大化。在元宇宙中,它不仅能创造更真实的虚拟场景,还能让用户对现有内容进行个性化定制,比如把一段真实的城市风光视频,通过ReCamMaster变成你在元宇宙里可以自由探索的“虚拟街景”,甚至还能加上不同的天气和时间效果。潜力无限!

关于“ReCamMaster这技术听起来好酷!但感觉离我们普通B站UP主、短视频博主挺远的,操作起来是不是特别复杂?我们什么时候才能用上这种「鼠标拖拖点点」就能给视频换运镜的功能啊?”这个问题,我觉得目前确实还需要一定的技术门槛,毕竟是顶会论文嘛。但别忘了,很多现在我们随手用的AI工具(比如AI绘画、AI写作)刚出现时也显得很高深。一旦技术成熟并商业化,肯定会有厂家开发出用户友好的界面和预设模板,让普通创作者也能轻松上手。也许过不了多久,抖音、剪映这类APP就会内置类似功能了,想想都兴奋!

判断视频真伪?哈哈,这就像问人类什么时候能彻底戒掉谎言一样难。技术本身是中性的,用它来拍大片还是造谣,取决于使用者的良心。深伪技术早就满天飞了,现在加上运镜,无非是让“造假套餐”更豪华。普通人哪有那么多时间精力去鉴别?也许只能寄希望于主流媒体和平台做好把关,或者干脆对所有网上视频都保持一份警惕心。反正以后眼见不一定为实,耳听也不一定为真了,看新闻就像玩《大家来找茬》。

问得好!就好像以前想修图得是PS大神,现在美图秀秀一键搞定。ReCamMaster现在是“PS大神”级别的工具,普通人暂时还摸不着。但我相信随着计算能力的提升和算法的优化,未来的视频剪辑软件肯定会集成这种功能,甚至能做到“智能推荐运镜”,比你还懂你的视频!到时候,人人都能当好莱坞导演,拍出大片感。坐等各大短视频平台“卷”起来,看谁先出这个功能!

这确实是个严肃的问题。我认为技术进步带来的挑战也需要通过技术来解决。例如,可以研究更难以篡改的数字水印技术,或者将视频的原始拍摄信息(时间、地点、设备参数等)通过区块链等技术进行存证,确保其溯源性。这样,即使视频经过AI处理,其原始的、未经修改的“DNA”也能被验证。另外,普及公众的媒介素养也至关重要,让大家学会批判性地看待信息,不轻易被合成内容所迷惑。

对于普通UP主何时能用上这项技术的问题,我偏悲观一点。论文里提到是“准产品级性能”,但从实验室到产品,中间的优化和工程化路还很长。而且,这种高级的运镜调整,可能依然需要对3D空间和摄影有一定理解,才能真正调出好效果。纯粹的“拖拖点点”也许能实现简单的平移缩放,但要模拟复杂的电影级运镜,估计还得等技术再迭代好几波,甚至需要一些培训才能玩转。

脑洞大开地想象一下,ReCamMaster结合VR/AR,简直就是开启了“互动式电影”的新纪元!你不再只是被动观看,而是能像导演一样,随时切换视角、自由探索故事情节中的每一个角落——甚至可以重拍某些片段,看看换个运镜会不会改变你对角色的理解。这在教育、旅游、游戏领域都有巨大的应用空间。比如,历史事件的虚拟重访,用户可以站在不同的历史人物视角去感受当时的情境。未来,你的屏幕可能不再是四方形,而是窗户,你可以通过它“走进”任何你感兴趣的视频内容,并按自己的意愿去体验和编辑。