ReCamMaster,一项AI视频重运镜技术,能让现有视频按新轨迹重新拍摄,并可用于4D重建与去抖动。团队还开源高质量数据集,验证了视频生成在复杂任务上的巨大潜力。
原文标题:ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片
原文作者:机器之心
冷月清谈:
该模型不仅能够实现视频的智能重运镜,还在多个前沿领域展现出强大的应用价值,包括 4D 场景重建、视频去抖动以及为自动驾驶和具身智能提供高质量的数据生成。这意味着普通用户可以轻松调整视频视角,专业创作者也能提升制作效率。
ReCamMaster的核心创新在于提出了一种简单且高效的“video conditioning”范式,通过在补丁化后沿时间维度拼接条件视频与目标视频,显著提升了生成性能。此外,研究团队还同步开源了一个高质量的多相机同步拍摄视频数据集 MultiCamVideo-Dataset。这个数据集利用虚幻引擎5渲染,包含13,600个动态场景,总计136,000个视频,极大地推动了相机可控视频生成与4D重建等领域的研究。
实验结果表明,ReCamMaster 在与现有先进方法的比较中,性能取得了显著提升。这一成果将单视频的重运镜效果首次提升至准产品级水平,充分验证了视频生成模型在此类复杂任务上的巨大潜力。
怜星夜思:
2、这种重运镜技术如果和现在的AI换脸、换音结合起来,会不会让假视频越来越真?以后我们看到一个视频,怎么判断它是不是被AI动过手脚的甚至改变了原意呢?感觉有点细思极恐。
3、文章里提到了重运镜在自动驾驶和具身智能领域的数据生成作用,这方向听起来很硬核。那除了这些,ReCamMaster还能不能和VR/AR、元宇宙这些概念结合起来,玩出什么新花样?想象一下,在虚拟世界里,是不是也能随意“重新拍摄”现实视频呢?
原文内容
本文第一作者白健弘,浙江大学26届博士生,研究方向为视频生成,目前正在寻找工业界全职岗位。
作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果?例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?
为了解决以上问题,可灵研究团队提出了一种可将输入视频沿新相机轨迹重新运镜的视频生成模型 ReCamMaster。用户可以上传任意视频并指定新相机拍摄轨迹,实现已有视频的重运镜。该工作还发布了一个高质量多相机同步拍摄的视频数据集 MultiCamVideo-Dataset,数据集和训练、测试代码均已开源。
此外,ReCamMaster 在 4D 重建、视频去抖动、自动驾驶、具身智能等领域有较强的应用价值。
-
论文标题:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
-
项目主页:https://jianhongbai.github.io/ReCamMaster
-
代码:https://github.com/KwaiVGI/ReCamMaster
-
论文:https://arxiv.org/abs/2503.11647
1.ReCamMaster 能力展示
a) 视频重运镜
b) 4D 场景重建
c) 视频去抖动
d) 在自动驾驶、具身智能等场景作为数据生成器
可以观察到,ReCamMaster 生成的视频可以保持原视频中的场景和动态,并在不同场景有较好的泛化性。更多示例请访问项目主页:https://jianhongbai.github.io/ReCamMaster/
2.ReCamMaster 创新点
研究者表示,ReCamMaster 的主要创新点为:
-
提出了一种新的简单且有效的 video conditioning 范式,性能较之前方法有大幅度提升。
-
发布了一个高质量多相机同步拍摄的视频数据集。该数据集在相机可控的视频生成、4D 重建等领域有较高的实用价值。
-
首次将单视频的重运镜效果做到准产品级的性能,验证了视频生成模型在此类任务上的巨大潜力。
3. ReCamMaster 算法解读
如上图所示,ReCamMaster 的核心创新点在于提出了一种新的 video conditioning 范式,即将 condition video 与 target video 在 patchify 之后沿时间维度拼接。所提出的 video conditioning 范式较之前工作所常用的通道维度拼接有显著的性能提升。
4.MultiCamVideo 数据集
MultiCamVideo 数据集是使用 Unreal Engine 5 渲染的多摄像机同步视频数据集。它包含 13,600 个不同的动态场景,每个场景由 10 个摄像机沿不同的相机轨迹拍摄,总计 136,000 个视频,112,000 个不同的相机轨迹。MultiCamVideo 以 66 个不同的人物为 “主要拍摄对象”,93 种不同的人物动作,和 37 个高质量 3D 环境作为背景。数据集示例如下:
5.ReCamMaster 实验结果
视频中研究者将 ReCamMaster 与最先进的方法进行了比较,ReCamMaster 较 baseline 有较大幅度的性能提升。
6. 总结
在本文中,研究者提出了 ReCamMaster,一种可将输入视频沿新相机轨迹重新运镜的视频生成模型。ReCamMaster 的核心创新点在于提出了一种简单且有效的 video conditioning 范式,其性能显著优于 baseline 方法。此外、研究者还发布了多相机同步视频数据集 MultiCamVideo-Dataset 用于相机可控的视频生成、4D 重建等领域的研究。
更多细节请参阅原论文。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


