AniCrafter开源,融合3DGS与视频扩散模型,将任意角色无缝融入动态场景,实现动画化。突破传统技术限制,让AI角色动画进入新纪元!
原文标题:一张图,穿梭任何场景!AniCrafter开源登场,让角色动画真正做到“无缝生成”
原文作者:数据派THU
冷月清谈:
AniCrafter的核心思想在于将3DGS人体建模的优势与视频扩散模型相结合。它首先从人物图像重建3DGS人体模型,并根据给定的动作序列进行驱动和渲染,随后将渲染结果与目标背景视频融合。这一融合结果作为扩散模型的输入,其与真实视频的差异集中在人物区域的高频纹理和非刚体动态缺失。因此,扩散模型的核心任务便是对这些退化区域进行精细化修复,合成逼真的高频纹理、头发摆动和衣物飘动等非刚体动态。
在具体实现流程上,该方法首先处理源视频序列以获取人体掩膜和背景视频,接着估算SMPLX参数,并利用SMPLX参数驱动3DGS人体模型进行渲染,最终将渲染结果与背景视频融合形成“人物-背景”视频。这些信息,连同参考图像,共同输入到基于Wan2.1-I2V-14B并加入LoRA模块微调后的扩散模型中,生成最终的动画输出。实验证明,AniCrafter在跨场景和跨角色动画化方面表现出色,并在视觉效果和重建质量上优于现有方法,大幅拓展了角色动画技术的应用场景和泛化能力。
怜星夜思:
2、这种“无缝生成”的技术,让人在任何场景动起来,一下子就让人联想到“Deepfake”等技术。大家怎么看这类AI生成技术在伦理和版权方面的潜在风险和挑战?有没有一些好的策略来规避这些风险?
3、AniCrafter 的出现,可能不仅仅是让电影、游戏制作更方便。大家觉得它还能在哪些领域发挥意想不到的作用?比如教育、旅游、直播带货,甚至个人社交媒体?它会如何改变我们的内容消费和生产方式?
原文内容

本文约1500字,建议阅读5分钟AniCrafter 通过引入 3DGS Avatar + 背景视频作为条件控制视频扩散模型,将指定角色在任意场景下的动画化任务转换为视频修复任务,从而实现更加鲁棒和泛用的动画化效果。
https://myniuuu.github.io/AniCrafter/
代码链接:
https://github.com/MyNiuuu/AniCrafter
论文作者:
Muyao Niu (https://myniuuu.github.io/)
作者单位:
Shanghai Artificial Intelligence Laboratory, The University of Tokyo
研究方向:
AIGC,视频扩散模型,视频生成

▲ AniCrafter 能够将指定角色根据动作序列无缝插入到任意场景
01 研究背景
近年来,基于视频扩散模型(Video Diffusion Models, VDMs),已有多项工作提出了通过动作序列(如 DWPose)将人物图像动画化的方法。这些方法通常依赖于基础的结构条件,因此在遇到大幅动作时容易产生明显的结构扭曲或时序不一致的问题。
此外,大多数方法默认输入图像中的背景固定或与参考图像共享相同的环境。这些限制使得现有方法在需要多变动态背景与极端动作的开放域场景中难以泛化。
此外,另一种技术路径采用显式 3D 高斯泼溅(3DGS)建模。与基于 VDMs 的方法不同,这类方法首先从参考图重建 3DGS 人体模型,然后根据 SMPLX 等 3D 姿态变换进行驱动并渲染为视频。
这些方法在面对极端动作时仍可保持良好的结构和多视角一致性, 但重建结果通常缺乏高频细节,并难以提供真实的非刚体运动,比如头发或衣物。
基于对上述两种范式的分析,我们提出了 AniCrafter,能够根据给定的动作序列实现角色在任意场景下的动画化。我们的核心思想是将 3DGS 人体建模范式的优势引入扩散建模型,从而实现高质量且鲁棒的生成效果。
具体来说,驱动后的 3DGS 人体模型能提供一致的 3D 结构信息和姿态对齐的外观信息。因此,给定一张人物图像,我们首先重建其 3D 人体模型,并根据动作序列进行驱动与渲染,接着将渲染结果与背景视频融合。
融合结果与 GT 视频的差别集中在人物区域的退化,例如高频纹理缺失或非刚体动态缺失(如头发、衣物)。
基于这一简单但有效的控制信号,扩散模型的任务便转化为“修复(restoration)任务”:1)精细化 3D 人体渲染中退化的人物外观;2)合成逼真的非刚体动态如头发摆动和衣物飘动。
基于这一表征,我们精心设计了数据处理流程和模型架构,充分利用预训练模型中的先验知识,从而达到了更好更鲁棒的生成效果。
03 方法概览
对于源视频序列,我们首先解析出人体掩膜,并利用该掩膜生成背景视频。接着,我们从视频中估计出 SMPLX 参数。
随后,我们根据人物图像重建 3DGS 人体模型,并利用 SMPLX 参数进行驱动,获取渲染结果。然后将渲染结果与背景视频进行融合,生成最终的“人物-背景”视频。最后,我们将参考图像、SMPLX 视频以及“人物-背景”视频一同输入到扩散模型中,生成最终输出结果。
扩散模型网络架构利用 SMPLX 视频与“人物-背景”视频作为控制条件,在 Wan2.1-I2V-14B 的基础上加入 LoRA 模块进行微调。
04 实验效果

与之前方法不同,AniCrafter 可以实现跨场景,跨角色的动画化,从而大大拓宽方法的应用场景与泛化性。更多结果可参照项目主页。
在 Human Dancing 数据集和 HumanVid 数据上的比较试验证明本方法在视觉效果和重建质量上优于现有方法。
在两个数据集上的消融实验证明了模型各个模块的有效性。
05 总结一下
我们提出了 AniCrafter,实现了任意角色在任意场景下根据给定的动作序列的动画化。该模型通过引入 3DGS Avatar + 背景视频作为条件控制视频扩散模型,将指定角色在任意场景下的动画化任务转换为视频修复任务,从而实现更加鲁棒和泛用的角色动画化。
模型主页:
https://myniuuu.github.io/AniCrafter/
代码链接:
https://github.com/MyNiuuu/AniCrafter
编辑:文婧