AniCrafter:融合3DGS与扩散模型的任意场景角色动画生成

AniCrafter开源,融合3DGS与视频扩散模型,将任意角色无缝融入动态场景,实现动画化。突破传统技术限制,让AI角色动画进入新纪元!

原文标题:一张图,穿梭任何场景!AniCrafter开源登场,让角色动画真正做到“无缝生成”

原文作者:数据派THU

冷月清谈:

AniCrafter是一项将指定角色在任意场景下动画化的创新技术。它通过引入3DGS Avatar和背景视频作为视频扩散模型的条件,巧妙地将复杂的动画化任务转化为视频修复任务,从而实现更加鲁棒和泛用的动画效果。该方案的提出旨在解决现有方法的局限性:传统基于视频扩散模型的方法在大幅动作下易出现结构扭曲和时序不一致,且背景固定;而显式3DGS建模虽然能保持结构一致性,却难以提供高频细节和真实的非刚体运动,如头发和衣物飘动。

AniCrafter的核心思想在于将3DGS人体建模的优势与视频扩散模型相结合。它首先从人物图像重建3DGS人体模型,并根据给定的动作序列进行驱动和渲染,随后将渲染结果与目标背景视频融合。这一融合结果作为扩散模型的输入,其与真实视频的差异集中在人物区域的高频纹理和非刚体动态缺失。因此,扩散模型的核心任务便是对这些退化区域进行精细化修复,合成逼真的高频纹理、头发摆动和衣物飘动等非刚体动态。

在具体实现流程上,该方法首先处理源视频序列以获取人体掩膜和背景视频,接着估算SMPLX参数,并利用SMPLX参数驱动3DGS人体模型进行渲染,最终将渲染结果与背景视频融合形成“人物-背景”视频。这些信息,连同参考图像,共同输入到基于Wan2.1-I2V-14B并加入LoRA模块微调后的扩散模型中,生成最终的动画输出。实验证明,AniCrafter在跨场景和跨角色动画化方面表现出色,并在视觉效果和重建质量上优于现有方法,大幅拓展了角色动画技术的应用场景和泛化能力。

怜星夜思:

1、AniCrafter 能够实现角色在任意场景下的动画化,听起来很强大。但在实际应用中,比如生成一个角色在非常复杂的物理环境中(例如跳入水中溅起水花,或者与物体发生复杂碰撞),你觉得目前的技术还能处理好这些细节吗?或者说,这类技术未来需要在哪方面继续突破?
2、这种“无缝生成”的技术,让人在任何场景动起来,一下子就让人联想到“Deepfake”等技术。大家怎么看这类AI生成技术在伦理和版权方面的潜在风险和挑战?有没有一些好的策略来规避这些风险?
3、AniCrafter 的出现,可能不仅仅是让电影、游戏制作更方便。大家觉得它还能在哪些领域发挥意想不到的作用?比如教育、旅游、直播带货,甚至个人社交媒体?它会如何改变我们的内容消费和生产方式?

原文内容

图片
本文约1500字,建议阅读5分钟
AniCrafter 通过引入 3DGS Avatar + 背景视频作为条件控制视频扩散模型,将指定角色在任意场景下的动画化任务转换为视频修复任务,从而实现更加鲁棒和泛用的动画化效果。




项目地址:

https://myniuuu.github.io/AniCrafter/

代码链接:

https://github.com/MyNiuuu/AniCrafter

论文作者:

Muyao Niu (https://myniuuu.github.io/)

作者单位:

Shanghai Artificial Intelligence Laboratory, The University of Tokyo

研究方向:

AIGC,视频扩散模型,视频生成


图片

▲ AniCrafter 能够将指定角色根据动作序列无缝插入到任意场景

01 研究背景

近年来,基于视频扩散模型(Video Diffusion Models, VDMs),已有多项工作提出了通过动作序列(如 DWPose)将人物图像动画化的方法。这些方法通常依赖于基础的结构条件,因此在遇到大幅动作时容易产生明显的结构扭曲或时序不一致的问题。

此外,大多数方法默认输入图像中的背景固定或与参考图像共享相同的环境。这些限制使得现有方法在需要多变动态背景与极端动作的开放域场景中难以泛化。

此外,另一种技术路径采用显式 3D 高斯泼溅(3DGS)建模。与基于 VDMs 的方法不同,这类方法首先从参考图重建 3DGS 人体模型,然后根据 SMPLX 等 3D 姿态变换进行驱动并渲染为视频。

这些方法在面对极端动作时仍可保持良好的结构和多视角一致性, 但重建结果通常缺乏高频细节,并难以提供真实的非刚体运动,比如头发或衣物。

02 核心思想

基于对上述两种范式的分析,我们提出了 AniCrafter,能够根据给定的动作序列实现角色在任意场景下的动画化。我们的核心思想是将 3DGS 人体建模范式的优势引入扩散建模型,从而实现高质量且鲁棒的生成效果。

具体来说,驱动后的 3DGS 人体模型能提供一致的 3D 结构信息和姿态对齐的外观信息。因此,给定一张人物图像,我们首先重建其 3D 人体模型,并根据动作序列进行驱动与渲染,接着将渲染结果与背景视频融合。

融合结果与 GT 视频的差别集中在人物区域的退化,例如高频纹理缺失或非刚体动态缺失(如头发、衣物)。

基于这一简单但有效的控制信号,扩散模型的任务便转化为“修复(restoration)任务”:1)精细化 3D 人体渲染中退化的人物外观;2)合成逼真的非刚体动态如头发摆动和衣物飘动。

基于这一表征,我们精心设计了数据处理流程和模型架构,充分利用预训练模型中的先验知识,从而达到了更好更鲁棒的生成效果。

03 方法概览

对于源视频序列,我们首先解析出人体掩膜,并利用该掩膜生成背景视频。接着,我们从视频中估计出 SMPLX 参数。

随后,我们根据人物图像重建 3DGS 人体模型,并利用 SMPLX 参数进行驱动,获取渲染结果。然后将渲染结果与背景视频进行融合,生成最终的“人物-背景”视频。最后,我们将参考图像、SMPLX 视频以及“人物-背景”视频一同输入到扩散模型中,生成最终输出结果。

扩散模型网络架构利用 SMPLX 视频与“人物-背景”视频作为控制条件,在 Wan2.1-I2V-14B 的基础上加入 LoRA 模块进行微调。

04 实验效果

图片

与之前方法不同,AniCrafter 可以实现跨场景,跨角色的动画化,从而大大拓宽方法的应用场景与泛化性。更多结果可参照项目主页。

在 Human Dancing 数据集和 HumanVid 数据上的比较试验证明本方法在视觉效果和重建质量上优于现有方法。

在两个数据集上的消融实验证明了模型各个模块的有效性。

05 总结一下

我们提出了 AniCrafter,实现了任意角色在任意场景下根据给定的动作序列的动画化。该模型通过引入 3DGS Avatar + 背景视频作为条件控制视频扩散模型,将指定角色在任意场景下的动画化任务转换为视频修复任务,从而实现更加鲁棒和泛用的角色动画化。

模型主页:

https://myniuuu.github.io/AniCrafter/

代码链接:

https://github.com/MyNiuuu/AniCrafter

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


Deepfake?那肯定是这技术最阴暗的一面啦!但凡事都有两面性嘛。就像菜刀能切菜也能伤人,关键看你怎么用。我对这项技术本身是乐观的,因为它的创造潜力太大了!至于风险嘛,我觉得技术也在进步,检测Deepfake的技术肯定会跟上。不过,咱普通人以后看到啥视频都得多个心眼了,可能得问一句‘这是真的吗?’。版权嘛……估计以后明星的肖像权都得按分钟收费了,哈哈!开玩笑,但法律和行业规范肯定要快速跟进才行。

说到新应用,我倒有个脑洞大开的想法:数字遗产的传承。想象一下,未来可以通过这个技术,结合亲人的照片和录音,生成他们的数字形象,让他们在虚拟的家庭聚会中“重现”,甚至模拟他们过去的言行举止。虽然听起来有点科幻甚至诡异,但对于追忆逝者、传承家族记忆来说,可能是一个全新的方式。当然,实现这个还需要极高的技术门槛和伦理考量。此外,在虚拟演唱会虚拟偶像的实时互动上也大有可为,让粉丝可以与偶像进行更真实的“同屏”体验。

哎呀,这个技术简直是为短视频时代量身定制的!想想看,是不是以后个人Vlog博主,想去巴黎就在巴黎,想去月球就在月球,根本不用买机票!主播带货的时候,可以直接让产品在虚拟模特身上展示,还能根据不同产品快速换装换背景。甚至你拍个亲子视频,想让小孩子和卡通人物互动,也能轻松搞定。简直是‘足不出户走遍天下’的梦想照进现实!内容生产成本会大幅降低,创意会井喷。

哎呀,你提的这个Deepfake风险确实是头号难题。这种技术越强大,责任就越大。我觉得首先要明确用途,像这种技术用在电影制作、游戏开发上没啥问题,因为受众知道这是假的。但如果用于新闻、个人隐私,那就要非常小心了。版权问题也头疼,随便拿张图生成视频,原作者咋办?我觉得得从技术层面加限制,比如给生成内容加个隐形水印啥的,让人一眼看不出来,但用工具能发现是AI生成的。另外,对滥用行为要加大惩罚,让那些想搞事情的人付出代价。

哈哈哈,你想让AI一步到位直接拍《阿凡达2》的效果吗?我觉得现在这种技术,做个跑跑跳跳,头发飘飘那种是完全OK的。但真要到那种“一头扎进水里,水花四溅,衣服湿透还往下滴水”的程度,我觉得那得是另一个级别的AI了。可能要再等个几年,等计算力更猛,AI对物理世界的理解更深刻的时候吧。现阶段嘛,能把人物抠图抠得天衣无缝就不错了!

询问AniCrafter的应用领域,我觉得除了电影游戏,它在虚拟现实/增强现实(VR/AR)个性化广告教育培训方面潜力巨大。在VR/AR中,可以轻松生成高度逼真的虚拟人物交互。个性化广告可以根据用户喜好,动态生成带有特定人物、场景的产品演示。教育培训中,能将历史人物复活到特定历史场景中进行讲解,或者让学生体验沉浸式的职业模拟。这会极大降低内容创造的门槛和成本,使得更多小团队和个人也能制作出高质量的视觉内容,真正实现‘内容创造的民主化’。