UniAnimate:华为科大提出新框架,高效生成一分钟高清跳舞视频

原文标题:支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

原文作者:机器之心

冷月清谈:

**摘要:**
  1. 华中科技大学、阿里巴巴、中国科学技术大学联合提出 UniAnimate 框架,用于生成高质量、长时间的人类跳舞视频。

  2. UniAnimate 无需额外的参考网络,利用统一的视频扩散模型高效对齐参考图像与视频表观,同时实现视频去噪。

  3. UniAnimate 引入了统一的噪声输入,支持随机噪声和基于第一帧的条件噪声,可生成长序列视频,突破了传统方法的时间限制。

  4. UniAnimate 采用基于状态空间模型 (Mamba) 的时间建模,显存开销更低,效果与时序 Transformer 相近。

  5. 实验结果表明,UniAnimate 在图片和视频指标上均优于现有方法,生成结果保真度高、一致性好,可生成长达一分钟的高清视频。

应用潜力:

影视制作、虚拟现实和游戏产业等。




怜星夜思:


1、UniAnimate 框架的优势之一是消除了对额外参考网络的依赖,这如何影响其训练过程和模型复杂度?
2、UniAnimate 框架在生成长序列视频时采用了首帧视频延续生成策略,相较于传统的时序重合滑动窗口策略有何优势?
3、除了本文提到的应用领域外,UniAnimate 框架还有什么潜在的应用场景?




原文内容



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。

现有的方法可以大致分为两组。第一组通常基于生成对抗网络(GAN),其利用中间的姿势引导表示来扭曲参考外观,并通过之前扭曲的目标生成合理的视频帧。然而,基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题,导致明显的伪影和帧间抖动。

第二组则使用扩散模型(Diffusion model)来合成逼真的视频。这些方法兼具稳定训练和强大迁移能力的优势,相较于基于 GAN 的方法表现更好,典型方法如 Disco、MagicAnimate、Animate Anyone、Champ 等。

尽管基于扩散模型的方法取得了显著进展,但现有的方法仍存在两个限制:一是需要额外的参考网络(ReferenceNet)来编码参考图像特征并将其与 3D-UNet 的主干分支进行表观对齐,导致增加了训练难度和模型参数;二是它们通常采用时序 Transformer 来建模视频帧之间时序依赖关系,但 Transformer 的复杂度随生成的时间长度成二次方的计算关系,限制了生成视频的时序长度。典型方法只能生成 24 帧视频,限制了实际部署的可能性。尽管采用了时序重合的滑动窗口策略可以生成更长的视频,但团队作者发现这种方式容易导致片段重合连接处通常存在不流畅的转换和外貌不一致性的问题。

为了解决这些问题,来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了 UniAnimate 框架,以实现高效且长时间的人类视频生成


  • 论文地址:https://arxiv.org/abs/2406.01188
  • 项目主页:https://unianimate.github.io/

方法简介

UniAnimate 框架首先将参考图像、姿势指导和噪声视频映射到特征空间中,然后利用统一的视频扩散模型(Unified Video Diffusion Model)同时处理参考图像与视频主干分支表观对齐和视频去噪任务,实现高效特征对齐和连贯的视频生成。

其次,研究团队还提出了一种统一的噪声输入,其支持随机噪声输入和基于第一帧的条件噪声输入,随机噪声输入可以配合参考图像和姿态序列生成一段视频,而基于第一帧的条件噪声输入(First Frame Conditioning)则以视频第一帧作为条件输入延续生成后续的视频。通过这种方式,推理时可以通过把前一个视频片段(segment)的最后一帧当作后一个片段的第一帧来进行生成,并以此类推在一个框架中实现长视频生成。

最后,为了进一步高效处理长序列,研究团队探索了基于状态空间模型(Mamba)的时间建模架构,作为原始的计算密集型时序 Transformer 的一种替代。实验发现基于时序 Mamba 的架构可以取得和时序 Transformer 类似的效果,但是需要的显存开销更小。


通过 UniAnimate 框架,用户可以生成高质量的时序连续人类跳舞视频。值得一提的是,通过多次使用 First Frame Conditioning 策略,可以生成持续一分钟的高清视频。与传统方法相比,UniAnimate 具有以下优势:

  • 无需额外的参考网络:UniAnimate 框架通过统一的视频扩散模型,消除了对额外参考网络的依赖,降低了训练难度和模型参数的数量。
  • 引入了参考图像的姿态图作为额外的参考条件,促进网络学习参考姿态和目标姿态之间的对应关系,实现良好的表观对齐。
  • 统一框架内生成长序列视频:通过增加统一的噪声输入,UniAnimate 能够在一个框架内生成长时间的视频,不再受到传统方法的时间限制。
  • 具备高度一致性:UniAnimate 框架通过迭代利用第一帧作为条件生成后续帧的策略,保证了生成视频的平滑过渡效果,使得视频在外观上更加一致和连贯。这一策略也使得用户可以生成多个视频片段,并选取生成结果好的片段的最后一帧作为下一个生成片段的第一帧,方便了用户与模型交互和按需调整生成结果。而利用之前时序重合的滑动窗口策略生成长视频,则无法进行分段选择,因为每一段视频在每一步扩散过程中都相互耦合。

以上这些特点使得 UniAnimate 框架在合成高质量、长时间的人类跳舞视频方面表现出色,为实现更广泛的应用提供了新的可能性。

生成结果示例

1. 基于合成图片进行跳舞视频生成。

图片


图片

2. 基于真实图片进行跳舞视频生成。

图片


图片


3. 基于粘土风格图片进行跳舞视频生成。

图片


图片


4. 马斯克跳舞。

图片


5. Yann LeCun 跳舞。

图片


6. 基于其他跨域图片进行跳舞视频生成。

图片


7. 一分钟跳舞视频生成。


获取原始 MP4 视频和更多高清视频示例请参考论文的项目主页 https://unianimate.github.io/

实验对比分析

1. 和现有方法在 TikTok 数据集上的定量对比实验。


如上表所示,UniAnimate 方法在图片指标如 L1、PSNR、SSIM、LPIPS 上和视频指标 FVD 上都取得了最好的结果,说明了 UniAnimate 可以生成高保真的结果。

2. 和现有方法的定性对比实验。


从上述定性对比实验也可以看出,相比于 MagicAnimate、Animate Anyone, UniAnimate 方法可以生成更好的连续结果,没有出现明显的 artifacts,表明了 UniAnimate 的有效性。

3. 剥离实验。


从上表的数值结果可以看出,UniAnimate 中用到的参考姿态和统一视频扩散模型对性能提升起到了很关键的作用。

4. 长视频生成策略对比。


从上图可以看出之前常用的时序重合滑动窗口策略生成长视频容易导致不连续的过渡,研究团队认为这是因为不同窗口在时序重合部分去噪难度不一致,使得生成结果不同,而直接平均会导致有明显的变形或者扭曲等情况发生,并且这种不一致会进行错误传播。而本文利用的首帧视频延续生成方法则可以生成平滑的过渡。

更多的实验对比结果和分析可以参考原论文。

总而言之,UniAnimate 的示例结果表现和定量对比结果很不错,期待 UniAnimate 在各个领域的应用,如影视制作、虚拟现实和游戏产业等,为用户带来更为逼真、精彩的人类形象动画体验。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

而且,这种策略还允许用户对生成结果进行分段选择,灵活地调整和优化不同片段的质量,进一步提升生成的视频质量。

首帧视频延续生成策略的优势在于,它可以生成更加平滑、连续的视频序列,避免了传统策略中存在的片段重合连接处的突兀感和外观不一致性。

除了影视制作、虚拟现实和游戏产业外,UniAnimate 框架还有望在以下领域得到应用:

**教育培训:**生成专业人士的技能演示视频,用于培训和技能提升。

这种策略类似于我们在制作 GIF 动画时采用的逐帧叠加的方式,每一帧都是基于上一帧而来,确保了视频的流畅度和整体性。

**体育分析:**生成运动员的动作视频,辅助教练员分析和改进训练技术。

**娱乐产业:**生成虚拟偶像的表演视频,丰富娱乐内容。

形象地比喻,就好比是把原本需要两个工人完成的工作,现在只需要一个工人就能搞定,既省时又省力。当然,这个工人也就是统一的视频扩散模型的本事儿变得更大了。

**元宇宙:**生成逼真的虚拟人物动作视频,创造更加沉浸式的元宇宙体验。

**医疗保健:**生成患者的康复训练视频,指导患者进行科学有效的康复锻炼。

此外,由于参考图像特征编码和表观对齐的任务被打包到统一的视频扩散模型中,模型的参数数量也得到了减少,从而提高了模型的训练效率和泛化能力。

消除了额外的参考网络,意味着 UniAnimate 框架的训练过程更加简单,无需针对参考图像特征编码和表观对齐训练单独的网络,降低了训练难度和模型复杂度。