字节跳动OmniHuman:单图音频生成逼真人物视频

字节跳动推出OmniHuman,可基于单图音频生成逼真人物视频,支持任意尺寸和人物占比,效果自然流畅。

原文标题:AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

原文作者:机器之心

冷月清谈:

字节跳动数字人团队发布了新的多模态数字人方案OmniHuman,可以根据单张图片和音频生成自然的人物视频。该方案支持任意尺寸和人物占比的图片输入,并能生成与音频匹配的口型、表情和动作,甚至可以应用于动漫和3D卡通图像。相比现有技术,OmniHuman在手势生成和多样化输入方面表现更佳,有效解决了高质量数据稀缺的问题。

OmniHuman采用Omni-Conditions Training的混合多模态训练策略,将文本、图像、音频和姿态等多种模态数据混合训练,使模型能从大规模数据中学习,并更好地适应不同输入。该策略遵循两个原则:1. 利用较弱条件的任务数据扩展较强条件任务的训练规模;2. 较强条件的训练比例应低于较弱条件。

模型方面,OmniHuman基于DiT架构,兼容多种模态条件注入。驱动条件(音频、姿态、文本)通过cross attention、heatmap特征拼接和MMDiT注入;外观条件(图像)则直接利用去噪声网络进行特征编码。

实验结果表明,OmniHuman在整体效果上显著优于现有方案,尤其在手势生成和多样化图像输入方面。该技术已落地即梦AI,相关功能即将开启测试。

怜星夜思:

1、OmniHuman的出现会对哪些行业造成冲击?
2、如何评价OmniHuman的多模态混合训练策略?
3、未来基于图像和音频生成视频的技术还会如何发展?

原文内容

机器之心发布

机器之心编辑部


还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。


如对下面图片和音频:




OmniHuman 生成的人物可以在视频中自然运动:


从项目主页上可以看到 OmniHuman 对肖像、半身以及全身这些不同人物占比、不同图片尺寸的输入都可以通过单个模型进行支持,人物可以在视频中生成和音频匹配的动作,包括演讲、唱歌、乐器演奏以及移动。对于人物视频生成中常见的手势崩坏,也相比现有的方法有显著的改善。



作者也展示模型对非真人图片输入的支持,可以看到对动漫、3D 卡通的支持也很不错,能保持特定风格原有的运动模式。据悉,该技术方案已落地即梦 AI,相关功能将于近期开启测试。



更多细节和展示效果,请查看:

  • 论文项目主页:https://omnihuman-lab.github.io/
  • 技术报告:https://arxiv.org/abs/2502.01061

研究问题

基于扩散 Transformer(DiT)的视频生成模型通过海量视频 - 文本数据训练,已能输出逼真的通用视频内容。其核心优势在于从大规模数据中学习到的强大通用知识,使模型在推理时展现出优异的泛化能力。在细分的人像动画领域,现有技术主要聚焦两类任务:音频驱动的面部生成(如语音口型同步)和姿势驱动的身体运动合成(如舞蹈动作生成)。2023 年后端到端训练方案的突破,使得现有技术方案通常能够对具有固定尺寸和人像比例的输入图像生成动画,实现精准的口型同步与微表情捕捉。

然而,技术瓶颈日益凸显:当前模型依赖高度过滤的训练数据(如固定构图、纯语音片段),虽保障了训练稳定性,却引发 "温室效应"— 模型仅在受限场景(如固定构图、真人形象)中表现良好,难以适应不同画面比例、多样化风格等复杂输入。更严重的是,现有数据清洗机制在排除干扰因素时,往往也丢失了大量有价值的数据,导致生成效果自然度低、质量差。

这种困境导致技术路线陷入两难:直接扩大数据规模会因训练目标模糊(如音频信号与肢体运动的弱相关性)导致模型性能下降;而维持严格筛选策略又难以突破场景限制。如何既能保留有效运动模式学习,又能从大数据规模学习中受益成为当前研究重点。

技术方案

据技术报告,OmniHuman,面向端到端人像驱动任务中高质量数据稀缺的问题,采用了一种 Omni-Conditions Training 的混合多模态训练策略,并相应的设计了一个 OmniHuman 模型,通过这种混合多模态训练的设计,可以将多种模态的数据一起加入模型进行训练,从而大幅度的增加了人像驱动模型的可训练数据,使得模型可以从大规模数据中受益,对各种类似的输入形式有了比较好的支持。

Omni-Conditions Training. 在模型训练过程中,作者将多种模态按照和运动的相关性进行区分,依序进行混合条件训练。这个多模态训练遵循两个原则:

原则 1: 较强条件的任务可以利用较弱条件的任务及其数据来扩展训练数据规模。例如,由于口型同步准确性、姿态可见性和稳定性等过滤标准,音频和姿态条件任务中排除的数据可以用于文本和图像条件任务。因此,在早期阶段舍弃音频和姿态条件,在后期逐步加入。

原则 2: 条件越强,训练比例应越低。较强的运动相关条件(如姿态)由于歧义较少,训练效果通常优于较弱的条件(如音频)。当两种条件同时存在时,模型倾向于依赖较强条件进行运动生成,导致较弱条件无法有效学习。因此,需要确保较弱条件的训练比例高于较强条件。

基于以上原则设计他们构建了多个阶段的训练过程,依次增加文本、图像、音频以及姿态模态参与模型训练,并降低对应的训练占比。


OmniHuman 技术框架图

Omni-Conditions Model. 除了 Omni-Conditions Training 训练策略以外,OmniHuman 采用了基于 DiT 架构的视频生成框架,使得模型兼容多种模态的条件注入方式,包括文本、图像、音频和姿态,多模态的条件被区分为两类:驱动条件和外观条件。

对于驱动条件,作者对音频特征通过 cross attention 实现条件注入,对于姿态特征通过 Heatmap 特征编码后和 Noise 特征进行拼接实现条件注入,对于文本特征,则保持了 MMDiT 的条件注入方式。

对于外观条件,作者没有像现有工作一样采用一个单独的参考图网络 (Reference Net),而是直接利用去噪声网络 (Denoising Net) 对输入图像进行特征编码,复用了 backbone 的特征提取方式,参考图特征会和 Noise 特征进行拼接实现条件注入

效果对比

作者给出了和目前行业领先的方案的效果对比,通过单个模型同时对比了针对不同人物占比的专有模型,仍然可以取得显著的整体效果优势。


除了数值分析以外,作者也分析基于 Omni-Conditions Training 可以改善在人体手势生成、多样性输入图像上的视频生成效果,并展示了混合多模态训练可以使得单个模型同时兼容多种模态驱动,生成可控的生动人像视频的例子。

结论

OmniHuman 是一个端到端的多模态条件人像视频生成框架,能够基于单张图像和运动信号(如音频、视频或两者)生成人像动画视频。它提出了一个多模态混合训练的技术方案,并调研了具体的训练策略,设计了相应的多模态混合控制的人像视频生成模型,从而克服了以往方法面临的高质量数据稀缺问题,从大规模数据训练中受益,学习自然的运动模式。OmniHuman 显著优于现有方法,能够从弱信号(尤其是音频)生成生动的人类视频。它支持任意纵横比的图像(如肖像、半身或全身),在各种场景下提供生动、高质量的结果。

团队介绍

字节跳动智能创作数字人团队,智能创作是字节跳动 AI & 多媒体技术中台,通过建设领先的计算机视觉、音视频编辑、特效处理等技术,支持抖音、剪映、头条等公司内众多产品线;同时为外部 ToB 合作伙伴提供业界最前沿的智能创作能力与行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

搞不好以后只需要上传一张照片和一段音频,就能生成一部完整的电影了,想想都觉得不可思议。

除了影视行业,我觉得像游戏、虚拟主播这些领域也会受到影响,说不定以后捏脸就能生成游戏角色动画了,想想还有点小激动。

个人认为未来发展方向可能有以下几个方面:1. 更高的生成质量:更高的分辨率、更逼真的细节、更流畅的运动;2. 更强的可控性:更精细的动作控制、更丰富的表情生成、更个性化的风格定制;3. 更广的应用场景:例如虚拟现实、增强现实、游戏、教育等领域;4. 更低的计算成本:更轻量级的模型、更快速的生成速度。

这个训练策略的核心在于“混合”二字,它并非简单地将不同模态的数据堆叠在一起,而是根据不同模态数据与运动的相关性进行区分,并采用不同的训练比例和阶段。这种精细化的策略设计,使得模型能够更有效地学习不同模态数据中的信息,从而提高生成视频的质量。

多模态混合训练策略的优势在于可以利用不同模态数据之间的互补性,提高模型的泛化能力和鲁棒性。例如,在音频数据不足的情况下,可以利用文本或图像数据进行补充,从而提高模型的训练效果。此外,这种策略还可以有效地解决数据稀缺的问题,尤其是在一些特定领域,例如医疗影像、遥感图像等。

感觉这个策略很巧妙啊,利用不同模态的数据互相补充,相当于把数据利用率最大化了。

我猜以后可能会出现更精细的控制,比如可以指定人物的动作、表情、甚至情绪之类的。

从学术角度来看,OmniHuman 的出现可能会对传统的CG动画制作流程产生颠覆性影响。传统的CG动画制作需要建模、绑定、动画、渲染等多个步骤,而 OmniHuman 可以直接从单张图像和音频生成动画,大大简化了制作流程,降低了制作成本。这可能会导致一些传统的CG动画制作公司面临转型或被淘汰的风险。

我觉得对影视行业的影响会比较大,以后一些简单的动画、广告什么的,可能不需要那么多人力了,成本也会降低不少。