OmniAvatar:夸克浙大联合发布,单图驱动音频生成逼真长视频

夸克浙大开源OmniAvatar:一张图一段音生成高精度全身AI视频,唇形动作流畅自然,支持长视频和提示词控制。

原文标题:夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频

原文作者:机器之心

冷月清谈:

夸克技术团队与浙江大学联手,推出了创新的OmniAvatar音频驱动全身视频生成模型。这款模型突破了传统音频驱动技术仅限于面部运动的局限,只需输入一张人物图片和一段音频,即可生成流畅自然的全身视频,同时显著提升了唇形同步的精准度。OmniAvatar的一大亮点是支持通过提示词对人物姿势、情绪和场景进行精准控制,为用户提供了更大的创作自由度。模型以Wan2.1-T2V-14B为基础,并利用独特的LoRA微调方法,有效融合了音频特征,既保留了视频生成能力,又提高了对音频输入的适应性。该模型采用了像素级多层次音频嵌入策略,确保音频信息均匀分布,从而生成更协调的身体动作。 面对长视频生成的挑战,OmniAvatar通过引入参考图嵌入和潜在重叠策略,有效保障了视频过程中人物身份的一致性和时间连贯性。模型在播客、唱歌、交互等多样场景下表现出色,平衡了视频质量、准确度和审美。尽管目前仍处于初步验证阶段,OmniAvatar的开源为多模态视频生成领域带来了新的突破与广阔的应用前景。

怜星夜思:

1、你觉得OmniAvatar这种“一张图+一段音”就能生成长视频的技术,未来除了文章里提到的播客、唱歌,还能在哪些我们意想不到的领域大放异彩?
2、AI生成视频越来越逼真,比如OmniAvatar能做到全身动作和唇形同步,听起来很强大。但如果这项技术被滥用,比如生成虚假信息或者深度伪造内容,我们普通人应该怎么辨别和保护自己呢?
3、文章提到OmniAvatar还在“初步尝试”阶段,未来将探索复杂指令处理和多角色交互。大家觉得,目前从技术来看,它离Sora那种“文生视频”的终极形态还有多远?或者说,现阶段还有哪些核心技术挑战需要攻克?

原文内容


近期,夸克技术团队和浙江大学联合开源了OmniAvatar,这是一个创新的音频驱动全身视频生成模型,只需要输入一张图片一段音频,OmniAvatar即可生成相应视频且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外,还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。


OmniAvatar已开源:


  • Model:https://huggingface.co/OmniAvatar/OmniAvatar-14B

  • Code:https://github.com/Omni-Avatar/OmniAvatar

  • Arxiv:https://arxiv.org/abs/2506.18866

  • Project Page:https://omni-avatar.github.io/


以下,是OmniAvatar在播客、唱歌、交互、动态背景等场景下的部分案例。



实验表明,OmniAvatar在唇形同步、面部及半身视频生成、文本控制等多个维度上,均取得领先表现,并更好地平衡了视频质量、准确度、审美三要素。



此外,OmniAvatar专门针对长视频生成进行了优化,可以更好地保持人物一致性和时间连贯性。


模型能力

图片+音频=全身视频

当前,音频驱动人体运动的技术已取得显著进展,但大多数方法仍集中在面部运动,缺乏全身驱动的能力,且难以进行精确的提示词控制。


OmniAvatar以Wan2.1-T2V-14B为基础模型,利用LoRA方法进行微调,有效地引入了音频特征。这种结合不仅保留了Wan2.1-T2V-14B在视频生成方面的强大能力,还提高了模型对音频输入的适应性和生成质量。 


OmniAvatar架构图


接下来,我们将通过一些具体案例,更详细地展示模型在多种场景下的能力。

 

OmniAvatar能够根据输入的音频和提示词,生成虚拟人物视频,其中,人物的唇形运动与音频内容吻合,场景则反映了提示词内容


以下视频来源于
夸克AI实验室


通过调整提示词,还可实现对人物情绪的精确控制:


以下视频来源于
夸克AI实验室


在带有镜头运动的场景中,OmniAvatar仍能够保持面部、动作和背景的自然流畅,展现了模型在动态场景下的强大适应能力:


以下视频来源于
夸克AI实验室


对于长视频生成,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性:



像素级多层次音频嵌入策略

精准唇部运动+自然肢体动作


大多数现有方法通常依赖交叉注意力机制来引入音频特征,虽然效果良好,但会引入大量额外的计算开销,并且容易过度关注音频与面部特征之间的关系。

针对这一问题,团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入。通过这一方法,不仅可以自然地将唇部运动与音频内容对齐,还能够确保音频信息在整个视频像素中均匀分布,从而使模型生成更协调、更自然的身体动作来匹配音频。

该策略首先使用Wav2Vec2模型提取音频特征,然后对这些特征进行分组打包和压缩,再通过音频打包模块映射到视频的潜在空间中。


图片


接下来,为了确保模型在深层网络中能有效地学习和保留音频特征,OmniAvatar采用了一种多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中。为防止音频特征对潜在空间产生过度干扰,音频嵌入仅应用于模型的第二层至中间层之间的模块 。此外,这些层的权重不共享,使模型能够在不同层次上保持独立的学习路径。


基于LoRA的优化策略

平衡微调,兼顾质量与细节


目前,针对音频条件扩散模型的方法主要遵循两种策略:一种是训练完整的模型,另一种是仅微调特定层。

在进行完整训练时,团队发现更新所有层反而会导致模型生成的连贯性和视频质量下降。具体来看,由于模型过度拟合人类语音数据集,导致泛化能力差,容易生成不切实际或静态的内容,难以捕捉细节。但另一方面,仅微调和音频特征相关的层会导致音频和视频之间的对齐效果差,唇形同步性能受损。


效果对比


为了解决这些挑战,团队提出了一种基于LoRA的平衡微调策略。该策略不同于以上两种方法,而是使用LoRA策略高效地适应模型。LoRA通过在注意力和前向传播(FFN)层的权重更新中引入低秩矩阵,使模型能够在不改变底层模型容量的情况下学习音频特征。


长视频生成

身份保留+时间一致性


长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,团队提出了参考图嵌入和重叠帧策略,以实现人物的身份保留和时间一致性。


代码示例


身份保留OmniAvatar引入了一个参考帧,作为人物身份的固定指导。具体来看,首先需提取参考帧的潜在表示;然后将这些表示多次重复,使其长度与视频帧数匹配;接下来,再在每个时间步,将这个重复的参考帧潜在表示与视频潜在表示进行连接。因此,通过参考帧设计,可有效锚定人物身份,确保在整个长视频序列中的人物一致性。

时间一致性为了实现无缝的视频连续性,OmniAvatar采用了一种潜在重叠策略。首先,在训练时使用单帧和多帧前缀潜在变量的组合进行训练;其次,在推理过程中,对于第一批的帧,参考帧既作为前缀潜在变量,又作为身份指导;对于后续批次,则用前一组的最后帧作为潜在变量,参考帧仍保持固定用作身份指导。


One More Thing

OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

嗯,除了教育,我想到了几个比较好玩的点:虚拟偶像/KOL制作,可以省去大量拍摄成本和明星翻车风险;还有个性化贺卡或者祝福视频,把家人的照片和声音一合成,一个独一无二的定制视频就出来了,超有爱!甚至在电影制作中,可以作为数字替身或者预演工具,大大降低成本,提高效率。哇,简直是懒人福音!

“文章提到OmniAvatar还在‘初步尝试’阶段,未来将探索复杂指令处理和多角色交互。大家觉得,目前从技术来看,它离Sora那种‘文生视频’的终极形态还有多远?或者说,现阶段还有哪些核心技术挑战需要攻克?” 我觉得, Omniavatr就好比一个超级会表演的木偶,你给它指令,它能演得很像。Sora就是那个自己会写剧本,会搭场景,还会导演木偶表演的独立艺术家。所以说,距离在于“自主性”和“创造力”。核心挑战嘛,我觉得是如何让AI真正理解叙事逻辑、镜头语言,以及高级情感表达。现在可能AI能模仿悲伤,但它理解不了“因为什么而悲伤,所以应该怎么表现更符合人性”。这需要更深层次的语义理解和世界模型构建。

针对“你觉得OmniAvatar这种‘一张图+一段音’就能生成长视频的技术,未来除了文章里提到的播客、唱歌,还能在哪些我们意想不到的领域大放异彩?”这个问题,我个人觉得教育领域潜力无限!比如,我们可以让历史人物“重现”,亲口讲述他们的故事,或者让抽象的科学概念由虚拟科学家“亲身”演示。这能极大提升学习的沉浸感和趣味性。另外,虚拟客服、虚拟导游、甚至个性化定制的冥想引导师,都可以用这种技术来制作,让体验更具人情味和互动性。

针对“OmniAvatar离Sora那种‘文生视频’的终极形态还有多远?”这个问题,我认为OmniAvatar目前更像是“高精度角色表演者”,专注于人物动作和唇形同步,它是在给定影像和音频基础上的精细化生成。而Sora是真正的“导演+编剧”,能从纯文本描述直接创造出宏大且富有逻辑的视频世界。OmniAvatar要达到Sora的通用性,需要攻克的核心挑战包括:对物理世界更深层次的理解与模拟、复杂场景的零样本生成能力、多角色间自然真实的互动与情绪表达、以及更长的视频序列在逻辑和叙事上的连贯性。这需要模型拥有更强的世界模型(World Model)能力。

我觉得OmniAvatar和Sora有点像武侠小说里的高手,OmniAvatar是内功深厚的“口技”大师,精于局部神韵;Sora则是“乾坤大挪移”,能凭空创造出一整个江湖。OmniAvatar要达到Sora的高度,最大的挑战可能还不是技术本身,而是如何让AI真正理解“常识”,懂得如何让不同角色在复杂环境中进行有意义的互动,而不是仅仅是简单的动作叠加。比如,同一个场景,不同人物的站位、眼神交流、肢体语言,都得是合情合理的。这比单纯的动作同步难多了。

嗯,说到辨别AI伪造,我有个土办法:看细节!虽然AI很强,但在微表情的连贯性、光影的真实性,或者背景中不经意的穿帮镜头上,可能会露出马脚。还有就是,声音和画面是否完全吻合,有没有那种机器的生硬感。不过,随着技术进步,这些可能都很快被弥补了。最终还是得靠制度和法律来约束,我们个人能做的就是,对未知信息保持警惕,不传谣不信谣。反正一句话:不明觉厉的,先观望!

我觉得吧,现在的情况就是“眼见都不一定为实”了。辨别确实越来越难,除非是特别低级的AI破绽。保护自己嘛,首先就是不要在网上随便暴露个人生物信息,比如高清照片、声音样本这些。其次,对于任何爆炸性新闻或者视频,多等等官方辟谣或者多方求证,不要急着转发。咱们普通人能做的,也就是谨慎和多疑了,哈哈。

“你觉得OmniAvatar这种‘一张图+一段音’就能生成长视频的技术,未来除了文章里提到的播客、唱歌,还能在哪些我们意想不到的领域大放异彩?” 我觉得,也许未来可以应用于“数字永生”领域?比如,把去世亲友生前的照片和声音数据输入进去,就能生成一个虚拟的TA,在虚拟世界里继续“陪伴”家人。虽然听起来有点赛博朋克,但对于思念故人的人来说,或许这是一种慰藉。另外,一些非遗文化的传承,也可以通过这种方式,让古老的技艺和故事以更生动的方式呈现给现代人。

关于“AI生成视频越来越逼真…如果这项技术被滥用…我们普通人应该怎么辨别和保护自己?”的担忧,我认为从技术层面需要发展更强的AI检测工具和数字水印技术,就像数字货币一样,让AI生成的内容自带“DNA”印记。从社会层面,公众应提升数字素养,培养批判性思维,不轻信未经证实的信息。同时,政府和平台也应健全法律法规,对恶意制造和传播虚假信息的行为严厉打击,多方协作才能构建更安全的数字环境。