字节跳动DreamActor-M1:AI视频生成新突破,或将告别动捕?

字节跳动DreamActor-M1,AI视频生成新突破!无需动捕,一张照片即可生成逼真动画。但仍有局限性,未来可期!

原文标题:全网都在猜,这些视频是不是字节AI生成的:该跟动捕说再见了?

原文作者:机器之心

冷月清谈:

字节跳动提出的DreamActor-M1框架,是一种基于扩散式Transformer的人体动画生成技术。该框架仅需一张参考图像,就能模仿视频中的人物行为,跨尺度生成从肖像到全身的高质量动画,在时间上保持连贯性,并能准确还原人物身份特征和画面细节。DreamActor-M1通过混合引导机制实现对动画的精细控制和长时间的一致性,包含运动引导、尺度适应和外观引导三个方面,在人脸表情、身体动作以及不同尺度和姿态上都有良好的表现。实验结果表明,该方法在肖像、半身以及全身动画生成任务中均优于现有技术。然而,该技术目前仍存在一些局限性,例如在特定视角下,生成的嘴部动作可能无法完全与示例同步,但随着技术发展,未来或将取代动捕,甚至电影中的危险特技。

怜星夜思:

1、DreamActor-M1 技术的出现,会对现有的影视制作行业带来哪些潜在的影响?除了取代动捕,你还能想到哪些应用场景?
2、DreamActor-M1 模型中提到的“混合引导机制”,具体是如何保证生成动画的表现力和人物身份一致性的?这个机制在技术上有什么创新之处?
3、文章中提到 DreamActor-M1 在某些情况下,例如视角问题,生成的嘴部动作可能无法完全跟上示例。你认为未来该如何改进,以克服这些局限性?

原文内容

机器之心报道

编辑:梓文

动作捕捉,刚刚发生了革命。

在 GPT-4o 的风到处吹时,X 平台(原推特)上有好多带视频的帖子爆了。到底是什么引来了一百万的浏览量?



没错,是玛丽莲・梦露「活了过来」。她不仅能够语音 — 口型保持一致,动作也能复刻参考示例。在大幅度的手臂摆动时,也不会出现严重的变形或虚影。


网友瞳孔震惊,「别告诉我,这些都是 AI 生成的......」





这两段视频更是 Next Level。相比梦露黑白视频示例,他们所处的环境光影更具挑战。仔细观察,二者举手投足都能看到光影相应正确的变化,甚至灰色衣服男子的衣服在不同幅度的动作下有对应摆动。


网友都感慨到,AI 真的很伟大,或许已经争取到了不再用动捕的胜利。



不仅还原度极高,它还能掌握不同风格的生成。


图片


本周四在网络上爆火的 AI 视频生成效果,都来自字节跳动提出的一个全新的框架 DreamActor-M1—— 基于扩散式 Transformer(DiT)的人体动画生成框架,通过混合引导机制,实现对动画的精细化整体控制、多尺度适应以及长时间一致性。


只需一张参考图像,DreamActor-M1 就能模仿视频中的人物行为,跨尺度生成从肖像到全身的高质量、富有表现力且真实感十足的人体动画。最终生成的视频不仅在时间上保持连贯性,还能准确保留人物身份特征,画面细节也高度还原。  



  • 论文标题: DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance 

  • 论文链接:https://arxiv.org/pdf/2504.01724

  • 项目页面:https://grisoon.github.io/DreamActor-M1/


我们先快速梳理一下这项研究的要点:


  • 在运动引导方面,研究者设计了一套融合隐式面部特征、3D 头部球体和 3D 身体骨架的混合控制信号,能够稳健地驱动面部表情与身体动作的生成,同时保证动画的表现力与人物身份的一致性。

  • 在尺度适应方面,为了应对从特写肖像到全身图像等不同尺度和姿态的变化,字节跳动采用了逐步训练策略,利用多分辨率、多比例的数据进行训练,提升模型的泛化能力。

  • 在外观引导方面,他们将连续帧中的运动模式与互补的视觉参考相结合,有效增强了复杂动作中未显区域的时间一致性。实验结果表明,该方法在肖像、半身以及全身动画生成任务中均优于现有先进技术,能够持续输出富有表现力且长期稳定的一致性动画。 


下图概述了 DreamActor-M1 的总体流程:



首先,从驱动视频的帧中提取出人体的骨架(表示姿势)和头部的球体(表示头部的位置和朝向),这一步就像是先把人的动作「抽象出来」。接着,这些信息会被姿态编码器的模块处理,转化为姿态潜变量。可以简单理解为这个动作变成了数字表示。


同时,研究者还会从整个视频中截取一小段,用 3D VAE 进行编码,得到视频潜变量。这个潜变量是被加了噪声的(也就是故意让它模糊一点,方便训练)。然后,把视频潜变量和先前得到的姿态潜变量融合在一起,作为输入。 


面部表情则面部动作编码器单独处理,把它编码成隐式的面部信息,比如笑、皱眉这些表情特征,也用数字方式表示出来。 


系统还可以选取输入视频中的一张或几张图像,作为参考图像。这些图像里包含了人物的外观细节,比如穿什么衣服、长什么样。在训练时,这些参考图像会作为额外的信息输入,帮助模型更好地保留人物的外貌。


在训练过程中,DreamActor-M1 采用了共享权重的双分支结构:一个处理噪声 token,一个处理参考 token。模型通过对比生成的去噪视频潜变量与真实视频潜变量来进行监督学习,从而逐步学会还原人物动作。


此外,在每个 DiT 模块中,面部动作 token 通过跨注意力机制被融合进噪声 token 分支,而参考 token 的外观信息则通过连接式自注意力和后续的跨注意力机制注入到噪声 token 中。



在模型训练完之后,如何用它来生成一个带动作的动画视频?生动来讲,就是真人带着模型跳舞,用一张人物图片和一段动作视频就能让图片中的人物动起来。敲敲黑板,为了保持人物在不同视角的一致性,参考图可以使一张图,也可以是模型合成的「伪多视角」。


对比其他 SOTA 方法,不难发现,DreamActor-M1 有着更好的保真性。人物在动作过程中能更好地保留自身特征,也鲜有鬼影、变形的情况出现。




DreamActor-M1 与其他动画方法在五项关键指标上的定量对比实验中也表现优异。



不过在一些案例里,我们还是可以发现某些局限性。例如这个说唱的示例,由于视角问题,生成画面中的嘴部动作没法儿跟上示例。



不过,再给这些技术一段时间,可能不仅动捕慢慢会被取代,电影里的危险特技也能有方法代替了。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

影响肯定是巨大的!你想啊,以后演员不用再穿紧身衣、贴满传感器了,直接提供照片和表演参考视频就行,这能节省多少时间和精力!而且,对于一些已经去世的演员,这项技术也能让他们“复活”,继续参与影视作品的拍摄,想想都觉得不可思议。甚至以后可以定制专属的虚拟演员,完全按照导演的意愿来表演。不过,这也带来了一些伦理问题,比如未经授权使用他人肖像权、AI 生成内容的版权归属等等,需要引起重视。

从技术层面来看,DreamActor-M1 的确为影视制作带来了新的可能性。但需要注意的是,影视制作不仅仅是技术问题,还涉及到创意、艺术指导、以及对故事的理解。AI 可以作为辅助工具,提高效率,但在可预见的未来,它还无法完全取代人类的创造性工作。至于应用场景,除了上面提到的,我认为还可以用在历史人物的复原、文物修复的数字化呈现等方面,让更多人有机会了解历史文化。

我觉得可以考虑使用3D建模技术。与其让AI直接生成2D的嘴部动作,不如先构建一个3D的嘴部模型,然后让AI控制这个模型进行运动。这样可以更好地解决视角问题,保证口型和语音的同步。当然,这种方法的计算复杂度会更高,需要更强大的硬件支持。

混合引导机制是 DreamActor-M1 的核心亮点之一。简单来说,它融合了隐式面部特征、3D 头部球体和 3D 身体骨架这三种信息。隐式面部特征负责捕捉表情细节,3D 头部球体保证头部姿态的准确性,3D 身体骨架则控制整体动作。这种多维度的输入,能够让模型更全面地理解人物的动作和表情,从而生成更逼真、更富有表现力的动画。而创新之处在于,它巧妙地将这些不同类型的数据融合在一起,实现了对动画的精细化控制。

这个混合引导机制,我感觉有点像“三管齐下”!表情、头部姿态、身体动作,一个都不能少。而且,它还用到了隐式面部特征,这意味着模型可以学习到一些肉眼难以察觉的微表情,让动画更加生动自然。这种技术细节上的打磨,才是真正体现AI 功力的地方。

要解决这个问题,我觉得可以从两个方面入手。一是增加训练数据的多样性,特别是不同视角的嘴部动作数据,让模型能够更好地理解和泛化。二是改进模型的结构,例如引入注意力机制,让模型能够更加关注嘴部区域,从而提高生成精度。当然,也可以尝试将语音识别技术融入到模型中,让模型能够根据语音内容来生成更自然的口型。

这个问题很有意思!我觉得短期内完全取代动捕可能还不太现实,毕竟动捕在精细度和可控性上还是有优势的。但DreamActor-M1 这种AI生成技术,绝对能大大降低影视制作的成本和门槛。很多小团队甚至个人,都能用它来制作高质量的动画和特效,感觉以后短视频和独立电影会迎来一波爆发!至于应用场景,除了取代动捕,我觉得还可以用在游戏开发、虚拟偶像、在线教育这些领域,想象空间很大!

从我的理解来看,“混合引导机制”的关键在于“混合”二字。传统的动画生成方法,往往只依赖单一的运动数据,比如骨骼动画或者光流。而 DreamActor-M1 则将多种数据源结合起来,互相补充,从而提高了模型的鲁棒性和泛化能力。这种方法论上的创新,也为其他AI 动画生成技术提供了新的思路。