daVinci-MagiHuman:创智&Sand.ai联手开源150亿参数音视频基座模型,突破三项技术局限

创智&Sand.ai开源daVinci-MagiHuman音视频基座模型,突破音视频生成三大难题,单流Transformer架构,高效且易于优化。

原文标题:创智刘鹏飞、Sand.ai曹越,两大AI青年学者团队联手,开源音视频基座模型

原文作者:机器之心

冷月清谈:

上海创智学院(SII)GAIR 实验室与 Sand.ai 联合开源了音视频基座模型 daVinci-MagiHuman,该模型以 150 亿参数的单流 Transformer 为核心,实现了文本、视频、音频在统一骨干网络下的联合建模,解决了音视频不同步、架构设计复杂和生成速度慢这三大开源界难题。

daVinci-MagiHuman 采用 Sandwich 式主干网络、无显式 timestep 条件注入和 Attention-Head 门控等技术,提升了生成质量和效率。同时,模型还结合隐空间超分、Turbo VAE 解码器、全图编译优化和模型蒸馏等手段,实现了快速高效的音视频生成。该模型在人物中心生成任务中表现出色,支持多种语言,并在主观和客观评测中均表现出领先水平。

此次开源包括完整的模型栈和推理代码,旨在为开源社区提供一个更简单、可扩展、易于优化的音视频生成基础系统。

怜星夜思:

1、daVinci-MagiHuman 模型采用单流 Transformer 架构,这种架构相比于多流架构有哪些优势和劣势?在未来的发展中,多流架构是否还有机会?
2、daVinci-MagiHuman 模型在推理效率上做了很多优化,例如隐空间超分和 Turbo VAE 解码器。这些优化方法对最终的生成效果有什么影响?是否存在牺牲生成质量来换取效率的可能性?
3、该模型支持多种语言的音视频生成,这对模型的泛化能力提出了更高的要求。在多语言支持方面,daVinci-MagiHuman 可能采用了哪些技术手段?未来,如何进一步提升模型在小语种或方言上的表现?

原文内容

图片
机器之心编辑部

开源多模态生成领域,迎来架构级的底层突破。


视频生成已成为当前生成式 AI 最前沿的方向,但在音视频联合同步生成领域,开源界仍面临三重局限:


  • 音视频不同步:视频和音频往往语义对齐精度不足。

  • 架构设计复杂:现有方案要么将音频视为从属信号,要么通过复制骨干网络来处理音频,参数成本翻倍且推理优化困难。

  • 生成速度慢:现有的音视频联合生成模型往往因为模型架构设计复杂、难以充分优化,从而导致生成速度较慢,难以满足交互式场景的需求。


今日,由上海创智学院(SII)生成式人工智能研究实验室(GAIR)与 Sand.ai 联合研发的 daVinci-MagiHuman 正式开源发布,打破了开源界的这三重局限。


作为演绎级人像音视频的开源基座模型,daVinci-MagiHuman 以 150 亿参数的单流 Transformer 为核心,实现了文本、视频、音频在统一骨干网络下的联合建模,彻底告别了跨注意力和模态专属分支。



  • 代码仓库:https://github.com/GAIR-NLP/daVinci-MagiHuman

  • 模型权重:https://huggingface.co/GAIR/daVinci-MagiHuman

  • 在线 Demo 体验:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman


研发团队介绍

这一成果由上海创智学院(SII)GAIR 实验室 与 Sand.ai 共同完成。


上海创智学院是由顶尖大学、头部企业和科研机构联合建设的新型人才培养机构;其 GAIR 实验室由刘鹏飞博士领导,聚焦生成式人工智能的前沿研究,涵盖多模态视频基座模型、文本大模型预训练及智能体构建等方向。在多模态世界模型方面,实验室已展开了系统性探索:从开源首个原生无扩散的多模态模型 Anole,到提出以生成图像进行思考的新范式 Thinking with Generated Images,再到面向实时交互场景的 LiveTalk,以及面向数字世界理解与模拟的数字基因工作,逐步构建起从多模态生成、视觉推理到实时交互的完整研究链条。近期,该实验室已产出 daVinci-MagiHuman、Data Darwinism、daVinci-Agency、daVinci-Dev 等一系列代表性工作。



Sand.ai 则是由马尔奖得主曹越博士所创立,专注于开发视频生成大模型,并以推动通用人工智能(AGI)为目标。先后发布全球首个自回归视频生成模型 Magi-1,以及主打「AI 演员」表现力的 GAGA-1 模型,在物理规则连贯性和原生音画同步等领域都取得了突破性成果。


演绎级人像音视频的开源基座模型


daVinci-MagiHuman 是音视频联合生成的开源基座模型。与许多依赖多流结构、跨注意力模块或模态专用融合分支的方案不同,daVinci-MagiHuman 采用了更为简洁的单流 Transformer 架构,以 150 亿参数的统一骨干网络联合建模文本、视频与音频三种模态,彻底告别跨注意力和模态专属分支。这一设计不仅降低了系统复杂度,也让训练与推理优化更加直接、统一。


在能力上,daVinci-MagiHuman 尤其擅长以人物为中心的生成任务,能够生成富有表现力的面部表情与自然语音,并实现精确的音视频同步,覆盖语音与口型协调、表情驱动、动作表现等场景。同时,模型具备较强的多语言泛化能力,支持中文(普通话与粤语)、英文、日文、韩文、德文、法文等多种语言的音视频生成。


在推理效率方面,daVinci-MagiHuman 结合单流骨干网络、隐空间超分辨率与 Turbo VAE 解码器,在单张 H100 上仅需 2 秒即可生成 5 秒 256p 视频。在与 LTX-2.3、Ovi 1.1 的全面对比中,daVinci-MagiHuman 在成对人工评测中取得了 70.5% 的综合胜率,在客观基准上同样展现出领先表现。


核心技术揭秘:单流 Transformer 统管所有模态



为了解决上述挑战,daVinci-MagiHuman 选择了一条更直接的路线:把文本、视频、音频统一放入同一个单流 Transformer 去噪网络中,以纯自注意力完成联合建模。在这一基础上,模型进一步采用了几项关键设计:


  • Sandwich 式主干网络:在单流 Transformer 去噪网络中,少数输入层和输出层保留模态相关参数化,主要的中间层主干网络共享参数,在模态特化与深层融合之间取得平衡。

  • 无显式 timestep 条件注入:模型不再单独引入 timestep 条件,而是直接从当前噪声隐变量中推断去噪状态。

  • Attention-Head 门控:为了提升训练时的数值稳定性和提升 attention 的表达能力,研发团队进一步在每个 attention head 的输出引入了门控机制。

  • 统一条件接口:文本、参考音频、参考视觉条件等都通过统一接口进入同一主干网络,而不是为不同任务单独设计融合结构。


面向效率的四层优化


除了去噪网络本身的先进设计,daVinci-MagiHuman 还围绕推理效率进行了系统级优化。


1. 隐空间超分


为了避免从头直接生成高分辨率视频带来的巨大开销,研发团队采用两阶段流水线:底模先在较低分辨率生成音视频隐变量,再通过隐空间超分对视频结果进行细化。整个超分过程直接在隐空间(latent space) 中完成,通过三线性插值、重新加噪和少量额外去噪步骤完成高分辨率细化,效果更好的同时避免额外的 VAE decode/encode 开销。


值得一提的是,这一阶段虽然主要服务于视频细化,但音频隐变量也会继续作为输入进入超分模型,并与视频一起在同一主干中联合建模。这种设计在底模分辨率较低、口型细节容易偏差的情况下尤其重要,有助于保持更好的唇形同步效果。


2. Turbo VAE Decoder


在视频编解码阶段,模型保留 Wan2.2 VAE 作为编码器,但在推理中使用更轻量的 Turbo VAE 解码器替换原始解码器,以降低视频解码延迟。由于解码位于底模生成和超分流水线的关键路径上,这一优化对整体推理速度非常重要。


3. 全图编译优化


研发团队进一步将自研的全图 PyTorch 编译器 MagiCompiler 集成到推理栈中。通过跨层算子融合、减少分布式通信开销等方式,它能够进一步提升推理吞吐与执行效率,并在 H100 上带来了约 1.2 倍的加速。


4. 模型蒸馏


研发团队还使用 DMD-2 技术对去噪网络进行蒸馏,从而实现了在推理阶段仅去噪 8 步就可以获得良好的音视频生成效果。


性能实测:全面对标开源 SOTA


先看实测效果:








研发团队针对 LTX-2.3、Ovi 和 MoVA 等最具代表性的开源模型进行了系统性测试。


主观评测:人工盲评


研发团队构建了 100 条样本的内部评测数据集,覆盖图文生音视频任务,由评审员从多个维度对各模型的生成结果进行盲评打分。



客观评测:VideoScore2 基准和 TalkVid-Bench 对比


VideoScore2 主要用来评测视频生成质量,其采用的指标包括视频生成质量(Visual Quality)、视频 - 文本一致性 (Text Alignment) 和物理一致性(Physical Consistency)。TalkVid-Bench 则主要用来衡量音频生成质量,其指标主要用词错误率(Word Error Rate, WER) 来衡量。 表 2 展示了客观指标的评测结果,daVinci-MagiHuman 在视觉质量、视频 - 文本一致性都领先于 LTX2.3,在物理一致性上与 LTX2.3 大致相当,优于 OVI 1.1。在音频质量上,daVinci-MagiHuman 则远优于 LTX2.3 与 OVI 1.1。



结语与未来展望


此次 daVinci-MagiHuman 的模型栈完整开源,包括生成模型、超分模型以及推理代码。这一发布有望能够为开源社区提供一个更简单、更可扩展、也更易于优化的音视频生成基础系统,持续降低音画同出大模型的开发与部署门槛,为 AI 社区贡献真正 “开箱即用” 的性能红利。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


推理效率的提升意味着更低的部署成本,也意味着可以支持更高的并发请求,这对于商业应用至关重要。进一步优化的话,我觉得可以考虑模型并行和流水线并行,充分利用GPU的计算资源。另外,也可以尝试知识蒸馏,用更小的模型来逼近大模型的性能。

其实多语言模型的训练本身就是一个挑战,需要大量的多语言数据,而且不同语言的语音和语调差异很大,对模型的建模能力要求很高。但如果能解决这些问题,多语言模型就能在文化传播、旅游推广等方面发挥巨大的作用。

多语言支持太重要了!这直接决定了模型能服务的人群范围。你想想,如果只能生成英语的视频,那受众就大大受限了。有了多语言支持,就能更好地服务全球用户,促进跨文化交流。未来,它可以应用于在线教育、跨国会议、国际营销等各种场景,想象空间巨大!

感觉单流Transformer就像是把所有鸡蛋放在一个篮子里,好处是管理简单,坏处是万一这个篮子出了问题,所有鸡蛋就都完蛋了。多流架构就像是把鸡蛋放在不同的篮子里,虽然管理起来复杂一点,但是风险也分散了。所以,单流适合追求效率的场景,多流适合追求稳定性的场景。

除了to C的应用,我觉得to B方向也很有潜力,比如可以给公司生成虚拟代言人,大大降低广告成本。还可以根据剧本自动生成短视频,解放短视频创作者的生产力。甚至可以结合AIGC游戏,直接根据玩家喜好生成游戏人物和剧情。

现在 focus 在人像,感觉是考虑到伦理问题,怕被拿去做deepfake。但是抛开伦理,技术本身是无罪的。可以考虑生成一些动画,风景之类的,甚至可以跟一些短视频平台合作,搞一些AI剧本杀,应该会火。或者生成鬼畜视频,流量密码了属于是。

学术界向来是“大力出奇迹”,参数量巨大,效率高是单流的优势,工程落地需要考虑成本,如果多流能把参数量降下来,同时保证精度,应该还是有市场的,毕竟现在端侧部署也是一个趋势。

我觉得可以结合情感识别技术,让 AI 生成的音视频更具感染力。比如,根据用户的情绪状态,自动生成一段温馨的祝福视频,或者一段欢快的舞蹈视频等等。另外,还可以尝试将 daVinci-MagiHuman 应用于教育领域,例如生成教学视频、语言学习材料等等。

感觉隐空间超分这个思路很妙!就像是先画个草稿,再精细打磨。对于其他多模态模型,是不是也可以考虑类似的“分阶段生成”策略?先把整体框架搭好,再逐步完善细节,这样既能保证效率,又能提升质量。Turbo VAE解码器属于“即插即用”的优化方案,大部分项目应该都可以借鉴。

好问题!单流架构确实让人眼前一亮。除了文章里说的,我觉得它最大的优势在于信息融合更彻底,不同模态的信息在更深层次就能交互影响,避免了信息孤岛。不过,单流也可能导致模态间的差异性被抹平,如果模态间差异很大,可能效果还不如多流。像图像和文本,用单流可能挺合适,但要是加上气味、触觉啥的,可能就难说了,得具体问题具体分析!

这些优化方法绝对有借鉴意义!隐空间超分降低了计算复杂度,Turbo VAE解码器减少了解码延迟,都是很实用的技巧。我觉得可以进一步提升推理速度的方向包括:模型压缩(比如剪枝、量化)、硬件加速(比如用GPU、TPU)、以及算法优化(比如用更高效的注意力机制)。当然,最终还是要根据具体的模型和应用场景来选择合适的优化策略。

小语种和方言的挑战主要在于数据稀疏性和语言多样性。数据稀疏性指的是小语种和方言的训练数据量通常远小于主流语言,导致模型难以充分学习其语言特征。语言多样性指的是小语种和方言的语音、词汇和语法规则可能与主流语言存在显著差异,增加了模型学习的难度。为了提升模型在这些场景下的泛化能力,可以尝试以下方法:

1. 数据增强:通过语音合成、文本翻译等技术生成更多的小语种和方言数据。
2. 迁移学习:利用在大规模主流语言数据上预训练的模型,通过少量的小语种和方言数据进行微调。
3. 跨语言表示学习:学习一种通用的语言表示,使得模型能够将不同语言的知识进行迁移和共享。
4. 领域自适应:针对特定的小语种或方言,引入领域相关的先验知识,例如语音学规则、词汇表等。

可以考虑模型量化,把模型参数从FP32降低到INT8甚至更低,这样可以显著减少计算量和内存占用,加快推理速度。当然,量化可能会带来一定的精度损失,需要在速度和精度之间做一个trade-off。

我觉得可以借鉴游戏中的AI技术,例如NPC的行为建模、环境的动态生成等。把这些技术应用到音视频生成中,可以让模型更好地控制场景中的角色行为和环境变化,从而生成更具交互性的内容。例如,用户可以通过语音指令控制视频中人物的动作,或者改变场景中的天气等。

优化方法当然有借鉴意义!这就像学霸的笔记,总能找到对自己有用的。至于质量和效率的平衡,那就是trade-off了。预算充足就堆硬件,追求极致效果;预算有限就扣细节,在算法上下功夫。反正最终目标都是让用户满意,管它黑猫白猫,能抓住老鼠就是好猫!

简单来说,隐空间超分就是先生成一个模糊的视频,然后再把它变清晰,减少计算量;Turbo VAE解码器就是换一个更快的解码方式,加速视频输出;全图编译优化就是对整个推理过程进行优化,让它跑得更快。部署的时候,要看你的实际情况。如果你的硬件配置不高,那就尽量多用这些优化方法;如果你的主要瓶颈在其他地方,比如网络传输,那可能优化效果就不明显。总之,要具体问题具体分析。

单流Transformer架构的主要优势在于简洁性和效率。它避免了多流架构中复杂的跨模态交互和融合,降低了模型参数量和计算复杂度,更易于训练和优化。此外,单流架构天然地促进了不同模态之间的信息共享,有助于提升生成结果的同步性和一致性。但是,单流架构可能在处理模态差异较大的任务时表现不足,因为它需要将所有模态的信息都编码到同一个隐空间中,这可能会导致信息损失。因此,在实际应用中,需要根据具体的音视频生成任务选择合适的架构。对于音视频关联性强的任务,单流架构可能是更优选择;而对于模态差异较大的任务,可能需要考虑多流架构或混合架构。

单流架构的优势在于其简洁性,它避免了多流架构中常见的模态间对齐和信息融合难题,降低了训练和推理的复杂度。劣势则在于可能会牺牲对各个模态特性的精细化建模能力。个人认为,多流架构在未来仍然具有潜力,尤其是在需要深度理解和利用各个模态独特信息的场景下。关键在于如何设计更有效的模态间交互机制,例如利用注意力机制或记忆网络来增强模态间的关联性,或者通过引入外部知识来指导模态融合。

这些优化方法的核心目标是在保证生成质量的前提下,尽可能地提升推理速度。隐空间超分通过在低分辨率下进行主要生成,然后在隐空间中进行细节增强,避免了直接在高分辨率下生成带来的巨大计算开销。Turbo VAE 解码器则通过轻量化的设计,降低了视频解码的延迟。当然,任何优化都可能存在潜在的 trade-off。如果超分过程不够精细,可能会损失一些细节,或者引入一些伪影。Turbo VAE 如果过于简化,也可能导致解码后的视频质量略有下降。因此,需要在实际应用中根据具体需求进行权衡,选择合适的优化策略。