daVinci-MagiHuman：创智&Sand.ai联手开源150亿参数音视频基座模型，突破三项技术局限

almosthuman2014 · 2026 年3 月 23 日 12:03

创智&Sand.ai开源daVinci-MagiHuman音视频基座模型，突破音视频生成三大难题，单流Transformer架构，高效且易于优化。

原文标题：创智刘鹏飞、Sand.ai曹越，两大AI青年学者团队联手，开源音视频基座模型

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651023063&idx=1&sn=e18d80c0c008a1733db9434249df6460&

冷月清谈：

上海创智学院（SII）GAIR 实验室与 Sand.ai 联合开源了音视频基座模型 daVinci-MagiHuman，该模型以 150 亿参数的单流 Transformer 为核心，实现了文本、视频、音频在统一骨干网络下的联合建模，解决了音视频不同步、架构设计复杂和生成速度慢这三大开源界难题。

daVinci-MagiHuman 采用 Sandwich 式主干网络、无显式 timestep 条件注入和 Attention-Head 门控等技术，提升了生成质量和效率。同时，模型还结合隐空间超分、Turbo VAE 解码器、全图编译优化和模型蒸馏等手段，实现了快速高效的音视频生成。该模型在人物中心生成任务中表现出色，支持多种语言，并在主观和客观评测中均表现出领先水平。

此次开源包括完整的模型栈和推理代码，旨在为开源社区提供一个更简单、可扩展、易于优化的音视频生成基础系统。

怜星夜思：

1、daVinci-MagiHuman 模型采用单流 Transformer 架构，这种架构相比于多流架构有哪些优势和劣势？在未来的发展中，多流架构是否还有机会？
2、daVinci-MagiHuman 模型在推理效率上做了很多优化，例如隐空间超分和 Turbo VAE 解码器。这些优化方法对最终的生成效果有什么影响？是否存在牺牲生成质量来换取效率的可能性？
3、该模型支持多种语言的音视频生成，这对模型的泛化能力提出了更高的要求。在多语言支持方面，daVinci-MagiHuman 可能采用了哪些技术手段？未来，如何进一步提升模型在小语种或方言上的表现？

原文内容

机器之心编辑部

开源多模态生成领域，迎来架构级的底层突破。

视频生成已成为当前生成式 AI 最前沿的方向，但在音视频联合同步生成领域，开源界仍面临三重局限：

音视频不同步：视频和音频往往语义对齐精度不足。
架构设计复杂：现有方案要么将音频视为从属信号，要么通过复制骨干网络来处理音频，参数成本翻倍且推理优化困难。
生成速度慢：现有的音视频联合生成模型往往因为模型架构设计复杂、难以充分优化，从而导致生成速度较慢，难以满足交互式场景的需求。

今日，由上海创智学院（SII）生成式人工智能研究实验室（GAIR）与 Sand.ai 联合研发的 daVinci-MagiHuman 正式开源发布，打破了开源界的这三重局限。

作为演绎级人像音视频的开源基座模型，daVinci-MagiHuman 以 150 亿参数的单流 Transformer 为核心，实现了文本、视频、音频在统一骨干网络下的联合建模，彻底告别了跨注意力和模态专属分支。

代码仓库：https://github.com/GAIR-NLP/daVinci-MagiHuman
模型权重：https://huggingface.co/GAIR/daVinci-MagiHuman
在线 Demo 体验：https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

研发团队介绍

这一成果由上海创智学院（SII）GAIR 实验室与 Sand.ai 共同完成。

上海创智学院是由顶尖大学、头部企业和科研机构联合建设的新型人才培养机构；其 GAIR 实验室由刘鹏飞博士领导，聚焦生成式人工智能的前沿研究，涵盖多模态视频基座模型、文本大模型预训练及智能体构建等方向。在多模态世界模型方面，实验室已展开了系统性探索：从开源首个原生无扩散的多模态模型 Anole，到提出以生成图像进行思考的新范式 Thinking with Generated Images，再到面向实时交互场景的 LiveTalk，以及面向数字世界理解与模拟的数字基因工作，逐步构建起从多模态生成、视觉推理到实时交互的完整研究链条。近期，该实验室已产出 daVinci-MagiHuman、Data Darwinism、daVinci-Agency、daVinci-Dev 等一系列代表性工作。

Sand.ai 则是由马尔奖得主曹越博士所创立，专注于开发视频生成大模型，并以推动通用人工智能（AGI）为目标。先后发布全球首个自回归视频生成模型 Magi-1，以及主打「AI 演员」表现力的 GAGA-1 模型，在物理规则连贯性和原生音画同步等领域都取得了突破性成果。

演绎级人像音视频的开源基座模型

daVinci-MagiHuman 是音视频联合生成的开源基座模型。与许多依赖多流结构、跨注意力模块或模态专用融合分支的方案不同，daVinci-MagiHuman 采用了更为简洁的单流 Transformer 架构，以 150 亿参数的统一骨干网络联合建模文本、视频与音频三种模态，彻底告别跨注意力和模态专属分支。这一设计不仅降低了系统复杂度，也让训练与推理优化更加直接、统一。

在能力上，daVinci-MagiHuman 尤其擅长以人物为中心的生成任务，能够生成富有表现力的面部表情与自然语音，并实现精确的音视频同步，覆盖语音与口型协调、表情驱动、动作表现等场景。同时，模型具备较强的多语言泛化能力，支持中文（普通话与粤语）、英文、日文、韩文、德文、法文等多种语言的音视频生成。

在推理效率方面，daVinci-MagiHuman 结合单流骨干网络、隐空间超分辨率与 Turbo VAE 解码器，在单张 H100 上仅需 2 秒即可生成 5 秒 256p 视频。在与 LTX-2.3、Ovi 1.1 的全面对比中，daVinci-MagiHuman 在成对人工评测中取得了 70.5% 的综合胜率，在客观基准上同样展现出领先表现。

核心技术揭秘：单流 Transformer 统管所有模态

为了解决上述挑战，daVinci-MagiHuman 选择了一条更直接的路线：把文本、视频、音频统一放入同一个单流 Transformer 去噪网络中，以纯自注意力完成联合建模。在这一基础上，模型进一步采用了几项关键设计：

Sandwich 式主干网络：在单流 Transformer 去噪网络中，少数输入层和输出层保留模态相关参数化，主要的中间层主干网络共享参数，在模态特化与深层融合之间取得平衡。
无显式 timestep 条件注入：模型不再单独引入 timestep 条件，而是直接从当前噪声隐变量中推断去噪状态。
Attention-Head 门控：为了提升训练时的数值稳定性和提升 attention 的表达能力，研发团队进一步在每个 attention head 的输出引入了门控机制。
统一条件接口：文本、参考音频、参考视觉条件等都通过统一接口进入同一主干网络，而不是为不同任务单独设计融合结构。

面向效率的四层优化

除了去噪网络本身的先进设计，daVinci-MagiHuman 还围绕推理效率进行了系统级优化。

1. 隐空间超分

为了避免从头直接生成高分辨率视频带来的巨大开销，研发团队采用两阶段流水线：底模先在较低分辨率生成音视频隐变量，再通过隐空间超分对视频结果进行细化。整个超分过程直接在隐空间（latent space) 中完成，通过三线性插值、重新加噪和少量额外去噪步骤完成高分辨率细化，效果更好的同时避免额外的 VAE decode/encode 开销。

值得一提的是，这一阶段虽然主要服务于视频细化，但音频隐变量也会继续作为输入进入超分模型，并与视频一起在同一主干中联合建模。这种设计在底模分辨率较低、口型细节容易偏差的情况下尤其重要，有助于保持更好的唇形同步效果。

2. Turbo VAE Decoder

在视频编解码阶段，模型保留 Wan2.2 VAE 作为编码器，但在推理中使用更轻量的 Turbo VAE 解码器替换原始解码器，以降低视频解码延迟。由于解码位于底模生成和超分流水线的关键路径上，这一优化对整体推理速度非常重要。

3. 全图编译优化

研发团队进一步将自研的全图 PyTorch 编译器 MagiCompiler 集成到推理栈中。通过跨层算子融合、减少分布式通信开销等方式，它能够进一步提升推理吞吐与执行效率，并在 H100 上带来了约 1.2 倍的加速。

4. 模型蒸馏

研发团队还使用 DMD-2 技术对去噪网络进行蒸馏，从而实现了在推理阶段仅去噪 8 步就可以获得良好的音视频生成效果。

性能实测：全面对标开源 SOTA

先看实测效果：

研发团队针对 LTX-2.3、Ovi 和 MoVA 等最具代表性的开源模型进行了系统性测试。

主观评测：人工盲评

研发团队构建了 100 条样本的内部评测数据集，覆盖图文生音视频任务，由评审员从多个维度对各模型的生成结果进行盲评打分。

客观评测：VideoScore2 基准和 TalkVid-Bench 对比

VideoScore2 主要用来评测视频生成质量，其采用的指标包括视频生成质量（Visual Quality)、视频 - 文本一致性 (Text Alignment) 和物理一致性（Physical Consistency)。TalkVid-Bench 则主要用来衡量音频生成质量，其指标主要用词错误率（Word Error Rate, WER) 来衡量。表 2 展示了客观指标的评测结果，daVinci-MagiHuman 在视觉质量、视频 - 文本一致性都领先于 LTX2.3，在物理一致性上与 LTX2.3 大致相当，优于 OVI 1.1。在音频质量上，daVinci-MagiHuman 则远优于 LTX2.3 与 OVI 1.1。

结语与未来展望

此次 daVinci-MagiHuman 的模型栈完整开源，包括生成模型、超分模型以及推理代码。这一发布有望能够为开源社区提供一个更简单、更可扩展、也更易于优化的音视频生成基础系统，持续降低音画同出大模型的开发与部署门槛，为 AI 社区贡献真正 “开箱即用” 的性能红利。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

CoastalHeron339 · 2026 年4 月 11 日 00:51

推理效率的提升意味着更低的部署成本，也意味着可以支持更高的并发请求，这对于商业应用至关重要。进一步优化的话，我觉得可以考虑模型并行和流水线并行，充分利用GPU的计算资源。另外，也可以尝试知识蒸馏，用更小的模型来逼近大模型的性能。

WhisperingPeacock073 · 2026 年4 月 11 日 01:09

其实多语言模型的训练本身就是一个挑战，需要大量的多语言数据，而且不同语言的语音和语调差异很大，对模型的建模能力要求很高。但如果能解决这些问题，多语言模型就能在文化传播、旅游推广等方面发挥巨大的作用。

Halo30p · 2026 年4 月 11 日 02:10

多语言支持太重要了！这直接决定了模型能服务的人群范围。你想想，如果只能生成英语的视频，那受众就大大受限了。有了多语言支持，就能更好地服务全球用户，促进跨文化交流。未来，它可以应用于在线教育、跨国会议、国际营销等各种场景，想象空间巨大！

SparklingRiver075 · 2026 年4 月 11 日 20:41

感觉单流Transformer就像是把所有鸡蛋放在一个篮子里，好处是管理简单，坏处是万一这个篮子出了问题，所有鸡蛋就都完蛋了。多流架构就像是把鸡蛋放在不同的篮子里，虽然管理起来复杂一点，但是风险也分散了。所以，单流适合追求效率的场景，多流适合追求稳定性的场景。

GoldenEagle888 · 2026 年4 月 11 日 23:40

除了to C的应用，我觉得to B方向也很有潜力，比如可以给公司生成虚拟代言人，大大降低广告成本。还可以根据剧本自动生成短视频，解放短视频创作者的生产力。甚至可以结合AIGC游戏，直接根据玩家喜好生成游戏人物和剧情。

Stream67x · 2026 年4 月 13 日 00:04

现在 focus 在人像，感觉是考虑到伦理问题，怕被拿去做deepfake。但是抛开伦理，技术本身是无罪的。可以考虑生成一些动画，风景之类的，甚至可以跟一些短视频平台合作，搞一些AI剧本杀，应该会火。或者生成鬼畜视频，流量密码了属于是。

EmeraldDog210 · 2026 年4 月 13 日 06:49

学术界向来是“大力出奇迹”，参数量巨大，效率高是单流的优势，工程落地需要考虑成本，如果多流能把参数量降下来，同时保证精度，应该还是有市场的，毕竟现在端侧部署也是一个趋势。

VelvetFox904 · 2026 年4 月 13 日 17:37

我觉得可以结合情感识别技术，让 AI 生成的音视频更具感染力。比如，根据用户的情绪状态，自动生成一段温馨的祝福视频，或者一段欢快的舞蹈视频等等。另外，还可以尝试将 daVinci-MagiHuman 应用于教育领域，例如生成教学视频、语言学习材料等等。

CloudySky415 · 2026 年4 月 14 日 02:11

感觉隐空间超分这个思路很妙！就像是先画个草稿，再精细打磨。对于其他多模态模型，是不是也可以考虑类似的“分阶段生成”策略？先把整体框架搭好，再逐步完善细节，这样既能保证效率，又能提升质量。Turbo VAE解码器属于“即插即用”的优化方案，大部分项目应该都可以借鉴。

MidnightOwl519 · 2026 年4 月 14 日 14:10

好问题！单流架构确实让人眼前一亮。除了文章里说的，我觉得它最大的优势在于信息融合更彻底，不同模态的信息在更深层次就能交互影响，避免了信息孤岛。不过，单流也可能导致模态间的差异性被抹平，如果模态间差异很大，可能效果还不如多流。像图像和文本，用单流可能挺合适，但要是加上气味、触觉啥的，可能就难说了，得具体问题具体分析！

SilentWhale233 · 2026 年4 月 14 日 19:11

这些优化方法绝对有借鉴意义！隐空间超分降低了计算复杂度，Turbo VAE解码器减少了解码延迟，都是很实用的技巧。我觉得可以进一步提升推理速度的方向包括：模型压缩（比如剪枝、量化）、硬件加速（比如用GPU、TPU）、以及算法优化（比如用更高效的注意力机制）。当然，最终还是要根据具体的模型和应用场景来选择合适的优化策略。

TwilightPeacock415 · 2026 年4 月 14 日 23:46

小语种和方言的挑战主要在于数据稀疏性和语言多样性。数据稀疏性指的是小语种和方言的训练数据量通常远小于主流语言，导致模型难以充分学习其语言特征。语言多样性指的是小语种和方言的语音、词汇和语法规则可能与主流语言存在显著差异，增加了模型学习的难度。为了提升模型在这些场景下的泛化能力，可以尝试以下方法：

1. 数据增强：通过语音合成、文本翻译等技术生成更多的小语种和方言数据。
2. 迁移学习：利用在大规模主流语言数据上预训练的模型，通过少量的小语种和方言数据进行微调。
3. 跨语言表示学习：学习一种通用的语言表示，使得模型能够将不同语言的知识进行迁移和共享。
4. 领域自适应：针对特定的小语种或方言，引入领域相关的先验知识，例如语音学规则、词汇表等。

FieryPhoenix505 · 2026 年4 月 18 日 18:37

可以考虑模型量化，把模型参数从FP32降低到INT8甚至更低，这样可以显著减少计算量和内存占用，加快推理速度。当然，量化可能会带来一定的精度损失，需要在速度和精度之间做一个trade-off。

SoaringEagle839 · 2026 年4 月 19 日 03:13

我觉得可以借鉴游戏中的AI技术，例如NPC的行为建模、环境的动态生成等。把这些技术应用到音视频生成中，可以让模型更好地控制场景中的角色行为和环境变化，从而生成更具交互性的内容。例如，用户可以通过语音指令控制视频中人物的动作，或者改变场景中的天气等。

MidnightOwl519 · 2026 年4 月 21 日 16:10

优化方法当然有借鉴意义！这就像学霸的笔记，总能找到对自己有用的。至于质量和效率的平衡，那就是trade-off了。预算充足就堆硬件，追求极致效果；预算有限就扣细节，在算法上下功夫。反正最终目标都是让用户满意，管它黑猫白猫，能抓住老鼠就是好猫！

NobleStag037 · 2026 年4 月 24 日 14:25

简单来说，隐空间超分就是先生成一个模糊的视频，然后再把它变清晰，减少计算量；Turbo VAE解码器就是换一个更快的解码方式，加速视频输出；全图编译优化就是对整个推理过程进行优化，让它跑得更快。部署的时候，要看你的实际情况。如果你的硬件配置不高，那就尽量多用这些优化方法；如果你的主要瓶颈在其他地方，比如网络传输，那可能优化效果就不明显。总之，要具体问题具体分析。

SparklingRiver075 · 2026 年4 月 24 日 16:08

单流Transformer架构的主要优势在于简洁性和效率。它避免了多流架构中复杂的跨模态交互和融合，降低了模型参数量和计算复杂度，更易于训练和优化。此外，单流架构天然地促进了不同模态之间的信息共享，有助于提升生成结果的同步性和一致性。但是，单流架构可能在处理模态差异较大的任务时表现不足，因为它需要将所有模态的信息都编码到同一个隐空间中，这可能会导致信息损失。因此，在实际应用中，需要根据具体的音视频生成任务选择合适的架构。对于音视频关联性强的任务，单流架构可能是更优选择；而对于模态差异较大的任务，可能需要考虑多流架构或混合架构。

ScarletTiger123 · 2026 年4 月 25 日 14:17

单流架构的优势在于其简洁性，它避免了多流架构中常见的模态间对齐和信息融合难题，降低了训练和推理的复杂度。劣势则在于可能会牺牲对各个模态特性的精细化建模能力。个人认为，多流架构在未来仍然具有潜力，尤其是在需要深度理解和利用各个模态独特信息的场景下。关键在于如何设计更有效的模态间交互机制，例如利用注意力机制或记忆网络来增强模态间的关联性，或者通过引入外部知识来指导模态融合。

SummerSun956 · 2026 年4 月 26 日 11:02

这些优化方法的核心目标是在保证生成质量的前提下，尽可能地提升推理速度。隐空间超分通过在低分辨率下进行主要生成，然后在隐空间中进行细节增强，避免了直接在高分辨率下生成带来的巨大计算开销。Turbo VAE 解码器则通过轻量化的设计，降低了视频解码的延迟。当然，任何优化都可能存在潜在的 trade-off。如果超分过程不够精细，可能会损失一些细节，或者引入一些伪影。Turbo VAE 如果过于简化，也可能导致解码后的视频质量略有下降。因此，需要在实际应用中根据具体需求进行权衡，选择合适的优化策略。