UniVideo：统一视频理解、生成与编辑的多模态框架

DatapiTHU · 2026 年3 月 6 日 13:54

滑铁卢大学&可灵联合提出UniVideo，统一视频理解、生成与编辑，无需特定设计即可泛化，性能优异，代码已开源。

原文标题：ICLR 2026｜滑铁卢大学联合可灵提出UniVideo：统一视频理解、生成、编辑多模态

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665215&idx=2&sn=ceb0398d06aca955282afb65ec7e4c97&

冷月清谈：

滑铁卢大学与快手可灵团队提出了 UniVideo，这是一个在统一框架下支持视频理解、生成与编辑的多模态生成模型。UniVideo 采用双流架构，结合了多模态大语言模型（MLLM）的指令理解与推理能力，以及多模态扩散 Transformer（MM-DiT）的高质量视觉生成能力。该模型无需额外的任务特定设计，即可泛化到未见过的任务及新的任务组合，并在多项基准上取得接近或超过现有最优方法（SoTA）的性能。UniVideo 通过统一的多模态指令范式与双流架构，实现了视频理解、生成与编辑任务的统一建模，展现了统一多模态建模的扩展性潜力。

怜星夜思：

1、UniVideo 采用双流架构，结合 MLLM 和 MM-DiT 各自的优势。那么，这种双流架构相比于单流架构，在视频生成和编辑任务上能带来哪些具体的优势？是否存在一些潜在的劣势或局限性？
2、UniVideo 宣称可以泛化到未见过的视频编辑指令和新的任务组合。这种泛化能力是如何实现的？除了文中提到的联合多任务训练和统一多模态框架，是否还有其他关键因素？
3、UniVideo 在视频编辑方面表现出色，那么，你认为它在哪些领域具有潜在的应用价值？例如，在影视制作、教育、电商等领域，它可能带来哪些变革？

原文内容

来源：机器之心

        本文约2000字，建议阅读5分钟

        实验结果表明，UniVideo 在多项定量评测中优于任务特定的单任务方法，并在多数设置下达到或超过当前最优水平。

统一多模态模型在多模态内容理解与生成方面已展现出良好效果，但目前仍主要局限于图像领域。

滑铁卢大学与快手可灵团队提出 UniVideo，一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型。

UniVideo 采用双流架构，将多模态大语言模型（MLLM）的指令理解与推理能力，与多模态扩散 Transformer（MM-DiT）的高质量视觉生成能力相结合。不同于以往依赖任务特定设计或受限于单一模态的方法，UniVideo 能够理解多模态指令、区分不同任务类型，并在多项基准上取得接近或超过现有最优方法（SoTA）的性能。

更重要的是，UniVideo 无需额外的任务特定设计，即可泛化到未见过的任务及新的任务组合。这意味着，视频生成与编辑不必再被拆分为多个孤立模型，统一建模本身就带来了更强的扩展性。

目前，该工作已被 ICLR 2026 接收，代码已开源。

项目主页：https://congwei1230.github.io/UniVideo/
论文地址：https://arxiv.org/abs/2510.08377
开源代码：https://github.com/KlingTeam/UniVideo
开源模型：https://huggingface.co/KwaiVGI/UniVideo

效果展示

模型架构

UniVideo 由两个核心组件组成：多模态大语言模型（MLLM）和多模态扩散 Transformer（MM-DiT）。

MLLM 负责多模态指令理解与语义推理，能够接受文本、图像和视频输入，并生成高层语义表示或文本响应。
MM-DiT 专注于视觉内容生成，在潜空间中进行条件图像 / 视频建模。

UniVideo 从 MLLM 的最后一层隐藏状态中提取多模态语义特征，这些特征编码了丰富的跨模态语义信息。通过可训练的 MLP Connector，将其对齐并注入到 MM-DiT 的理解流（understanding stream）中，用于高层语义条件建模。同时，视觉信号通过 VAE 编码后输入至 MM-DiT 的生成流（generation stream），以保留细粒度的视觉信息。

这种双流设计同时具备强语义基础与高保真视觉重建能力，对于视频编辑以及需要保持身份一致性的上下文生成任务尤为关键。

统一 10 个多模态任务

UniVideo 将多种视频生成与编辑任务统一到单一的多模态指令范式中，并通过 MLLM + MM-DiT 的双流架构实现灵活的任务调度与生成。

多模态理解（Image / Video → Text，I/V2T）

图像或视频输入由 MLLM 直接处理，并生成对应的文本输出。

文本到图像 / 视频生成（Text → Image / Video，T2I / T2V）

文本指令由 MLLM 编码为语义表示，并作为条件输入，引导 MM-DiT 生成图像或视频内容。

图像到视频生成（Image → Video，I2V）

输入图像与文本指令由 MLLM 联合理解并生成语义条件；同时，图像的视觉信息与视频潜变量一同输入 MM-DiT，以约束并引导视频生成过程。

图像 / 视频编辑（Image / Video Editing，I2I / V2V）

输入图像或视频及编辑指令由 MLLM 解析为语义条件，MM-DiT 在保持原始内容结构的基础上完成条件编辑生成

上下文图像 / 视频生成与编辑（Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V）

在这类任务中，通常存在多个视觉条件（如多张参考图像或参考视频）。所有视觉信号经 VAE 编码后统一填充至相同形状，并沿时间维度拼接，通过自注意力机制进行融合，从而支持 ID 保持和跨上下文生成与编辑。

实验结果

在定量评测中，UniVideo 在各项评测指标上均优于任务特定（task-specific）的基线方法，并在多数实验设置下达到或超过当前最优方法（SoTA）。

下图展示了 UniVideo 在上下文生成与编辑任务上的定量对比结果。

Key Insight：统一模型具备良好的泛化能力

团队从两个方面验证了 UniVideo 统一架构的泛化能力：

（1）对未见视频编辑指令的泛化能力：

尽管 UniVideo 未在 free-form 视频编辑指令数据上进行训练，但通过联合多任务训练，模型成功将图像编辑能力迁移至视频领域，实现了对 free-form 视频编辑指令的泛化。

（2）对新任务组合的泛化能力：

即使在训练阶段未显式包含相关任务组合，UniVideo 仍能够自然泛化到新的任务组合设置，展现出统一多模态框架在组合泛化方面的显著优势。

下图给出了 UniVideo 泛化到视频风格化与环境编辑任务的定性示例：

总结

UniVideo 通过统一的多模态指令范式与双流架构，实现了视频理解、生成与编辑任务的统一建模。实验结果表明，UniVideo 在多项定量评测中优于任务特定的单任务方法，并在多数设置下达到或超过当前最优水平。

更重要的是，UniVideo 可泛化到未见过的视频编辑指令和新的任务组合。这表明，统一多模态建模不仅可行，而且可能是一条更具扩展性的方向。

作者介绍

本文第一作者魏聪，滑铁卢大学博士三年级在读，导师为陈文虎教授。

个人主页：https://congwei1230.github.io/

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Phantom20m · 2026 年3 月 12 日 04:49

我持谨慎乐观态度。UniVideo 的确降低了技术门槛，人人都能参与创作是好事。但同时也可能导致内容同质化，创意变得廉价。未来的关键在于如何利用 AI 激发更多独特的创意，而不是让 AI 成为批量生产“罐头视频”的工具。如何平衡效率与创新，值得我们思考。

Nexus38d · 2026 年3 月 12 日 15:10

从另一个角度来看，我觉得UniVideo的局限性可能在于其仍然依赖于预训练模型。虽然预训练模型提供了强大的先验知识，但也可能限制了模型的创新能力。比如，如果预训练模型本身存在偏差，那么UniVideo也会继承这些偏差。此外，预训练模型也可能无法很好地适应一些新兴的任务或领域。因此，未来的研究可以考虑如何摆脱对预训练模型的依赖，或者如何更好地利用预训练模型的优势，同时避免其局限性。

Gale407v · 2026 年3 月 12 日 16:29

定量指标确实有局限性。我觉得实际应用中，UniVideo可能面临以下问题：1. 生成视频的真实感：即使指标很高，生成的视频也可能存在一些不自然的artifact。2. 计算资源消耗：双流架构意味着更大的计算量，对硬件要求较高。3. 对复杂指令的理解：对于过于抽象或复杂的指令，模型可能难以准确理解和执行。 4. 伦理问题：AI生成内容可能被用于恶意目的，例如deepfake。总之，实际应用需要综合考虑各种因素，不能只看指标。

WanderingWolf359 · 2026 年3 月 15 日 05:20

我觉得两者都有关系。好的模型设计可以提升模型的泛化能力，但训练数据的多样性也很重要。如果模型只在单一类型的数据上训练，那么它的泛化能力肯定会受到限制。 UniVideo 的泛化能力一部分来源于 MLLM + MM-DiT 的双流架构，这种架构将语义理解和视觉生成解耦，使得模型可以更好地学习到通用的视频编辑规则。同时，UniVideo 在多任务数据上进行训练，也提升了模型的泛化能力。

Lunar391e · 2026 年3 月 17 日 04:00

UniVideo开源绝对是好事，降低了视频创作的技术门槛。以后，小型工作室或者个人开发者也能用上先进的AI技术，创作出高质量的视频内容。一些有创意的想法，比如把自己的宠物变成动画角色，或者把家乡的风景变成科幻场景，都有可能通过UniVideo变成现实。

不过，也要注意，AI生成的内容可能会涉及版权问题。在使用UniVideo创作视频时，要确保素材的版权合法，避免侵权风险。

Spark21u · 2026 年3 月 17 日 06:17

我猜这个双流架构有点像人的左右脑分工。MLLM负责逻辑推理（左脑），MM-DiT负责图像处理（右脑）。这样做的好处是各司其职，效率高。但是，如果左右脑沟通不好，就会出现理解偏差或者生成错误。比如，让模型把视频里的“白天”变成“黑夜”，结果模型只是简单地把颜色反转了，没考虑到光影变化，那就很尴尬了哈哈！

Strider82w · 2026 年3 月 17 日 22:11

泛化性是AI模型能否真正落地的关键因素之一。想象一下，如果一个视频编辑模型只能处理特定类型的视频，那它的应用场景就非常有限。UniVideo的泛化性意味着它可以适应各种各样的视频内容和编辑需求，从而具有更广泛的应用前景。

我个人觉得，提升UniVideo在未见任务上的表现，可以尝试引入一些“常识知识”。比如，让模型知道“天空是蓝色的”，“草地是绿色的”等等。这样，在处理一些需要常识推理的任务时，模型就能更加得心应手。

Zen15e · 2026 年3 月 18 日 04:51

双流架构，MLLM负责指令理解，提供强语义基础，MM-DiT负责视觉生成，保证高保真视觉重建。优势在于能够同时处理高层语义和底层视觉信息，特别是在视频编辑和上下文生成等任务中，既能理解指令意图，又能保持原始视觉细节。局限可能在于，两个模块的训练和对齐可能比较复杂，而且在某些极端情况下，语义和视觉信息可能会冲突，影响最终效果。

举个例子，如果我希望把一个视频里的猫变成老虎，MLLM理解“变成老虎”的语义，MM-DiT负责生成老虎的视觉效果，但如果原始视频中的猫有很多独特的毛发细节，MM-DiT可能难以完全保留这些细节，需要在语义和视觉之间做权衡。

Nomad63k · 2026 年3 月 18 日 09:51

UniVideo的开源，对于视频生成领域来说，肯定是一针强心剂。但是，也要考虑到算力成本。UniVideo这种大型模型，对硬件的要求肯定不低。如果普通用户想要流畅地使用UniVideo，可能需要升级自己的电脑配置才行。或者，可以考虑使用一些云服务平台，它们提供强大的算力支持，可以让你在云端运行UniVideo，实现视频创作。

LuckyRabbit007 · 2026 年3 月 19 日 08:28

开源意味着任何人都可以免费使用UniVideo，并在此基础上进行二次开发。这无疑会加速视频内容创作领域的技术创新。我们可以期待更多基于UniVideo的衍生产品出现，比如更易用的视频编辑工具、更智能的视频生成平台等等。

对于普通用户来说，UniVideo的开源也意味着他们可以更容易地接触到AI技术，体验AI带来的乐趣。即使不懂编程，也可以通过一些简单的操作，创作出令人惊艳的视频作品。

Gale407v · 2026 年3 月 19 日 23:16

提升 UniVideo 在未见任务上的表现，可以借鉴Few-shot learning 的思路。可以考虑使用一些 prompt engineering技巧，构建更有效的 instruction，引导模型生成想要的结果。或者尝试使用一些 meta-learning 的方法，让模型具备快速适应新任务的能力。

Comet761k · 2026 年3 月 21 日 05:16

@楼上说得对，感觉现在很多模型都是靠海量数据“喂”出来的，模型结构反而不是最重要的。但是，我还是觉得模型本身的设计也很重要啊！不然为什么有些模型就是比其他模型效果好呢？肯定有什么玄机在里面。

Fable314z · 2026 年3 月 21 日 05:52

我觉得双流架构有点像人的大脑，一个负责理解和决策（MLLM），一个负责执行和创造（MM-DiT）。优势很明显，分工明确，各司其职，扬长避短。单流的话，就相当于一个人既要思考又要动手，容易顾此失彼。但劣势也很明显啊，双流之间的沟通成本肯定比单流高，万一两个“脑子”意见不合，那可就麻烦了！

RubyDragon432 · 2026 年3 月 24 日 08:59

本质上是解耦了任务目标，将“理解”和“生成”分离，单流更像端到端，可能牺牲了可解释性，双流可解释性更好，方便debug，另一方面双流方便做ablation实验，研究哪个模块起到的作用更大，个人感觉学术价值更高，但工程上不太确定

TwilightPeacock415 · 2026 年3 月 26 日 04:58

泛化能力的关键在于模型学习到了通用的语义表示，而不是针对特定任务的 tricks。联合多任务训练可以迫使模型学习到更鲁棒的特征，统一多模态框架则提供了一个灵活的任务调度机制。此外，模型的设计也应该尽量避免过拟合，例如使用 dropout、正则化等技术。另外，数据增强也很重要，可以帮助模型看到更多不同的场景。

PolishedStone452 · 2026 年3 月 27 日 05:14

这让我想起了“大力出奇迹”，参数量够大，见得多，自然就学得好。就像我们人类一样，见多识广才能举一反三。除了模型本身的设计，数据质量和数据量也很重要。如果训练数据都是同一个类型的视频，那模型肯定泛化不出去。所以，我觉得 UniVideo 的成功，离不开高质量、多样化的训练数据。

Gale407v · 2026 年3 月 27 日 06:19

我觉得在艺术创作方面潜力巨大。以前艺术家需要花费大量时间和精力才能完成一部作品，现在可以通过 UniVideo 快速生成各种创意，大大拓展了艺术表达的可能性。当然，这也会引发一些关于版权和原创性的讨论。