UniVideo:统一视频理解、生成与编辑的多模态框架

滑铁卢大学&可灵联合提出UniVideo,统一视频理解、生成与编辑,无需特定设计即可泛化,性能优异,代码已开源。

原文标题:ICLR 2026|滑铁卢大学联合可灵提出UniVideo:统一视频理解、生成、编辑多模态

原文作者:数据派THU

冷月清谈:

滑铁卢大学与快手可灵团队提出了 UniVideo,这是一个在统一框架下支持视频理解、生成与编辑的多模态生成模型。UniVideo 采用双流架构,结合了多模态大语言模型(MLLM)的指令理解与推理能力,以及多模态扩散 Transformer(MM-DiT)的高质量视觉生成能力。该模型无需额外的任务特定设计,即可泛化到未见过的任务及新的任务组合,并在多项基准上取得接近或超过现有最优方法(SoTA)的性能。UniVideo 通过统一的多模态指令范式与双流架构,实现了视频理解、生成与编辑任务的统一建模,展现了统一多模态建模的扩展性潜力。

怜星夜思:

1、UniVideo 采用双流架构,结合 MLLM 和 MM-DiT 各自的优势。那么,这种双流架构相比于单流架构,在视频生成和编辑任务上能带来哪些具体的优势?是否存在一些潜在的劣势或局限性?
2、UniVideo 宣称可以泛化到未见过的视频编辑指令和新的任务组合。这种泛化能力是如何实现的?除了文中提到的联合多任务训练和统一多模态框架,是否还有其他关键因素?
3、UniVideo 在视频编辑方面表现出色,那么,你认为它在哪些领域具有潜在的应用价值?例如,在影视制作、教育、电商等领域,它可能带来哪些变革?

原文内容

图片
来源:机器之心
本文约2000字,建议阅读5分钟
实验结果表明,UniVideo 在多项定量评测中优于任务特定的单任务方法,并在多数设置下达到或超过当前最优水平。


统一多模态模型在多模态内容理解与生成方面已展现出良好效果,但目前仍主要局限于图像领域。

滑铁卢大学与快手可灵团队提出 UniVideo,一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型。

UniVideo 采用双流架构,将多模态大语言模型(MLLM)的指令理解与推理能力,与多模态扩散 Transformer(MM-DiT)的高质量视觉生成能力相结合。不同于以往依赖任务特定设计或受限于单一模态的方法,UniVideo 能够理解多模态指令、区分不同任务类型,并在多项基准上取得接近或超过现有最优方法(SoTA)的性能。 

更重要的是,UniVideo 无需额外的任务特定设计,即可泛化到未见过的任务及新的任务组合。这意味着,视频生成与编辑不必再被拆分为多个孤立模型,统一建模本身就带来了更强的扩展性。

目前,该工作已被 ICLR 2026 接收,代码已开源。

  • 项目主页:https://congwei1230.github.io/UniVideo/

  • 论文地址:https://arxiv.org/abs/2510.08377

  • 开源代码:https://github.com/KlingTeam/UniVideo

  • 开源模型:https://huggingface.co/KwaiVGI/UniVideo


效果展示

图片

模型架构

UniVideo 由两个核心组件组成:多模态大语言模型(MLLM) 和 多模态扩散 Transformer(MM-DiT)。

  • MLLM 负责多模态指令理解与语义推理,能够接受文本、图像和视频输入,并生成高层语义表示或文本响应。

  • MM-DiT 专注于视觉内容生成,在潜空间中进行条件图像 / 视频建模。


UniVideo 从 MLLM 的最后一层隐藏状态中提取多模态语义特征,这些特征编码了丰富的跨模态语义信息。通过可训练的 MLP Connector,将其对齐并注入到 MM-DiT 的理解流(understanding stream)中,用于高层语义条件建模。同时,视觉信号通过 VAE 编码后输入至 MM-DiT 的生成流(generation stream),以保留细粒度的视觉信息。

这种双流设计同时具备强语义基础与高保真视觉重建能力,对于视频编辑以及需要保持身份一致性的上下文生成任务尤为关键。

统一 10 个多模态任务

UniVideo 将多种视频生成与编辑任务统一到单一的多模态指令范式中,并通过 MLLM + MM-DiT 的双流架构实现灵活的任务调度与生成。

  • 多模态理解(Image / Video → Text,I/V2T)


图像或视频输入由 MLLM 直接处理,并生成对应的文本输出。


  • 文本到图像 / 视频生成(Text → Image / Video,T2I / T2V)


文本指令由 MLLM 编码为语义表示,并作为条件输入,引导 MM-DiT 生成图像或视频内容。


  • 图像到视频生成(Image → Video,I2V)


输入图像与文本指令由 MLLM 联合理解并生成语义条件;同时,图像的视觉信息与视频潜变量一同输入 MM-DiT,以约束并引导视频生成过程。


  • 图像 / 视频编辑(Image / Video Editing,I2I / V2V)


输入图像或视频及编辑指令由 MLLM 解析为语义条件,MM-DiT 在保持原始内容结构的基础上完成条件编辑生成


  • 上下文图像 / 视频生成与编辑(Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V)


在这类任务中,通常存在多个视觉条件(如多张参考图像或参考视频)。所有视觉信号经 VAE 编码后统一填充至相同形状,并沿时间维度拼接,通过自注意力机制进行融合,从而支持 ID 保持和跨上下文生成与编辑。

实验结果

在定量评测中,UniVideo 在各项评测指标上均优于任务特定(task-specific)的基线方法,并在多数实验设置下达到或超过当前最优方法(SoTA)。

下图展示了 UniVideo 在上下文生成与编辑任务上的定量对比结果。

Key Insight:统一模型具备良好的泛化能力

团队从两个方面验证了 UniVideo 统一架构的泛化能力:

(1)对未见视频编辑指令的泛化能力:

尽管 UniVideo 未在 free-form 视频编辑指令数据上进行训练,但通过联合多任务训练,模型成功将图像编辑能力迁移至视频领域,实现了对 free-form 视频编辑指令的泛化。

(2)对新任务组合的泛化能力:

即使在训练阶段未显式包含相关任务组合,UniVideo 仍能够自然泛化到新的任务组合设置,展现出统一多模态框架在组合泛化方面的显著优势。

下图给出了 UniVideo 泛化到视频风格化与环境编辑任务的定性示例:

图片

总结

UniVideo 通过统一的多模态指令范式与双流架构,实现了视频理解、生成与编辑任务的统一建模。实验结果表明,UniVideo 在多项定量评测中优于任务特定的单任务方法,并在多数设置下达到或超过当前最优水平。

更重要的是,UniVideo 可泛化到未见过的视频编辑指令和新的任务组合。这表明,统一多模态建模不仅可行,而且可能是一条更具扩展性的方向。

作者介绍

本文第一作者魏聪,滑铁卢大学博士三年级在读,导师为陈文虎教授。

  • 个人主页:https://congwei1230.github.io/


编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我持谨慎乐观态度。UniVideo 的确降低了技术门槛,人人都能参与创作是好事。但同时也可能导致内容同质化,创意变得廉价。未来的关键在于如何利用 AI 激发更多独特的创意,而不是让 AI 成为批量生产“罐头视频”的工具。如何平衡效率与创新,值得我们思考。

从另一个角度来看,我觉得UniVideo的局限性可能在于其仍然依赖于预训练模型。虽然预训练模型提供了强大的先验知识,但也可能限制了模型的创新能力。 比如,如果预训练模型本身存在偏差,那么UniVideo也会继承这些偏差。此外,预训练模型也可能无法很好地适应一些新兴的任务或领域。 因此,未来的研究可以考虑如何摆脱对预训练模型的依赖,或者如何更好地利用预训练模型的优势,同时避免其局限性。

定量指标确实有局限性。我觉得实际应用中,UniVideo可能面临以下问题:1. 生成视频的真实感:即使指标很高,生成的视频也可能存在一些不自然的artifact。2. 计算资源消耗:双流架构意味着更大的计算量,对硬件要求较高。3. 对复杂指令的理解:对于过于抽象或复杂的指令,模型可能难以准确理解和执行。 4. 伦理问题:AI生成内容可能被用于恶意目的,例如deepfake。总之,实际应用需要综合考虑各种因素,不能只看指标。

我觉得两者都有关系。好的模型设计可以提升模型的泛化能力,但训练数据的多样性也很重要。如果模型只在单一类型的数据上训练,那么它的泛化能力肯定会受到限制。 UniVideo 的泛化能力一部分来源于 MLLM + MM-DiT 的双流架构,这种架构将语义理解和视觉生成解耦,使得模型可以更好地学习到通用的视频编辑规则。同时,UniVideo 在多任务数据上进行训练,也提升了模型的泛化能力。

UniVideo开源绝对是好事,降低了视频创作的技术门槛。以后,小型工作室或者个人开发者也能用上先进的AI技术,创作出高质量的视频内容。一些有创意的想法,比如把自己的宠物变成动画角色,或者把家乡的风景变成科幻场景,都有可能通过UniVideo变成现实。

不过,也要注意,AI生成的内容可能会涉及版权问题。在使用UniVideo创作视频时,要确保素材的版权合法,避免侵权风险。

我猜这个双流架构有点像人的左右脑分工。MLLM负责逻辑推理(左脑),MM-DiT负责图像处理(右脑)。这样做的好处是各司其职,效率高。但是,如果左右脑沟通不好,就会出现理解偏差或者生成错误。比如,让模型把视频里的“白天”变成“黑夜”,结果模型只是简单地把颜色反转了,没考虑到光影变化,那就很尴尬了哈哈!

泛化性是AI模型能否真正落地的关键因素之一。想象一下,如果一个视频编辑模型只能处理特定类型的视频,那它的应用场景就非常有限。UniVideo的泛化性意味着它可以适应各种各样的视频内容和编辑需求,从而具有更广泛的应用前景。

我个人觉得,提升UniVideo在未见任务上的表现,可以尝试引入一些“常识知识”。比如,让模型知道“天空是蓝色的”,“草地是绿色的”等等。这样,在处理一些需要常识推理的任务时,模型就能更加得心应手。

双流架构,MLLM负责指令理解,提供强语义基础,MM-DiT负责视觉生成,保证高保真视觉重建。优势在于能够同时处理高层语义和底层视觉信息,特别是在视频编辑和上下文生成等任务中,既能理解指令意图,又能保持原始视觉细节。局限可能在于,两个模块的训练和对齐可能比较复杂,而且在某些极端情况下,语义和视觉信息可能会冲突,影响最终效果。

举个例子,如果我希望把一个视频里的猫变成老虎,MLLM理解“变成老虎”的语义,MM-DiT负责生成老虎的视觉效果,但如果原始视频中的猫有很多独特的毛发细节,MM-DiT可能难以完全保留这些细节,需要在语义和视觉之间做权衡。

UniVideo的开源,对于视频生成领域来说,肯定是一针强心剂。但是,也要考虑到算力成本。UniVideo这种大型模型,对硬件的要求肯定不低。如果普通用户想要流畅地使用UniVideo,可能需要升级自己的电脑配置才行。或者,可以考虑使用一些云服务平台,它们提供强大的算力支持,可以让你在云端运行UniVideo,实现视频创作。

开源意味着任何人都可以免费使用UniVideo,并在此基础上进行二次开发。这无疑会加速视频内容创作领域的技术创新。我们可以期待更多基于UniVideo的衍生产品出现,比如更易用的视频编辑工具、更智能的视频生成平台等等。

对于普通用户来说,UniVideo的开源也意味着他们可以更容易地接触到AI技术,体验AI带来的乐趣。即使不懂编程,也可以通过一些简单的操作,创作出令人惊艳的视频作品。

提升 UniVideo 在未见任务上的表现,可以借鉴Few-shot learning 的思路。可以考虑使用一些 prompt engineering技巧,构建更有效的 instruction,引导模型生成想要的结果。或者尝试使用一些 meta-learning 的方法,让模型具备快速适应新任务的能力。

@楼上 说得对,感觉现在很多模型都是靠海量数据“喂”出来的,模型结构反而不是最重要的。但是,我还是觉得模型本身的设计也很重要啊!不然为什么有些模型就是比其他模型效果好呢?肯定有什么玄机在里面。

我觉得双流架构有点像人的大脑,一个负责理解和决策(MLLM),一个负责执行和创造(MM-DiT)。优势很明显,分工明确,各司其职,扬长避短。单流的话,就相当于一个人既要思考又要动手,容易顾此失彼。但劣势也很明显啊,双流之间的沟通成本肯定比单流高,万一两个“脑子”意见不合,那可就麻烦了!

本质上是解耦了任务目标,将“理解”和“生成”分离,单流更像端到端,可能牺牲了可解释性,双流可解释性更好,方便debug,另一方面双流方便做ablation实验,研究哪个模块起到的作用更大,个人感觉学术价值更高,但工程上不太确定

泛化能力的关键在于模型学习到了通用的语义表示,而不是针对特定任务的 tricks。联合多任务训练可以迫使模型学习到更鲁棒的特征,统一多模态框架则提供了一个灵活的任务调度机制。此外,模型的设计也应该尽量避免过拟合,例如使用 dropout、正则化等技术。另外,数据增强也很重要,可以帮助模型看到更多不同的场景。

这让我想起了“大力出奇迹”,参数量够大,见得多,自然就学得好。就像我们人类一样,见多识广才能举一反三。除了模型本身的设计,数据质量和数据量也很重要。如果训练数据都是同一个类型的视频,那模型肯定泛化不出去。所以,我觉得 UniVideo 的成功,离不开高质量、多样化的训练数据。

我觉得在艺术创作方面潜力巨大。以前艺术家需要花费大量时间和精力才能完成一部作品,现在可以通过 UniVideo 快速生成各种创意,大大拓展了艺术表达的可能性。当然,这也会引发一些关于版权和原创性的讨论。