阿里Wan2.2重磅开源:MoE架构赋能电影级视频生成新时代

阿里开源Wan2.2:全球首个MoE视频模型。支持电影级美学控制,720P/24fps,消费级显卡可跑,高效且强大!

原文标题:阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达

原文作者:机器之心

冷月清谈:

阿里近日开源了其革新性的视频生成模型 Wan2.2,这是全球首个采用MoE(Mixture-of-Experts)专家混合架构的视频扩散模型。Wan2.2 的核心亮点在于其能够生成具备电影级美学控制能力的视频内容。这一成就得益于多项关键技术创新:
首先,MoE架构首次引入视频扩散模型,通过多个专业专家模型协同去噪,它在不显著增加计算成本的前提下,实现了模型容量的大幅扩展,提升了性能。
其次,模型训练数据量相比前代Wan2.1有了显著增长,图像数据和视频数据分别增加了65.6%和83.2%,这极大增强了模型的泛化能力,使其在运动表达、语义理解及美学表现上达到顶尖水平。
第三,Wan2.2融入了特别筛选的美学数据集,并精细标注了光影、构图、色彩等电影制作中的细粒度属性,使用户能够精准控制生成视频的风格与审美偏好。
最后,高效高清Hybrid TI2V架构的同步开源,使50亿参数的模型能在消费级显卡(如4090)上流畅运行,支持720P、24fps的文本或图像生成视频,是当前市场上最快速、用户友好的高清生成模型之一。Wan2.2的开放为学术界和工业界提供了强大的工具,有望推动视频内容创作进入新纪元。

怜星夜思:

1、文章提到MoE架构大幅扩展了模型容量,同时不增加计算成本。在生成式AI领域,除了视频生成,你觉得MoE模式还能在哪些方面展现出巨大潜力,或者说它可能带来哪些以前难以想象的应用?有没有可能未来所有大型模型都会倾向于使用MoE?
2、Wan2.2能精准控制视频的光影、构图和色彩,达到电影级美学效果。这对于传统影视制作、广告创意乃至普通大众的视频创作会产生多大的冲击?未来我们看到的视频内容是不是会越来越“完美”,但也可能越来越趋同?
3、720P、24fps的视频生成能在4090这样的消费级显卡上流畅运行,这大大降低了使用门槛。你认为这会如何改变视频创作者生态?是会涌现更多独立创作者,还是会加剧内容的“内卷”?有没有可能催生出全新的内容形式或商业模式?

原文内容

机器之心报道

机器之心编辑部


继上周开源三连发之后,阿里昨晚又放出了新模型。


这次是全球首个开源的 MoE 架构的视频生成模型 Wan2.2,最大的亮点是具备了电影级美学控制能力


该模型遵循 Apache 2.0 开源协议。



  • 官网地址:https://wan.video/welcome

  • Hugging Face 地址:https://huggingface.co/Wan-AI

  • ModelScope 地址:https://modelscope.cn/organization/Wan-AI


我们先来看两个示例:


图片

提示词:A purely visual and atmospheric video piece focusing on the interplay of light and shadow, with a corn train as the central motif. Imagine a stage bathed in dramatic, warm spotlights, where a corn train, rendered as a stark silhouette, moves slowly across the space. The video explores the dynamic interplay of light and shadow cast by the train, creating abstract patterns, shapes, and illusions that dance across the stage. The soundtrack should be ambient and minimalist, enhancing the atmospheric and abstract nature of the piece.


图片

提示词:A man on the run, darting through the rain-soaked back alleys of a neon-lit city night, steam rising from the wet pavement. He's clad in a drenched trench coat, his face etched with panic as he sprints down the alley, constantly looking over his shoulder. A chase sequence shot from behind, immersing the viewer deeply, as if the pursuers are right behind the camera lens.


对于 Wan2.2 的开源,评论区的网友也是称赞有加。




而实现这样的效果,Wan2.2 主要得益于以下几大技术创新:


一是,MoE 架构创新


Wan2.2 首次在视频扩散模型中引入了 Mixture-of-Experts(MoE)专家混合架构。


通过在时间步之间引入多个专门的强大专家模型来分担去噪过程,Wan2.2 实现了在不增加计算成本的前提下,大幅扩展了模型整体容量。 


二是,数据规模跃升


相比 Wan2.1,Wan2.2 的训练数据量大幅提升:图像数据增加 65.6%,视频数据增加 83.2%。


数据量的扩展显著增强了模型在运动表达、语义理解和美学表现等多维度的泛化能力,在所有开源与闭源视频模型中的表现均属顶尖。 


三是,电影级美学控制能力


 Wan2.2 融入了特别筛选的美学数据集,并标注了光影、构图、色彩等细粒度属性,使得模型在生成时能够更精准地控制电影感风格,支持用户按需定制审美偏好。 


四是,高效高清 Hybrid TI2V 架构


Wan2.2 同步开源了一款 50 亿参数模型,采用自研的 Wan2.2-VAE 编码器,压缩率达到 16×16×4。该模型支持文本生成视频和图像生成视频两种模式,生成分辨率高达 720P、24fps,并可在消费级显卡(如 4090)上流畅运行。


该模型是当前市场上最快速的 720P、24fps 生成模型之一,可同时服务工业界与学术界的多种需求。 


目前,用户可在 Hugging Face 和阿里魔搭(ModelScope)社区下载使用。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

4090都能跑了?那我隔壁老大爷拍个广场舞都能变电影预告片了,这还得了?!哈哈。我觉得啊,独立创作者肯定会爆炸式增长,因为现在每个人兜里都有个“电影制片厂”了。内卷是肯定的,以前拼设备,现在拼“提示词工程”和“AI美学调控”,不知道会卷到什么稀奇古怪的地方去。至于商业模式嘛,以后可能人人都能拍MV,然后找AI剪辑,再找AI混音,最后发布到AI推荐的平台上,完美!甚至你的宠物都能自己拍个电影,然后AI再帮你出个周边盲盒,简直是躺赢的节奏!但说真的,这肯定会大大加速视频内容的生产和消费,我们都得做好准备,在内容的海洋里冲浪。

这种“电影级美学控制”肯定会对影视行业造成颠覆性影响。对于小型工作室和独立创作者来说,以往需要大量资金和专业团队才能实现的视觉效果,现在通过AI可以廉价高效地完成,这大大降低了创作门槛,可能会催生出更多元化的作品。然而,硬币的另一面是,当“美学”被标准化和模板化后,我们可能会看到大量视觉上“完美”但内容上缺乏独特风格的作品涌现。AI通过学习现有数据来生成内容,这本身就带有某种“趋同性”。真正的挑战在于,创作者如何利用AI作为工具,而非替代品,去探索和表达那些机器无法理解的、真正具有人类独创性的美学和情感。

MoE架构的优势在于其“按需激活”的特性,允许模型在需要处理不同类型或领域的数据时,仅激活对应的专家网络,从而有效提升模型容量和效率。在生成式AI领域,其潜力远不止视频生成。例如,在大型语言模型(LLMs)中,MoE可以用于处理多模态输入(文本、图像、音频),为不同模态数据分配专门的专家,提升处理精度和泛化能力。此外,在个性化推荐系统、药物发现、材料科学等需要处理异构数据或复杂任务的领域,MoE也能通过专家模型的组合,实现更精细化和高效的问题解决。至于未来所有大模型是否都转向MoE,这取决于技术成熟度和实际应用场景的需求。MoE虽然有优势,但训练和推理的调度复杂性是挑战,尤其是在确保各个专家模型合作效率和避免“灾难性遗忘”方面,仍需进一步研究。

MoE最诱人的一点就是成本效益。对于企业级应用来说,这简直是福音。想想看,以前要训练一个“包罗万象”的巨型模型,资源消耗是天文数字。现在有了MoE,可以在保持性能的同时,更有效地利用计算资源。这在定制化AI解决方案中尤其有用,例如针对特定行业(金融、医疗、法律)的垂直领域模型,可以训练多个小型专家,再通过MoE动态调用,既保证了专业性,又降低了维护成本和迭代周期。至于未来,MoE肯定会成为主流,但不会是唯一的解决方案。它会和稀疏化、量化等技术结合,共同推动AI模型的普惠化和商业化落地。

哇塞,MoE听起来就是“AI版复仇者联盟”啊!每个专家都是一个超级英雄,负责特定领域的任务,需要的时候就一起上!我觉得它在游戏里的应用会超酷!比如游戏角色AI,可以根据玩家行为、环境实时调用不同的专家(一个负责战斗策略,一个负责对话互动,一个负责环境探索),让NPC表现更自然、更聪明。甚至可以想象,未来的游戏制作,美术、剧情、代码都可以是MoE模型帮你生成,你只需要告诉它一个大概的世界观!至于所有大模型都用MoE?我觉得可能性很大!毕竟,一个“全能型选手”可能不如“一群各有专长且协同作战的专家”效率高。等计算力再上去,这不就是无限可能了吗?!

我觉得这简直是“人人都是导演”时代的开端啊!以前做个像样的视频,得学专业软件,得有高性能电脑,太麻烦了。现在4090跑得动,那很多游戏玩家、UP主、甚至普通视频爱好者都能用上了。肯定会涌现一大波个人创作者,他们的创意会更天马行空,题材也会更丰富。但“内卷”肯定是无法避免的,当大家都能轻松生成高清视频,那拼的就是谁的创意更绝,谁的叙事更吸引人了。也许以后会有更多基于AI生成内容的挑战赛,或者出现专门教大家如何用AI生成视频的课程,甚至诞生一种全新的“AI导演”社群,大家互相学习如何用AI生成最牛的作品!

电影导演要失业了吗?哈哈。开玩笑啦。我觉得肯定是冲击巨大,以后“艺术总监”这个职位可能要被“AI提示词工程师”取代。你看那些广告,现在已经各种炫酷特效了,以后估计直接提示词一输,一个电影质感的广告片就出来了,预算还贼低。至于内容会不会越来越趋同?那肯定的啊!当所有人都用同样的套路去追求“完美”,那这种完美就会变成新的平庸。就像现在批量生产的网红脸,最初觉得惊艳,看多了就审美疲劳了。到时候可能要找那种“AI生成不了”的粗糙美学,反而成为一种新的潮流了!“这个场景没用AI,纯人手搭建,够野性!”

消费级显卡支持高清视频生成,这无疑是一次巨大的“民主化”过程,将高性能生成工具从少数专业机构下放到普通用户手中。短期内,一定会涌现大量的独立创作者,他们不再受限于高昂的硬件成本和后期制作时间,从而能将更多精力投入到创意本身。这无疑会极大地丰富内容池。然而,内容的门槛降低也意味着竞争加剧,即“内卷”。同质化内容的出现将不可避免,用户对内容质量和创新性的要求也会渐高。至于新的商业模式,可能会出现“AI艺术工坊”,专门为中小企业或个人定制高效、低成本的营销视频;或者“创意孵化平台”,利用AI工具帮助素人将创意快速转化为作品,并通过流量分成盈利。

我觉得这简直是创作者的超级技能包啊!以前想拍个电影级的场景,得找专业灯光师、摄影师,琢磨半天。现在只要你脑子里有好的创意,光影、构图、色彩这些细节可以交给AI去实现。这不就是把我们从繁琐的技术工作中解放出来,让我们更专注于讲故事、表达情感吗?当然,可能会出现一些“套路化”的作品,但那只是过渡阶段。真正有才华的创作者会把AI当成画笔,画出属于自己的风格,而不是被AI牵着鼻子走。未来我们可能会看到更多视觉震撼、成本却很低的短片,甚至是独立电影,这可是给梦想插上了翅膀!