阿里云通义万相开源首尾帧生视频模型:两张图一键生成高清特效视频

通义万相开源首尾帧生视频模型,上传两张图片即可生成高清特效视频,支持运镜控制,快来体验!

原文标题:通义万相新模型开源,首尾帧图一键生成特效视频!

原文作者:阿里云开发者

冷月清谈:

阿里云通义万相开源了首尾帧生视频14B模型,这是业界首个百亿级参数规模的开源首尾帧生视频模型。该模型允许用户通过指定开始和结束图片,生成一段能平滑衔接首尾画面的720p高清视频,适用于延时摄影、变身等场景,提供了更高的可控性和定制化。用户可以通过上传两张图片,或输入提示词并控制运镜,实现更复杂的视频生成任务。该模型已在通义万相官网、GitHub、Hugging Face、魔搭社区开放体验和下载。通义万相团队通过引入额外的条件控制机制和并行策略,提升了模型在指令遵循、视频一致性和流畅性方面的表现,确保了高分辨率视频生成的效果。此前,通义万相Wan2.1文生视频和图生视频模型也曾获得开源社区的广泛关注。

怜星夜思:

1、通义万相这个首尾帧生成视频的模型,感觉在哪些领域最实用?除了文章里提到的延时摄影和变身,大家还有什么脑洞大开的应用场景吗?
2、文章里提到这个模型可以控制运镜,感觉这个功能怎么样?运镜对视频内容生成有什么影响?
3、通义万相这个模型开源了,大家觉得这对AI视频创作领域会带来什么影响?会不会降低视频创作的门槛,让更多人参与进来?

原文内容

昨晚,通义万相首尾帧生视频14B模型正式开源。


作为业界首个百亿级参数规模的开源首尾帧生视频模型,该模型可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的720p高清视频,满足延时摄影、变身等更可控、更定制化的视频生成需求。


图片


基于该模型,用户上传两张图片即可完成更复杂、更个性化的视频生成任务,并实现同一主体的特效变化、不同场景的运镜控制等视频生成。


用户还可输入一段提示词,通过旋转、摇镜、推进等运镜控制衔接画面,在保证视频和预设图片一致性前提下,让视频拥有更丰富的视觉效果。


图片


模型体验


目前,用户可在通义万相官网直接免费体验该模型,或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。


通义万相官网:https://tongyi.aliyun.com/wanxiang/videoCreation

GitHub:https://github.com/Wan-Video/Wan2.1

Hugging Face:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

魔搭社区:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P


技术解读


首尾帧生视频比文生视频、单图生视频的可控性更高,是最受AI视频创作者欢迎的功能之一,但这类模型的训练难度较大,对模型的指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性等均有高要求。


图片


基于现有的Wan2.1文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换。


在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率视频生成的效果。


今年2月,通义万相Wan2.1文生视频和图生视频模型开源后,迅速登上Hugging Face模型热榜和模型空间榜榜首,其在GitHub已斩获超10k star,模型下载量超过220万,是开源社区热度最高的大模型之一。


效果展示

图片
图片
图片
图片
图片
图片
图片
图片
图片

点击阅读原文,立即生成特效视频!

讲点实际的,电商广告!现在电商都喜欢搞各种产品展示视频,如果能用两张图快速生成一个产品的使用场景视频,那可太方便了。比如,展示一件衣服的上身效果,只需要上传衣服的平铺图和模特穿上后的图,AI自动生成一个模特走秀或者日常穿搭的视频,吸引力直接拉满!而且成本大大降低。

我想到的是一个比较偏艺术的用法,比如设计师或者艺术家可以利用这个模型快速生成一些概念视频,展示作品的演变过程,或者探索不同的设计风格。这样可以省去大量手动制作的时间,快速验证想法,而且效果还挺酷炫的!

我感觉这个运镜控制有点像给AI加了一个“导演”的角色。以前的AI生成视频,就像是“傻瓜相机”,只能机械地填充内容。现在有了运镜控制,就可以让AI有意识地调整画面,突出重点,引导观众的视线,让视频更具表现力。这就像是电影里的导演,通过镜头语言来讲述故事。

从技术角度来说,运镜控制实际上是在引导AI如何填充首尾帧之间的内容。AI需要理解不同运镜方式对应的视觉变化规律,然后在生成视频的时候,模拟出相应的镜头运动效果。这无疑增加了模型的训练难度,但也提升了视频的质量和可控性。所以我认为,运镜控制是AI视频生成技术的一个重要突破。

我个人认为,开源最大的意义在于激发创新。当更多人参与到AI视频创作中来,他们会带来各种各样的创意和想法,推动AI视频技术不断进步。就像现在的短视频平台,正是因为门槛低,才涌现出无数优秀的创作者和作品。我相信,AI视频创作也会迎来一个爆发期!

我觉得开源的影响是多方面的。一方面,确实降低了视频创作的门槛,让更多人可以尝试AI视频。另一方面,也可能会加速AI视频技术的商业化应用。企业可以基于开源模型,开发出各种各样的视频生成工具,满足不同用户的需求。当然,也需要关注版权问题,避免滥用AI生成技术。

运镜控制绝对是这个模型的灵魂!你想啊,同样两张图,不同的运镜方式,出来的效果完全不一样。比如,用一个缓缓推进的镜头,就能营造一种悬念感,吸引人看下去。如果用快速旋转的镜头,那可能就显得比较活泼动感,适合一些快节奏的场景。所以,运镜不仅仅是画面表现,更是情感表达,直接影响视频的叙事效果。

开源绝对是好事!降低门槛是肯定的,以前想玩AI视频,要么有钱买服务,要么有技术自己搞。现在好了,直接下载模型就能用,普通人也能体验AI视频创作的乐趣。而且开源还能促进技术交流,大家一起改进模型,说不定能碰撞出更多意想不到的玩法!

这个问题很有意思!我觉得除了延时摄影和变身,可能在教育领域可以搞点事情。比如,老师可以给学生展示一个植物从种子到发芽的演变过程,只需要提供种子和发芽后的图片,中间过程交给AI生成,形象生动,寓教于乐。或者,帮助孩子们创作自己的故事,提供故事开头和结尾的画面,让AI生成中间的情节,激发他们的想象力!