谷歌Veo 3发布:首次实现AI视频音画同步,让视频模型“开口说话”

谷歌Veo 3首次实现AI视频音画同步,让AI不仅能“看懂”物理世界,还能“听懂”和“会说”,标志着AI视频进入“视听一体”时代。

原文标题:真碾压Sora了!谷歌Veo 3首次实现音画同步,视频模型直接「开口说话」

原文作者:机器之心

冷月清谈:

谷歌发布了新一代AI视频模型Veo 3,该模型最大的亮点在于首次实现了音画同步,能够根据视频内容自动生成对白和音效。此前,AI视频模型普遍存在“哑巴”问题,无法生成与画面同步的声音。Veo 3通过DeepMind的V2A技术,能够理解视频中的原始像素,并结合文本提示生成匹配的音频,包括对白、动作音效、环境音等。在演示中,Veo 3展示了其在生成包含对白的情景喜剧、游戏直播、音乐视频等多种类型视频方面的强大能力,并且能够精准地实现唇动同步和情绪音效渲染。此外,Veo 3在理解长提示词和生成连贯事件流方面也表现出色。目前,Veo 3仅面向美国Ultra订阅用户开放,视频时长限制为8秒。尽管如此,Veo 3的发布标志着AI视频进入了“视听一体”的新阶段。

怜星夜思:

1、Veo 3的音画同步技术,除了在娱乐视频制作方面,你认为在哪些领域有潜在的应用价值?
2、Veo 3目前仅支持8秒的视频生成,你认为限制视频时长的主要技术瓶颈是什么?未来AI视频模型在时长上会有哪些突破方向?
3、文章提到Veo 3使用了DeepMind的V2A技术,你认为这种从视频像素直接生成音频的技术,未来会如何影响音频制作行业?

原文内容

机器之心报道

编辑:Sia


还记得 2023 年 AI 视频最出圈的片段吗?威尔·史密斯吃面,动作鬼畜,画面寂静——


图片

当时的视频大模型,只会动,不会说话。

Sora 的发布让视频质量飞跃、物理规则建模进步巨大,也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、谷歌、阿里、字节等科技巨头,纷纷入局。

但无论画质如何进步,视频还是「哑巴」——

你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒菜时锅里的滋滋声?

对不起,还得自己导音频。

更麻烦的是,配完音还可能对不上节奏——口型和对白不同步,脚步踩不到点上,情绪氛围总差一口气。

直到今天,谷歌正式发布 Veo 3。AI 视频,终于能「开口说话」了——

图片

Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。

翻译成中文——

只用一个提示词,你就能得到画面+对白+唇动对齐+拟音音效一气呵成的视频。


提示语:90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 「fofr」。一对夫妇说了些什么,观众大笑起来。

对白生成、唇动对齐和情绪音效(观众笑声),一气呵成

提示语:一位游戏主播(streamer)只用他的镐子(pickaxe)赢得了「 Victory Royale」。

生成出的内容是完整直播风格视频,还带着夸张的欢呼与音效,画面有声有色

尽管凌晨才发布,Veo 3 已在社交网络掀起热潮,多个视频动辄数十万次播放,令人惊叹不已。

雪地步伐清晰传来咯吱声,鸭子嘎嘎叫,烹饪滋滋作响,撒胡椒声......

得益于模型对物理世界的深刻理解,所有声音非后期拼接,而是与画面实时同步生成。


Veo 3 还能精准捕捉画面情绪,渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫,逼真到让人有点毛骨悚然。

提示词:a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"

至于对口型,Veo 3 也表现突出:无论是脱口秀现场讲笑话,还是说唱音乐视频中的节奏口型,都能精准同步,真实感爆棚。

提示词:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue)

提示词:a man in a music video raps to the camera about generating videos with Veo3

生成歌剧和音乐会视频,成为检验 Veo 3 音画同步水平的高频场景。

这个视频里,鼓手的每一次击打动作都与鼓点节奏完美同步,与歌手表演同步,展现了模型在复杂多声音动态场景下出色的音画合成能力。


支持多角色、多种风格的创作视频,虚拟人物演技不比《演员请就位》强多了?


长提示词理解与事件流生成方面,Veo 3 同样出色

以前视频模型提示词一长就容易崩。

但 Veo 3 能理解长句子,完成一个完整、时间有序、逻辑清晰的小片段。

来看这个视频。

提示词:黎明时分,一位男士在美丽的夏日公园里奔跑,他上气不接下气,然后放慢速度,看着镜头,气喘吁吁地说:「用 API 运行 AI。使用 Replicate。」然后他继续跑。最后,「Replicate」的字样渐渐消失在视野中。

包含动作变化、对白插入、镜头切换、logo 渐隐……

多步骤连贯执行,事件流准确,效果不错:


音画同步生成,直接把视频模型拉到了新时代 。而其中关键能力,离不开 DeepMind 过去就悄悄铺下的一项底层技术:V2A( Video-to-Audio )

2023 年 6 月,DeepMind 就首次披露:

他们正开发一套 AI 系统,能从视频像素 + 文本提示中,自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……

它的原理是:将视频视觉信息编码为语义信号,与文本提示一同输入扩散模型,生成匹配的音频波形。

可以说,V2A 就是 Veo 3 的「耳朵」和「声带」。再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一—— Veo 3 的音画合成功能,已经遥遥领先。

一个小遗憾:视频仍只有 8 秒。

另外,目前 Veo 3 仅面向美国 Ultra 订阅用户开放,定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。


虽然门槛不低、时长有限,但 Veo 3 的初次亮相,已足够震撼。

过去生成式 AI 是「语言+图像」的时代,现在,正在进入「视听一体」的新阶段。

生成视频从会动 → 能说 → 有氛围,一步步突破不同模态的边界。

如果说 Sora 是让 AI 看懂物理世界,那 Veo 3,就是让 AI 能「听懂」,「会说」。

看来,音画一体,将是下一轮视频模型竞赛的标配。


© THE END  
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

V2A这种技术简直是音频行业的颠覆者!以后可能不需要专业的音效师和配音演员了,只要给AI一段视频,它就能自动生成匹配的音频,这绝对会大大降低音频制作的门槛。当然,短期内可能还是会应用于一些低成本的视频制作,比如短视频、广告等,但长期来看,可能会对电影、游戏等行业的音频制作产生深远影响。

影响肯定是有的,但我觉得没必要太悲观。毕竟,AI再厉害,也无法完全取代人类的创造力和情感。V2A这种技术,更像是给音频制作行业提供了一个新的工具,让人们可以更高效地完成一些重复性的工作,从而把更多精力投入到更有创意的事情上。所以,未来的音频行业,可能会呈现出一种人机协作的新模式。

我也同意算力是关键因素。但我觉得,除了算力,训练数据的质量和规模也很重要。要想生成更长的视频,模型需要学习更多真实世界的规律和细节,这需要海量的、高质量的视频数据来支撑。所以,数据增强、自监督学习等技术,可能会在未来的时长突破中发挥重要作用。

我觉得V2A对音频制作行业的影响是双面的。一方面,它确实会降低一些简单音频制作的成本和门槛,让更多人能够参与到内容创作中来。但另一方面,它也会让专业的音效师和配音演员面临失业的风险。所以,音频行业需要积极拥抱这种新技术,探索新的发展方向,比如专注于创意性的音频设计、高品质的音频制作等。

别忘了广告行业!Veo 3的音画同步能力,绝对能让广告创意如虎添翼。想想看,以前制作广告需要耗费大量时间和精力进行后期配音和特效合成,现在有了Veo 3,可以直接通过简单的提示词生成高质量的广告视频,大大降低了制作成本,提高了效率。这对于中小企业来说,简直是福音!

视频时长确实是个大问题。个人觉得,模型要处理的计算量随着时长呈指数级增长,这可能就是主要瓶颈。毕竟要把每一帧都生成得高清逼真,还要保证音画同步,对算力的要求太高了。未来的突破方向可能是模型架构的优化,比如引入更高效的Transformer结构,或者采用分段生成、逐步精细化的策略。

这个问题很有意思!我觉得Veo 3的技术在教育领域潜力巨大。比如,它可以用来生成带有讲解和示范的教学视频,让学习过程更加生动直观。想象一下,历史事件的重现、科学实验的演示,都能通过这种方式栩栩如生地呈现出来,绝对能提升学生的学习兴趣和效果。

我倒是觉得在医疗领域的应用前景也很广阔。比如,医生可以用它来制作手术过程的模拟视频,方便医学生学习。或者,为听障人士生成带有手语翻译的视频,帮助他们更好地获取信息。这种技术的进步,真的能为特定人群带来便利。

与其说技术瓶颈,不如说这是个工程问题。算力不够?那就堆机器呗!数据不足?那就想办法爬呗!但要我说,更重要的是找到一个平衡点。现在追求的都是高清、逼真的效果,但如果牺牲一些画质,换来更长的时长,说不定用户更喜欢。所以,未来的突破方向可能是朝着低成本、轻量级的方向发展,让更多人都能用得起AI视频生成。