字节跳动发布 SeedFoley 模型:一键生成电影级视频音效,已在即梦 App 上线

字节跳动发布 SeedFoley 模型,一键为视频生成电影级音效!通过深度融合视频内容与音频生成,显著提升AI视频的质量。「AI 音效」已在即梦上线。

原文标题:字节音效生成模型来了,一键生成大片感音效!已上线即梦

原文作者:机器之心

冷月清谈:

字节跳动豆包大模型语音团队推出了 SeedFoley 模型,这是一种端到端的视频音效生成架构。该模型通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。SeedFoley 模型采用快慢特征组合的视频编码器,以及基于原始波形的音频表征模型,并使用 Diffusion Transformer 框架优化概率路径上的连续映射关系。通过该模型能够精确提取视频帧级视觉信息,精准识别视频中的发声主体及动作场景,智能区分动作音效和环境音效,从而为视频生成专业级的音效。目前,相关功能“AI 音效”已在即梦App上线,用户生成视频后即可一键体验。

怜星夜思:

1、SeedFoley 模型采用端到端架构,这对音效生成的效率和质量有什么影响?相比传统的音效制作方式,这种方式有哪些优势和不足?
2、模型中提到的“快慢特征组合”的视频编码器,以及使用原始波形(raw waveform)作为音频表征模型的输入,分别解决了什么问题?这种设计思路有什么借鉴意义?
3、SeedFoley 模型目前已经上线即梦 App,你觉得这种 AI 音效生成技术,未来在哪些领域会有更广泛的应用?它会如何改变内容创作的方式?

原文内容

机器之心发布
机器之心编辑部

AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。

App 端

Web 端

效果展示

先「听」为快,这里展示了一些 SeedFoley 生成的视频音效效果。





技术方案

SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。

在训练过程,提取语音和音乐相关标签,作为 multi conditions 的形式输入,可以将音效和非音效进行解耦。SeedFoley 能支持可变长度的视频输入,并且在音效准确性,音效同步性和音效匹配度等指标上都取得了领先水平。

图 1:SeedFoley 的模型架构

视频编码器

SeedFoley 的视频编码器,采用了快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过将快慢特征组合,既保留了运动特征,有效降低计算成本。通过这种方式,能在低计算资源性实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后利用 Transformer 结构融合快慢特征,实现视频的时空特征提取。在提升训练效果和训练效率上,SeedFoley 通过在一个批次中引入多个困难样本,显著提升了语义对齐效果,同时使用了 sigmoid loss 而非 softmax loss,能在更低的资源上实现媲美大批次训练的效果。

图 2:SeedFoley 的视频编码器

音频表征模型

对于扩散模型而言,通常采用 VAE 生成的潜在表征(latent representation)作为音频特征编码。与基于梅尔频谱(mel-spectrum)的 VAE 模型不同,SeedFoley 采用原始波形(raw waveform)作为输入,经过编码后得到 1D 的表征,比传统 mel-VAE 模型在重构和生成建模上更有优势。这里,音频采用了 32k 的采样率,以确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,可以有效提升音频在时序上的分辨率,提升音效的细腻程度。

SeedFoley 的音频表征模型采用了两阶段联合训练策略:在第一阶段使用掩码策略,将音频表征中的相位信息进行剥离,将去相位后的潜在表征作为扩散模型的优化目标;在第二阶段则使用音频解码器从去相位表征中重建相位信息。这个做法可以有效降低扩散模型对表征的预测难度,最终实现音频潜在表征的高质量生成和还原。

扩散模型

SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。

在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量;通过通道维度拼接(Channel-wise Concatenation)将二者与时间编码(Time Embedding)及噪声信号进行混合,形成联合条件输入。该设计通过显式建模跨模态时序相关性,有效提升了音效和视频画面在时序上的一致性以及内容的理解能力。

在推理阶段,通过调整 CFG 系数可调整视觉信息的控制强度以及生成质量之间的关系。通过迭代式优化噪声分布,将噪声逐步转换为目标数据分布。通过将人声以及音乐标签进行强行设定,可以有效避免音效中夹杂人声或者背景音乐的可能性,提升音效的清晰度和质感。最后将音频表征输入到音频解码中,得到音效音频。

结语

SeedFoley 实现了视频内容与音频生成的深度融合,能够精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,都能精准卡点,营造出身临其境的逼真体验;另外,SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。

「AI 音效」功能已上线即梦,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。在 AI 视频,生活 Vlog、短片制作和游戏制作等高频场景中,能有效摆脱 AI 视频的「无声尴尬」,便捷地制作出配有专业音效的高质量视频。

团队介绍

豆包大模型语音团队的使命是利用多模态语音技术丰富交互和创作方式。团队专注于语音和音频、音乐、自然语言理解和多模态深度学习等领域的前沿研究和产品创新。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

感觉对影视行业也会有影响,一些预算不高的独立电影或者短片,可以用AI生成音效,降低制作成本。当然,高质量的影视作品可能还是需要专业的音效师,但AI可以作为一种辅助工具,提高效率。

这个设计思路很棒!快慢特征组合解决了时间和计算资源的矛盾,原始波形输入解决了信息损失的问题。借鉴意义在于,我们在设计模型的时候,要充分考虑不同模态数据的特点,选择最合适的表征方式,才能达到最好的效果。避免一上来就堆参数、堆模型,要考虑效率和效果的平衡。

这个快慢特征组合感觉有点像双路CNN,快的提取局部运动信息,慢的提取全局语义信息,结合起来既能把握细节,又能理解整体内容,减少计算量。原始波形作为输入,信息量更大,能保留更多细节,比梅尔频谱更优。

大胆预测一下,会不会出现AI音效素材库?以后大家可以直接购买AI生成的音效素材,就像现在购买图片素材一样。这也会促进更多人参与内容创作,让创作变得更加简单、便捷。

同意楼上的看法,端到端架构确实能提升效率,但是我觉得音效的质量很大程度上取决于模型对视频内容的理解。如果模型对一些比较抽象或者特殊的场景理解不到位,生成的音效可能会显得不够自然或者不符合预期。这可能也是端到端架构的一个不足之处,需要不断优化模型来提升其泛化能力。

除了短视频,我觉得游戏开发、动画制作这些领域肯定也需要。以后可能每个人都能成为音效师,只要有想法,就能用AI快速生成想要的音效,大大降低了创作门槛。

谢邀,个人认为,端到端架构简化了流程,降低了门槛,能够快速生成音效。优点是快、便宜,缺点是缺乏个性化,可能都是一个模子刻出来的感觉,不够独特。传统音效制作虽然慢,但能根据视频内容进行精细调整,更符合创作者的需求。

端到端架构主要优势在于减少人工干预,整个流程自动化,效率肯定更高。质量方面,如果模型训练得好,效果应该不会差,但是前期可能需要大量数据训练。传统方式虽然更灵活,但对音效师的要求也很高,成本也高,而且效率较低。

快慢特征组合是为了平衡计算成本和信息量。高帧率提取运动信息,但计算量大,低帧率提取语义信息,计算量小。两个结合起来,既能保证精度,又能降低计算成本。这个思路在其他多模态任务中也很有用,比如视频理解、行为识别等。