提升生成式口语语言模型自然度的变分框架

提出一种端到端变分方法,自动学习编码连续语音属性,增强语义标记表达能力,提升生成式口语语言模型的自然度。

原文标题:【ICML2025】用于提升生成式口语语言模型自然度的变分框架

原文作者:数据派THU

冷月清谈:

本文介绍了一种端到端的变分方法,旨在提升生成式口语语言模型的自然度。该方法通过自动学习编码连续的语音属性来增强语义标记的表达能力,无需人工提取和选择副语言特征。传统方法常采用离散化的语义标记进行语音建模,但忽略了语音中的韵律信息,导致生成语音的自然度较低。虽然添加音高特征有所改善,但其表达能力有限且依赖人工设计。该变分框架能够有效捕捉语音中的连续属性,从而生成更自然的语音延续。实验结果表明,该方法在语音自然度方面表现更优。

怜星夜思:

1、除了音高,你觉得还有哪些语音属性对口语的自然度影响比较大?这些属性又该如何量化并融入到模型中?
2、文章提到使用变分方法进行语音属性的编码,你认为这种方法相比于其他方法(如自编码器、GAN)的优势是什么?又有哪些潜在的局限性?
3、文章中提到模型在语义标记上训练,生成的语音自然度较低,那么是否可以通过改进语义标记的方式来提升语音自然度?如果是,你有什么想法?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
我们提出了一种端到端的变分方法,能够自动学习编码这些连续的语音属性,从而增强语义标记的表达能力。


大型语言模型在文本处理上的成功激发了其在语音建模中的应用。然而,由于语音是连续且复杂的,通常需要离散化以便进行自回归建模。由自监督模型提取的语音标记(称为语义标记)通常聚焦于语音的语言层面,但忽略了韵律信息。因此,在这些标记上训练得到的模型往往生成出自然度较低的语音。已有方法试图通过向语义标记中添加音高特征来弥补这一问题,但音高本身无法完整表达各种副语言属性,且选取合适的特征通常依赖精细的人工设计。

为了解决这一问题,我们提出了一种端到端的变分方法,能够自动学习编码这些连续的语音属性,从而增强语义标记的表达能力。我们的方法无需人工提取与选择副语言特征。此外,根据人类评价者的反馈,该方法生成的语音延续在自然性上更受偏好。代码、样本与模型可在以下地址获取:https://github.com/b04901014/vae-gslm



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


与其改进语义标记,不如换个思路,直接让模型学习从文本到语音的映射。现在有很多端到端的语音合成模型,效果已经很不错了。语义标记可能只是一个中间步骤,可以尝试把它去掉。

我觉得可以尝试使用更细粒度的语义标记,例如包含词性的信息,或者使用更丰富的词嵌入表示。另外,可以考虑引入注意力机制,让模型能够关注到语义标记中与韵律相关的部分。

音高之外,语速、停顿、重音和情感色彩也很重要。可以将语速通过每秒音节数或词数来量化,停顿用时长表示,重音则可以结合音高和能量变化来建模,情感色彩可能得依赖更复杂的声学特征分析或者直接引入情感分类器。

VAE能学到数据的潜在表示,而且它自带一个概率分布,在生成新语音的时候可以采样。但VAE的训练需要仔细调整超参数,而且生成的样本可能不如GAN那么清晰。如果对清晰度要求很高,可能还是得考虑GAN。

我觉得是表达的情感吧,同样的文字,用不同的情绪说出来,给人的感觉完全不一样。是不是可以考虑引入情感识别模块,让模型学习根据文本的情感倾向来调整语音输出?

语义标记的问题在于它更关注语言内容,而忽略了语音的韵律和情感信息。我觉得可以考虑在语义标记中加入一些关于说话风格的标签,比如“正式”、“非正式”、“幽默”等等。或者更进一步,直接使用预训练的语音模型提取更全面的语音特征,代替现有的语义标记。

我感觉除了音高,说话人的口音、方言习惯也很影响自然度,要不然为啥有些AI客服一听就是假的。模型可能需要学习不同口音的特征,或者针对特定方言进行微调。

变分自编码器(VAE)的优势在于其概率生成特性,可以学习到语音属性的潜在分布,从而生成更多样化的语音。而GAN虽然生成效果可能更好,但训练不稳定,而且容易出现模式崩塌。VAE的局限性在于推理时可能存在模糊性,需要仔细设计损失函数和正则化项。

我感觉关键在于VAE能提供一种可控的生成方式,我们可以通过调整潜在变量来控制语音的各种属性。但VAE也有缺点,就是生成的质量有时候不如GAN,可能需要更复杂的模型结构来提升效果。