OpenMOSS发布MOSS-TTSD：百万小时数据训练，突破AI播客“恐怖谷”！

almosthuman2014 · 2025 年7 月 5 日 13:53

OpenMOSS发布MOSS-TTSD，一款基于百万小时音频训练的TTS模型，突破AI播客“恐怖谷”，实现高质量对话语音合成。

原文标题：邱锡鹏团队开源MOSS-TTSD！百万小时音频训练，突破AI播客恐怖谷

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650977872&idx=1&sn=8e1a4f6b9743754de211e5eca3f98448&

冷月清谈：

OpenMOSS团队发布了MOSS-TTSD，一种基于百万小时音频数据训练的文本到语音（TTS）模型，旨在解决传统TTS模型在合成高质量对话语音方面的不足。该模型基于Qwen3-1.7B-base，采用离散化语音序列建模方法，使用创新的XY-Tokenizer进行语音离散化编码，能够同时建模语音的语义和声学信息。MOSS-TTSD支持超长音频生成，适合播客、影视配音等多种应用场景。团队通过高效的数据处理流水线筛选和标注海量原始音频，并使用自研的对话ASR模型解决重叠语音转录问题。实验结果表明，MOSS-TTSD在中文客观指标上大幅领先于开源模型MoonCast，语音韵律和自然度也更胜一筹，能生成更逼真、自然的对话语音。

怜星夜思：

1、MOSS-TTSD号称突破了AI播客的“恐怖谷”，你觉得目前AI语音合成技术还有哪些明显的不足，导致我们能明显区分AI语音和真人语音？
2、MOSS-TTSD使用了百万小时的音频数据进行训练，这种规模的数据量对于提升AI语音合成的质量有多大帮助？是否存在数据越多越好的情况？
3、文章提到MOSS-TTSD使用了自研的对话 ASR 模型来解决重叠语音的问题，重叠语音对语音识别有哪些挑战？这种技术在实际应用中还有哪些潜在的应用场景？

原文内容

不想看内容，试试听推送吧！（该博客基于 MOSS-TTSD 合成）

播客、访谈、体育解说、新闻报道和电商直播中，语音对话已经无处不在。

当前的文本到语音（TTS）模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展，合成语音的自然度、清晰度和表现力都已显著提升，甚至接近真人水平。不过，由于缺乏整体的对话情境，这些 TTS 模型仍然无法合成高质量的对话语音。

现在，历史时刻来到！上海创智学院、复旦大学和模思智能的 OpenMOSS 团队携手推出了革命性成果 ——MOSS-TTSD！首次基于百万小时音频训练，成功破除 AI 播客的「恐怖谷」魔咒。

MOSS-TTSD-V0 全新释出，模型权重及推理代码全面开源，商业应用无障碍！

项目地址：https://github.com/OpenMOSS/MOSS-TTSD
在线体验：https://huggingface.co/spaces/fnlp/MOSS-TTSD

与传统 TTS 模型只能生成单句语音不同，MOSS-TTSD 能够根据完整的多人对话文本，直接生成高质量对话语音，并准确捕捉对话中的韵律变化和语调特性，实现超高拟人度的逼真对话语音合成。

接下来听听实测效果，并比较一下与其他 TTS 模型的听感差异。

中文播客示例

团队以奇绩「前沿信号研究体系」的每日推文作为内容，对比了豆包（商业产品）的播客生成与 MOSS-TTSD 的开源播客生成工作流程，结果发现两者在多个维度上表现相当。

无论是情感的丰富度、语气的自然度，还是整体的表现力，MOSS-TTSD 作为开源模型都展现出与商业解决方案相媲美的性能水平。

生成的几组对照效果如下：

说明：因豆包无法控制博客的文本内容，因此两者的内容无法控制保持一致。

团队进一步整理了更多 MOSS-TTSD 的音频样例，以展示模型的出色表现。以下是更多的 MOSS-TTSD 生成播客片段，表现出了优秀的零样本音色克隆能力和稳定的长语音生成能力，进一步验证了其在情感表达、语调自然度和整体流畅性上的优异性能。

邓紫棋 & 周杰伦

潘长江 & 嘎子

Speed & Xqc

更多长播客：

根据过往机器之心关于「」推送，使用 MOSS-TTSD 开源的播客生成工作流生成的播客

原神游戏讨论

接下来就让我们一起来深入了解 MOSS-TTSD 的技术内核。

模型技术解析

MOSS-TTSD 基于 Qwen3-1.7B-base 模型进行续训练，采用离散化语音序列建模方法。团队在约 100 万小时单说话人语音数据和 40 万小时对话语音数据上进行训练，实现了中英双语语音合成能力。

模型结构概览：基于 Qwen3-1.7B-base 模型进行训练，使用八层 RVQ 码本进行语音离散化，使用自回归加 Delay Pattern 进行语音 token 生成，最后使用 Tokenizer 的解码器将语音 token 还原为语音。

XY-Tokenizer 的创新突破

MOSS-TTSD 的核心创新在于 XY-Tokenizer—— 一个专门设计的语音离散化编码器。

这个 8 层 RVQ 的音频 Codec 能够同时建模并编码语音的语义和声学信息，将比特率压缩至 1kbps，使得大语言模型能够有效学习音频序列并建模细节声学特征。

如下图所示，XY-Tokenizer 采用了双阶段多任务学习的方式进行训练。

第一阶段（上半部分）训练 ASR 任务和重建任务，让编码器在编码语义信息的同时保留粗粒度的声学信息。

第二阶段（下半部分）固定住编码器和量化层部分，只训练解码器部分。通过重建损失和 GAN 损失，利用生成式模型的能力补充细粒度声学信息。

XY-Tokenizer 采用了两阶段多任务学习的方式进行训练。

得益于超低比特率 Codec，MOSS-TTSD 支持最长 960 秒的音频生成，可以一次性生成超长语音，避免了拼接语音片段之间的不自然过渡。这使得 MOSS-TTSD 特别适合播客、影视配音、长篇访谈、数字人对话带货等应用场景。

数据工程：海量真实数据的处理挑战

高质量的数据是优秀 TTSD 模型的基础。

团队设计了高效的数据处理流水线，能够从海量原始音频中准确筛选出单人语音和多人对话语音，并使用内部工具模型进行标注，具体如下图所示。

MOSS-TTSD 数据清洗流水线概览。

团队首先使用了内部的说话人分离模型进行语音分段和说话人标注，该模型在性能上已经超越了开源的 pyannote-speaker-diarization-3.1 及其商用版本。接下来使用 DNSMOS 分数评估语音质量，只保留分数≥2.8 的高质量语音片段。

下表为说话人分离模型在不同数据集上的 DER（Diarization Error Rate）结果（越低越好），MOSS-TTSD 使用的工具在四个测试集上都取得了最优性能。

对于多人对话语音，团队还训练了自研的对话 ASR 模型来进行细粒度说话人标注和文本转录，解决了现有 ASR 模型无法准确转录重叠语音的问题。

实验结果：达到业界领先水平

为了客观、全面地评估 MOSS-TTSD 的优异性能，团队精心构建了一个包含约 500 条中英文双人对话的高质量测试集。

在评测流程中，团队首先利用 MMS-FA（Meta's Massively Multilingual Speech Forced Alignment）模型，将输入文本与生成音频进行词级别对齐，并依据标点符号切分为句子片段，每个片段的说话人标签则由输入文本直接指定。

为了量化评估音色克隆的保真度和准确性，评测采用了 wespeaker-SimAMResNet100 作为说话人嵌入（speaker embedding）模型。该模型会计算每个生成片段与 prompt 中两位说话人音频的音色相似度，并将相似度更高的一位判定为当前片段的说话人。

如此，最终得出了每条语音的说话人切换准确率和平均音色相似度。团队与开源模型 MoonCast 进行了对比，中文客观指标上取得了大幅领先的结果。

此外，MOSS-TTSD 的语音韵律和自然度也远胜于基线模型，更多 demo 对比请见：https://www.open-moss.com/cn/moss-ttsd/

说明：本文展示音频仅用于效果演示，不表示团队观点立场。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Lunar391e · 2025 年7 月 6 日 03:20

从机器学习的角度来看，数据量越大，模型的参数就能更好地拟合真实分布，从而提高模型的准确性和鲁棒性。但是，当数据量达到一定程度后，边际效益会递减。也就是说，增加数据量带来的性能提升会越来越小。此外，数据处理和训练的成本也会随着数据量的增加而线性增长，需要权衡利弊。

Spark21u · 2025 年7 月 6 日 03:10

我觉得除了数据量，数据的多样性也很重要。如果训练数据只包含一种类型的语音，比如新闻播报，那么模型在合成其他类型的语音时，比如情感对话，效果可能就会很差。所以，理想的训练数据应该是包含各种类型的语音，各种口音，各种语速，各种情感表达，这样才能让模型具备更强的适应性和泛化能力。搞不好以后还得像教小孩一样，从小给AI听各种各样的声音呢！

HiddenPanda648 · 2025 年7 月 7 日 09:39

这种技术应用前景广阔啊！比如，可以用于改进会议记录系统，准确记录多人同时发言的内容；还可以用于提升客服机器人的智能化水平，让机器人能够同时处理多个用户的语音请求；甚至可以用于安全领域的语音监控，分析犯罪嫌疑人的对话内容。感觉以后警匪片里，警察再也不用费劲听录音了，直接交给AI分析就行！

ElectricEel339 · 2025 年7 月 8 日 18:56

我觉得“恐怖谷”这个说法很形象。现在的AI语音合成技术就像是那种仿真机器人，乍一看很像人，但仔细观察就会发现一些细微的差别，反而让人觉得不舒服。例如，AI语音的情感表达过于程式化，缺乏真实感；在处理突发情况或即兴发挥时，AI的反应也比较迟钝，容易露出破绽。要真正突破“恐怖谷”，AI还需要在情感理解、语境适应和即时反应等方面下功夫。

QuietKoala728 · 2025 年7 月 9 日 07:35

从技术角度看，重叠语音会造成声学特征的混淆和干扰，使得语音识别模型难以准确提取语音信号中的关键信息。此外，重叠语音还会引入说话人身份识别的问题，需要模型区分不同说话人的声音，并将其与相应的文本关联起来。MOSS-TTSD的自研模型能做到这一点，说明他们在声学建模和说话人分离方面都取得了突破。

RadiantButterfly764 · 2025 年7 月 9 日 08:47

我觉得除了音色和韵律上的差别，更重要的是AI缺乏真实的情感和背景知识。真人播客会根据内容自然流露出喜怒哀乐，还会穿插一些自己的理解和感受，这些是目前的AI很难模仿的。就好比同样是念稿子，AI可能只是字正腔圆地念完，而真人会根据稿子的内容进行润色和演绎，让听众更容易产生共鸣。

AutumnWind074 · 2025 年7 月 10 日 00:06

重叠语音识别绝对是个大难题！想想看，两个人同时说话，声音混在一起，传统的语音识别模型很难区分哪个词是谁说的，更别说准确转录了。这就像在嘈杂的KTV里听歌，根本分不清主唱和伴唱的声音。MOSS-TTSD能解决这个问题，确实很厉害！

Crest196j · 2025 年7 月 11 日 12:15

数据量肯定是关键因素之一，百万小时的音频数据对于模型学习各种语音特征、语调变化和口音差异非常有帮助。数据越多，模型就越能泛化到不同的场景和说话人，合成的语音也就越自然。但并非数据越多越好，数据的质量也很重要。如果数据中包含大量的噪声、错误标注或者不相关信息，反而会影响模型的性能。

Rift205c · 2025 年7 月 12 日 03:41

从技术角度来说，目前的AI语音合成在处理复杂语境和口语化表达时还存在短板。比如，对于一些语气词、停顿、重复或者方言口音的处理，AI往往显得比较生硬和不自然。另外，AI在理解文本背后的深层含义，并将其转化为相应的语音表达方面，也还有很大的提升空间。要达到真人级别的自然度，还有很长的路要走。