B站IndexTTS-2.0：零样本TTS迈入情感与时长双控新时代

almosthuman2014 · 2025 年9 月 18 日 12:29

IndexTTS-2.0实现精准时长与情感控制，开启AI语音合成新纪元，助力B站内容出海！

原文标题：B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650991575&idx=4&sn=e77b6125d0bd33cdeff9d007851e56ef&

冷月清谈：

文章介绍了B站最新开源的文本转语音模型IndexTTS-2.0，解决了传统自回归（AR）TTS模型在韵律自然度与精准时长控制之间难以平衡的难题。该模型创新性地提出了“时间编码”机制，首次在AR框架下实现了精确的语音时长控制。同时，它还引入了音色与情感的解耦建模，支持通过独立参考音频、情感向量或自然语言描述来灵活控制语音情绪，极大地提升了情感表现力。IndexTTS-2.0由Text-to-Semantic、Semantic-to-Mel和BigVGANv2声码器三大模块组成，能够在零样本条件下生成自然流畅、情感丰富、跨语言的语音。实验证明，该模型在时长控制精度、情感表现力及零样本合成能力上均全面超越现有SOTA系统。其工业级性能使其广泛适用于AI配音、视频翻译、有声读物等多种应用场景，尤其为B站内容出海提供了强有力的技术支撑，标志着零样本TTS技术进入了“情感可控 + 时长精确”的双维度时代。

怜星夜思：

1、IndexTTS-2.0 号称把 AR 模型和精准时长控制结合起来了，那是不是以后我们就不用纠结选 AR 还是 NAR 了？对未来语音合成技术路线会有什么大的影响吗？
2、这个模型能把音色和情感都做得很真，还支持独立控制，听起来很强大也很酷。但话说回来，会不会被一些不怀好意的人拿去搞“声音诈骗”或者制造假新闻啊？我们普通人咋辨别真伪？
3、B站有了 IndexTTS-2.0 这把“秘密武器”，内容出海肯定更方便了。对于咱们普通内容创作者来说，这个技术能给咱们带来哪些实际的好处，或者说，你最希望用它来做点什么新东西？

原文内容

最近在 B 站上，你是否也刷到过一些 “魔性” 又神奇的 AI 视频？比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音色，连情感和韵律都做到了高度还原！更让人惊讶的是，它们居然全都是靠 AI 生成的！

英文版甄嬛传他来了

让坦克飞

B 站开源 index-tts-2.0 长视频测试，效果真的强，曹操大战孙悟空

如果让 AI 开中文苹果发布会，indextts2 效果展示

据悉，这些视频都是运用了哔哩哔哩 Index 团队最新开源的文本转语音模型 IndexTTS-2.0, 这一模型从 demo 发布起，就在海内外社区引发了不少的关注。目前该工作在 Github 已超过 10k stars 。

论文标题：IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
论文链接：https://arxiv.org/abs/2506.21619
github 链接：https://github.com/index-tts/index-tts
魔搭体验页：https://modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo
HuggingFace 体验页：https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo
官宣视频：https://www.bilibili.com/video/BV136a9zqEk5/

近年来，大规模文本转语音（Text-to-Speech, TTS）模型在自然度和表现力上取得了显著进展，但如何让语音「在韵律自然的同时，又能严格对齐时长」仍是悬而未决的难题。传统自回归（Autoregressive, AR）模型虽然在韵律自然性和风格迁移上占优，却难以做到精准时长控制；而非自回归（Non-Autoregressive, NAR）方法虽能轻松操纵时长，却往往牺牲了语音的自然感和情绪表现力。如何在保留 AR 模型优势的同时，突破其核心限制，成为了前沿挑战。

来自哔哩哔哩的 IndexTTS 团队创新性地提出了一种通用于 AR 系统的 “时间编码” 机制，首次解决了传统 AR 模型难以精确控制语音时长的问题。这一新颖的架构设计不仅解决了时长控制问题，更引入了音色与情感的解耦建模，实现了前所未有的情感表现力和灵活控制，在多个指标上全面超越现有 SOTA 系统。

研究方法

IndexTTS2 由三个核心模块组成：Text-to-Semantic（T2S）、Semantic-to-Mel（S2M）以及 BigVGANv2 声码器。首先，T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音 token 数，生成对应的语义 token 序列。然后，S2M 模块以语义 token 和音色提示作为输入，进一步预测出梅尔频谱图。最后，BigVGANv2 声码器将梅尔频谱图转换为高质量的语音波形，完成端到端的语音合成过程。

IndexTTS2 可以在零样本条件下生成自然流畅的多情感、跨语言语音。它还支持在自回归框架下精确控制语音时长，让合成既可控又不失自然。同时具备工业级性能，既适合研究探索，也能直接应用到实际场景中。

1、基于 AR 架构的时长控制

在 IndexTTS2 中，针对自回归 (AR) TTS 难以精确控制语音时长的问题，提出了基于 token 数量约束的解决方案。核心思路是：在生成时可以指定所需的语义 token 数，模型通过一个专门的时长 embedding 将这个信息注入到 Text-to-Semantic 模块，通过对合成 token 的数量强约束来实现生成语音时长控制。训练阶段随机引入不同比例的信号层时长缩放 (如 0.75×、1.25×) 任务，使模型可以学会在各种长度要求下仍然保持语义连贯和情感自然。

实验表明，这种方法在不同语言（中 / 英）上的 token-number error rate 非常低，即模型几乎能严格按照指定的 token 数量生成语音，同时在合成质量、情感保真度和自然度上保持较好表现。换句话说，IndexTTS2 实现了在 AR 模型中罕见的高精度时长控制，使其既能保持逐帧生成带来的细腻表达，又能满足视频配音、音画同步等对时长严格敏感的场景需求。

2、多模态的情绪控制

IndexTTS2 对情感表达和说话人身份进行了有效解耦。模型不仅支持从单一参考音频中复刻音色与情感，还支持分别指定独立的音色参考和情感参考。这意味着用户可以用一个人的音色，说出另一个人的情感，极大地提升了控制的灵活性。

为了降低使用门槛，模型集成了两种情感控制方式。除了通过音频参考进行情感迁移，还引入了基于自然语言描述的情感软指令机制。通过微调大型语言模型（LLM），用户可以使用文本（如自然语言描述、场景描述）来精确引导生成语音的情绪色彩。

3、S2M 模块

为了提升在高强度情感（如哭腔、怒吼）下的语音清晰度，模型引入了 GPT 式潜在表征，并采用基于流匹配（Flow Matching）的 S2M 模块，显著增强了语音生成的鲁棒性和梅尔频谱图的重建质量。

研究结果

1、时长控制的准确性

IndexTTS2 在时长控制方面展现了极高的精确度。在对原始语音时长进行 0.75 倍至 1.25 倍的变速测试中，生成语音的 Token 数量误差率几乎不超过 0.03%，在多数情况下低于 0.02%，证明其时长控制能力精准可靠。

Table 1：不同设置下对持续时长控制的 token 数错误率

2、情感表现力

在情感表现力测试中，IndexTTS2 显著优于其他 SOTA 模型。其情感相似度（ES）高达 0.887，情感 MOS（EMOS）评分达到 4.22，合成的语音情绪饱满、渲染自然，同时保持了极低的词错误率（WER, 1.883%），实现了表现力与清晰度的完美结合。

Table 2：在情感测试集上的结果

3、零样本语音合成能力

在多个公开基准测试集（如 LibriSpeech, SeedTTS）上，IndexTTS2 在客观指标（词错误率 WER、说话人相似度 SS）和主观 MOS 评分（音色、韵律、质量）上均达到或超越了当前最先进的开源模型，包括 MaskGCT, F5-TTS, CosyVoice2 等，展现了其强大的基础合成能力和鲁棒性。

Table 3：在公开测试集上的结果

4、消融实验验证

实验证明，模型中的 GPT 潜在特征对于保证语音清晰度和发音准确性至关重要；而基于流匹配的 S2M 模块相比于传统的离散声学 Token 方案，极大地提升了合成语音的保真度和自然度。

生成效果

语速控制：支持自定义输入合成时长，精准控制语速

音色克隆：同时参考音色和情绪韵律，实现语音特征的高度还原

合成文本：你就需要我这种专业人士的帮助，就像手无缚鸡之力的人进入雪山狩猎，一定需要最老练的猎人指导

多元化的情绪输入：提供独立的情感参考音频、情感向量或文本描述等多种方式，显著提升生成语音的表现力与适用性

独立参考音频控制：

合成文本：你看看你，对我还有没有一点父子之间的信任了。

情绪向量控制：提供高兴、生气、悲伤、恐惧、讨厌、低落、惊喜、平静 8 种情绪向量，支持自由调整情绪权重，并提供随机采样

情绪向量 - 惊喜 0.45

合成文本：哇塞！这个爆率也太高了！欧皇附体了！

描述文本控制：还支持通过自然语言描述来判断情绪

情绪文本 - You scared me to death! What are you, a ghost?

文本：快躲起来！是他要来了！他要来抓我们了！

跨语种：支持中英文双语

合成文本：Translate for me，what is a surprise！

该模型凭借高质量的情感还原与精准的时长控制，广泛提升了 AI 配音、视频翻译、有声读物、动态漫画、语音对话等系列下游场景的可用性，尤其值得关注的是，IndexTTS-2.0 为 B 站优质内容的出海提供了关键技术支持，在充分保留原声风格与情感特质的基础上，让海外用户享受更加自然、沉浸的听觉感受。这一技术突破不仅极大降低了高质量内容跨语言传播的门槛，也为 AIGC 技术在全球范围内的实际应用奠定了坚实基础，堪称零样本 TTS 技术迈向实用化阶段的重要里程碑。

总结

IndexTTS2 的提出标志着零样本 TTS 进入「情感可控 + 时长精确」的双维度时代。它不仅大幅提升了 AI 配音、视频翻译等多种下游场景的可用性，同时，也为未来语音合成技术的发展指明了重要方向：如何在 AR 框架下实现对情感、语调等更复杂语音特征的细粒度控制，并持续优化模型性能，为更广泛的交互式应用提供支持。

研究团队现已开放模型权重与代码，这意味着更多开发者和研究人员能够基于 IndexTTS2 构建个性化、沉浸式的语音交互应用。

作者介绍：

本论文主要作者来自哔哩哔哩 Index 语音团队（Bilibili IndexTTS），Index语音团队是一支专注于音频技术创新的研究团队，致力于音频生成、语音合成与音乐技术的前沿探索，重点研究高保真、自然真实、可控性强的语音生成模型。团队推出的全新一代 zero-shot TTS 自回归大模型 IndexTTS2，具备出色的情感表现力，支持音色与情感的自由组合，并创新性地设计了“时长编码”，实现了模型层面的精准时长控制。团队通过深度学习与神经网络技术的不断突破，持续为学术界与工业界提供高质量的语音合成技术支持与创新方案，助力创作者用声音打破表达边界。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

FieryPhoenix505 · 2025 年9 月 22 日 00:35

哈哈，纠结 AR 还是 NAR？就像当年纠结买燃油车还是电动车。IndexTTS-2.0 出来后，感觉就像是特斯拉发布了‘会自己加油的电动车’，把两个阵营的优点都拿过来了。以后可能不叫 AR 或 NAR 了，直接叫‘万能 TTS’。我只关心它能不能把我的甲方爸爸骂我的语气，用最温柔的方式复述给我的老板。（狗头）

Strider82w · 2025 年9 月 23 日 08:19

关于 IndexTTS-2.0 这项技术，我觉得它确实极大地弥补了 AR 模型在时长控制上的短板。这并不意味着 NAR 模型会完全消亡，而是说明了通过创新可以融合不同架构的优势。未来趋势可能是 Hybrid (混合) 模型，或者更智能的框架能够根据具体应用场景，在 AR 的高自然度与 NAR 的高效率之间做动态平衡。纯粹的 AR 或 NAR 可能会逐步演变为特定任务的优化方案，通用且高性能的模型将更倾向于集成多种优势。

RubyDragon432 · 2025 年9 月 23 日 19:17

楼上的说得挺有道理。作为使用者，我更关心的是便利性。如果一个模型能同时搞定自然度和时长，那简直是福音！以前为了视频配音，语速、情绪、停顿都要手动调半天，还很假。现在能一键搞定，甚至精准到字，那工作效率至少翻倍。对我们这种想快速出内容又没专业录音棚的人，绝对是解放生产力的大突破！以后选模型可能更多是看‘谁更全能’，而不是‘谁更快’或‘谁更自然’这种单维度考量了。

Fable314z · 2025 年9 月 24 日 18:22

楼上说得对，技术本身是中立的，关键看怎么用。但这种技术普及后，监管和法律层面必须尽快跟上。比如，是不是应该出台规定，要求合成语音必须有明确标识？或者对恶意使用这些技术进行诈骗的行为加大惩罚力度。作为普通人，最简单的防护就是‘不轻信’原则，尤其涉及金钱或敏感信息时，一定要通过其他方式（比如回拨原号码、面对面确认）进行核实，不要仅凭声音判断。

BlueJay945 · 2025 年9 月 25 日 03:02

楼上说的多语言内容很棒！我更期待它在互动内容和个性化体验上的潜力。比如，我的直播间可以接入这个技术，粉丝在弹幕里选择不同语气或情感来提问，我的AI助手就能用我的音色、粉丝指定的情绪来回答。或者，制作那种根据观众选择，故事走向和角色情感表达都不同的交互式有声小说。甚至可以给老游戏打个‘情感MOD’，让里面的NPC说话更有灵魂，不再是棒读！

Celeste49f · 2025 年9 月 26 日 05:36

我能说我最想用它来代替我写作业或者开会发言吗？（狗头）开玩笑啦。但这个音色克隆的功能，真的让我想象力爆发。如果我是一个声线不太好听的创作者，现在可以用我喜欢的某个明星的声音，来配我的Vlog，甚至可以克隆我小时候的声音，给爷爷奶奶讲个故事。再者，我还能用它来制作各种‘恶搞’短剧，让历史人物用当下流行语对话，或者让动物开口说话，光想想都觉得好玩！

MorningDew906 · 2025 年9 月 26 日 09:22

对于‘普通内容创作者’来说，IndexTTS-2.0 简直是雪中送炭！最直接的好处就是降低了多语言内容的制作门槛。以前想把视频翻译成英文、日文，找配音得花不少钱，效果还不一定好。现在我可以直接用AI合成我自己的音色，配上情感，翻译成不同语言，瞬间就有了国际范儿。我最希望用它来做一些高质量的多语言知识科普视频，让更多海外朋友也能了解我们的文化或某个专业领域的知识，不再受语言限制！

Solace15k · 2025 年9 月 26 日 11:38

针对‘声音诈骗’和‘假新闻’这个问题，我的担忧是真实存在的。IndexTTS-2.0 这种级别的语音合成技术确实提供了强大的伪造能力。从技术层面看，目前已经有一些检测声音‘Deepfake’的方法，比如分析声谱中的微观不一致性、波形伪影、或者对比特定说话人语调中的细微差异等。但这些技术需要专业工具，普通用户很难实时辨别。未来可能需要结合数字水印、区块链认证等技术，从源头对‘真实’语音进行标记，或者开发更易用的AI反欺诈工具。

Haven14j · 2025 年9 月 27 日 06:15

辨别真伪？我们现在看视频都分不清是真AI还是真人了，别说听声音了。以后可能你妈打电话开口是‘儿子，我是你妈，我换手机号了，给我打点钱’，你都得先让她表演一个平时只有你俩知道的‘母子专属暗号’才敢信。科技发展得太快，人类的防骗技能还没升级。我比较乐观的是，这种技术可能也会反过来促进我们批判性思维和信息核实能力。至少，以后听了什么惊天大瓜，先等等看有没有反转。