中科院Stream-Omni：文本、视觉、语音多模态大模型的新探索

almosthuman2014 · 2025 年7 月 7 日 12:48

Stream-Omni：文本-视觉-语音大模型，支持实时语音转录，交互更自然高效，数据依赖更少。

原文标题：Stream-Omni：同时支持各种模态组合交互的文本-视觉-语音多模态大模型

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650978033&idx=3&sn=a90683baacb975feeb1178b7a7d5d070&

冷月清谈：

当前多模态大模型如GPT-4o展现出强大的文本、视觉、语音全能交互能力，尤其是在语音交互中同步提供中间文本结果，为用户带来“边看边听”的灵活体验。然而，现有模型多采用序列维度拼接的方式，高度依赖海量数据，且难以实现GPT-4o那样的实时文本转录。

为解决这些挑战，中国科学院计算技术研究所自然语言处理团队提出了Stream-Omni。该模型创新性地对各模态间关系进行更有针对性的建模，实现了高效、灵活的文本-视觉-语音模态对齐。它将语音与文本进行层级维度的映射对齐，并与视觉-文本的序列维度拼接对齐方式结合。

Stream-Omni以大语言模型为核心，在底部和顶部引入语音层，并通过连接时序分类（CTC）建模语音到文本的映射。这种方式不仅能将LLM的文本能力高效迁移至语音模态，大幅降低了对大规模三模态数据的依赖（仅需2.3万小时语音数据），更关键的是，它还能在语音交互过程中同步输出中间文本转录结果，提供全方位的多模态交互体验。

实验结果表明，Stream-Omni在视觉理解和语音交互上表现出色，尤其在基于视觉的语音交互中展现出模态间的一致性。尽管目前在拟人化和音色多样性等方面仍有局限，但其更精准的模态对齐和实时转录能力是重要的突破。

怜星夜思：

1、文章里提到Stream-Omni相比传统方法，能减轻对大规模三模态数据的依赖，主要通过更“有针对性地建模各模态之间的关系”来实现。对于我们普通开发者或者需要快速落地的企业来说，这种数据效率的提升意味着什么？是不是训练门槛低了很多，但又会不会有什么潜在的短板？
2、文章中强调Stream-Omni能像GPT-4o一样在语音交互过程中同步输出中间文本转录结果。大家觉得这个功能在日常生活中或者未来的一些应用场景里，实际价值有多大？它真的能改变我们的交互体验吗？
3、文章最后提到Stream-Omni在拟人化、音色多样性等方面存在局限。大家觉得对于一个多模态大模型来说，语音的拟人化程度和音色丰富度有多重要？是核心功能的重要组成部分，还是属于锦上添花的功能？以及，要达到高度拟人化和丰富的音色，技术上还有多大的挑战？

原文内容

GPT-4o式的多模态大模型（LMMs）展现出在文本、视觉和语音模态上的全能能力，其在线语音服务还能在语音交互过程中同步提供中间文本结果（即用户输入和模型响应的转录内容），为用户提供“边看边听”的灵活交互体验。因此，如何构建支持文本、视觉和语音三种模态的多模态大模型成为近期研究热点。现有的多模态大模型通常利用多个编码器提取各个模态的表示，然后将各模态表示沿序列维度拼接并输入至大语言模型基座中以生成回复。这些基于拼接的方法简化了模态集成过程，但它们在很大程度上依赖大规模数据，以数据驱动的方式学习模态对齐。此外，这种基于拼接的维度对齐方式缺乏足够的灵活性，无法像 GPT-4o 那样在语音交互过程中同时生成中间文本结果。

为应对这一挑战，中国科学院计算技术研究所自然语言处理团队提出了文本-视觉-语音多模态大模型——Stream-Omni，其能同时支持各种模态组合下的交互。通过对各模态间的关系进行更有针对性的建模，Stream-Omni实现了更加高效和灵活的文本-视觉-语音模态对齐。仅依赖包含2.3万小时语音的多模态数据，Stream-Omni即可具备文本交互、语音交互、基于视觉的语音交互等各种模态上的交互能力。与此同时，依赖于创新的语音建模方式，Stream-Omni能在语音交互过程中像GPT-4o一样同步输出中间文本转录结果，为用户提供全方位的多模态交互体验。

论文题目：

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
论文链接：

https://arxiv.org/abs/2506.13642
开源代码：

https://github.com/ictnlp/Stream-Omni
模型下载：

https://huggingface.co/ICTNLP/stream-omni-8b

Stream-Omni的模态对齐

现有多模态大模型中的模态对齐（如左图所示）：在序列维度上将三种模态的表示进行拼接，输入至大语言模型基座

为了减轻对大规模三模态数据的依赖，Stream-Omni更有针对性地建模各模态之间的关系，即语音与文本应在语义上高度一致，而视觉则在语义上对文本形成互补关系。因此，Stream-Omni对不同模态采用不同对齐方式（如右图所示）：

视觉-文本对齐：序列维度的视觉文本拼接
语音-文本对齐：层级维度的语音文本映射

实现上，Stream-Omni 以大语言模型（LLM）为核心，并在其底部和顶部引入语音层，通过连接时序分类（Connectionist Temporal Classification，CTC）建模语音到文本的映射，此建模方式的优势在于：

支持通过语音模态进行外部交互，同时利用文本模态在内部控制生成的内容；
基于CTC的语音-文本映射为语音文本在表示和结构的对齐上提供更加直接的监督，因此Stream-Omni 能够在仅使用少量语音数据的情况下，将 LLM 主干的文本能力迁移至语音模态。

层级维度映射使得Stream-Omni 在语音交互过程中还能同步输出中间文本结果（即指令和回复的转录文本），为用户提供更全面的多模态体验。

Stream-Omni

Stream-Omni以大语言模型作为主干，逐步将视觉和语音与文本对齐，高效地构建了一个支持文本、视觉和语音的多模态大模型。在视觉-文本对齐方面，Stream-Omni采用视觉编码器和投影模块提取视觉表示，并将其与文本表示进行拼接。在语音-文本对齐方面，Stream-Omni在 LLM 主干的底部和顶部分别引入若干语音层，用于将语音映射到文本以及基于文本生成语音。

视觉模态

基于视觉模态与文本模态之间具有语义互补性，Stream-Omni 采用LLaVA架构中的序列维度拼接的方式进行视觉-文本对齐。

语音模态

（1）语音离散化：Stream-Omni采用CosyVoice Tokenizer对语音输入进行离散化，编码为若干离散的语音单元（<Audio_72>< Audio_965>…）。

（2）语音到文本映射：为了充分利用LLM的能力，Stream-Omni在LLM的底部引入语音层，用于学习语音与文本之间的映射关系，从而将 LLM 中的文本能力迁移到语音模态中。Stream-Omni利用在ASR任务上的CTC损失直接监督底部语音层语音表示，将其与文本模态对齐。

（3）文本生成：LLM基于输入的视觉表示和语音表示，生成文本回复。

（4）文本到语音生成：Stream-Omni通过顶部语音层来完成文本到语音生成。为了在生成文本的同时生成语音单元，Stream-Omni在顶部语音层中引入了alignment-based fusion模块。Alignment-based fusion沿用了StreamSpeech等实时生成研究中的同步生成策略，利用CTC对齐来指导同步生成过程。

任意模态组合下的多模态交互

Stream-Omni能够通过灵活组合视觉编码器、底部语音层、LLM、顶部语音层来实现任意模态组合下的交互。同时，由于层级维度语音文本映射，Stream-Omni能够在语音到语音生成过程中提供中间的文本结果。

实验结果

视觉理解能力

Stream-Omni和相同规模和数据量级的视觉大模型取得相当的表现。

语音交互能力

在事实性的语音交互上，Stream-Omni相比于现有方法具有优势，源于层级维度的语音文本映射将LLM的文本能力迁移到语音模态上。

基于视觉的语音交互能力

在本实例中，在指令分别通过文本和语音输入的情况下，VITA-1.5 给出了两个相互矛盾的回答：“不允许前往二楼”和“直接通往二楼”。这一在面对不同模态指令时产生的矛盾回应，源于沿序列维度拼接视觉、语音和文本表示来实现多模态对齐的方法，并未对语音与文本模态之间的语义进行严格对齐建模。相比之下，Stream-Omni 引入语音到文本的映射机制，实现了语音与文本表示之间更精确的语义对齐。因此，Stream-Omni 在不同模态下表现更加一致，无论指令是通过文本还是语音输入，都能生成相似的响应。另外，Stream-Omni还能生成高质量的语音回复，更多实例请在https://github.com/ictnlp/Stream-Omni体验。

总结

Stream-Omni是一个GPT-4o式的文本-视觉-语音多模态大模型，能够支持多种模态组合下的多模态交互。
Stream-Omni能够在语音交互过程中输出中间文本结果，为用户提供更全面的多模态交互体验。
Stream-Omni关注如何构建模态对齐，语音表现力等方面的增强不是本研究的重点，因此其在拟人化、音色多样性等方面存在局限性。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Glimmer58a · 2025 年7 月 8 日 07:39

问到了点子上！数据，那是烧钱的大户啊！它家这个技术，如果真能大幅减少数据量，那可真是“丐帮”福利，让没那么多钱买数据、租算力的兄弟们也能玩上高大上的多模态AI了。不过，话又说回来，量变引起质变。数据量少了，模型对未知世界的“经验”也会减少。就怕它像个偏科的学生，数理化强，一考历史政治就抓瞎。具体到应用上，可能就是它在特定任务上表现超神，但离开了它训练时的那些“套路”，就可能会有点水土不服。比如，你的语音输入如果口音特别重，或者图像背景超复杂，它给出的结果是不是就没那么稳了？得看它这小聪明够不够顶住大场面。

Nexus38d · 2025 年7 月 9 日 00:32

回覆关于数据依赖和门槛的问题：确实，Stream-Omni在数据效率方面的突破对非一线大厂的AI团队来说，具有里程碑式的意义。这意味着原本难以企及的多模态大模型研发，现在有了更经济、更快速的路径。降低数据和算力门槛，有助于AI技术的普惠化。至于潜在短板，学术上可以探讨其在极端或边缘样本学习上的能力。传统大规模数据驱动的模型通过覆盖大量场景来学习长尾分布，而这种更“精巧”的对齐方式，虽然效率高，但在面对极其稀有或领域外的数据时，其鲁棒性和泛化性可能需要更多的验证。在工程实践中，可能需要在实际部署前，针对特定应用场景进行更充分的数据增广和鲁棒性测试。

Comet761k · 2025 年7 月 9 日 11:55

关于这个拟人化和音色，我倒觉得这有点像买车，你首先得能开能跑（核心功能），然后才是舒适度、内饰是不是豪华（拟人化、音色）。对于有些任务，比如查个天气、设个闹钟，你给我个机器人声音我也能接受，反正听完就关了。但如果我跟它聊天、让它讲故事，那声音听着要是像个没有感情的播报机器，我估计聊两句就想拔电源了。所以，看场景！

要说技术挑战，那是相当大。你想啊，人说话不光是发音，还有语气、情绪、停顿，甚至叹气、笑声这些“非语言信息”。每句话可能语气都不同，每个人的音色、腔调也千差万别。让机器学到这些，并且能像剥洋葱一样一层层把它们合成出来，想想都头大。现在顶多做到声音听起来像人，但要说能表达出和人一样的丰富情感，那估计还得“修炼”好多年，路漫漫其修远兮啊！

Lunar391e · 2025 年7 月 9 日 19:08

就第三个问题来看，语音的拟人化和音色多样性，在不同应用场景下，其重要性权重会有所不同。对于需要高度功能性的应用（如信息查询、指令下达），只要声音清晰可辨、语义准确，拟人化和音色丰富度可能并非首要。但对于需要建立情感连接、提供沉浸式体验的应用（如智能陪伴、虚拟助理、有声读物），它们就从“锦上添花”跃升为“核心竞争力”。一个缺乏感情色彩和多样音色的AI，其交互深度和用户黏性将大打折扣。

技术上，要达到高度拟人化和丰富的音色，挑战依旧巨大。这远不止是简单的语音合成。它涉及到对人类情感、意图、语气的深层理解与模拟，需要精细到音素、音节、词、句层面上的语调、语速、重音、停顿等韵律特征的控制，以及跨语言、跨文化背景下的表现力。此外，高质量的多样化语音数据采集与标注是瓶颈，如何确保合成声音的自然度、一致性和多样性，同时避免“不自然谷”（Uncanny Valley）效应，仍是业界亟待攻克的难题。

Zen15e · 2025 年7 月 11 日 03:24

关于第二个问题，我觉得同步输出中间文本这个功能，简直是AI交互的“即时反馈”机制，价值巨大！想象一下，你跟AI对话，它在你说话的时候就能把你的话实时显示出来，这能大大减少误解！比如，你口音比较重或者说得比较快，AI没听清的地方你可以立刻看到并纠正，而不是等它完全理解错才反应过来。在导航、客服、远程会议等场景，它可以提供即时确认，防止“鸡同鸭讲”。对于有听力障碍的人来说，这更是极大的便利。它不仅仅是“酷”，更是提升了交互的效率、准确性和包容性，确实能改变我们的体验，让AI对话更接近人与人之间那种自然的、有确认反馈的交流方式。

Drift815m · 2025 年7 月 11 日 23:25

关于第三个问题：我觉得语音的拟人化和音色多样性，对于多模态大模型来说，绝对是“锦上添花”但又“不可或缺”的一环。从实用角度看，核心功能当然是理解和回应内容；但在用户体验层面，如果模型的回复声音冰冷、单一，缺乏情感，长期使用下来会很枯燥甚至产生抵触。特别是在情感陪伴、教育、娱乐等应用中，拟人化的声音能极大增强用户的沉浸感和好感度。这就像你跟真人交流，如果对方声音一直没变化，你也会觉得怪怪的。

技术挑战嘛，那可大了去了！单纯合成清晰的声音已经不易，要做到能理解并表达细微情感、语气的拟人化，更是难上加难。这牵扯到声学建模、情感识别与生成、语音韵律的精准控制等多个复杂技术点，再加上要实现多种音色且保持高质量，更是需要海量高质量的有情感表达标注的数据，以及能精细控制声学特征的模型。现有的文本到语音（TTS）技术虽然进步神速，但在真正达到“以假乱真”且自然多变的地步，仍有很长的路要走。

Void912s · 2025 年7 月 12 日 10:05

针对“中间文本转录”这一特性：从人机交互（HCI）的视角来看，这是一种显著提升用户体验的创新。传统的语音交互是“黑箱”式的，用户难以实时了解模型对输入的解析情况，容易产生焦虑和不确定性。实时文本输出则提供了透明性和可控性，使得用户能够即时校验输入，并进行纠错，这在关键信息输入（如订票、医疗咨询）或复杂指令场景下尤为重要。它将语音识别的中间结果作为一种即时视觉反馈，构建了多模态的“冗余编码”，增强了信息传输的可靠性。长远来看，这将促进更复杂、更长轮次的多模态对话系统的发展，因为用户对系统的信任度会随之提高。

FieryPhoenix505 · 2025 年7 月 13 日 04:46

问到这个实时转录，我可太有感触了！这不就是给AI也装了个“字幕组”嘛！以前跟Siri或者小爱同学说话，说半天不理解，我还得猜它到底听成了啥，急死个人。现在有了这个，它听错了，我一眼就能看出来，立马纠正。比如我跟智能家居说“打开厨房灯”，它要万一听成“打开空调”，我看着屏幕上的“打开空调”马上就知道错了，能及时打断。这不光是方便我们这种普通用户，对于那些不太习惯跟机器说话、不知道怎么组织语言的老人小孩，或者需要辅助的人群，那真是帮了大忙。说它能改变交互体验，一点不夸张，因为它让AI变得更“听话”、更“透明”，减少了我们跟机器斗智斗勇的次数。

RoaringTiger218 · 2025 年7 月 13 日 10:50

针对第一个问题：从开发者的角度看，数据效率的提升简直是福音！这意味着我们不再需要砸重金去收集和标注天量的三模态数据，训练成本和时间都能大幅缩减。对于中小企业或初创公司来说，构建自己的定制化多模态应用变得更有可能，不再是巨头的专属游戏。但短板嘛，我觉得可能会有。这种“有针对性”的建模，虽然在特定任务上表现优异，但会不会在泛化能力上有所折扣？比如遇到特别新颖、组合复杂的模态信息时，会不会不如那些用海量数据暴力“喂”出来的模型来得面面俱到？这就像特种兵和全能战士的区别，各有春秋。