阿里开源 Qwen2.5-Omni:7B 参数实现多模态交互,支持实时语音和视频聊天

阿里开源 Qwen2.5-Omni,一款7B参数的旗舰级多模态大模型,支持文本、图像、音频、视频输入,以及实时语音和视频聊天。采用Apache 2.0协议,免费商用。

原文标题:阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写

原文作者:机器之心

冷月清谈:

阿里通义千问团队开源了全新的旗舰级多模态大模型 Qwen2.5-Omni,该模型具有以下特点:

1. **全模态感知**:能够无缝处理文本、图像、音频和视频等多种输入,并支持流式文本生成和自然语音合成输出,实现实时的语音和视频聊天交互。
2. **创新架构**:采用了 Thinker-Talker 架构,类似于大脑和嘴巴的分工,Thinker 负责处理和理解多模态输入,生成高级表示和文本,Talker 则负责流式输出语音。
3. **卓越性能**:在多模态和单模态任务中均表现出色,超越了同等规模的单模态模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。
4. **完全开源**:Qwen2.5-Omni-7B 模型采用 Apache 2.0 许可证,并且发布了技术报告,开发者和企业可以免费下载商用,并部署在手机等终端设备上。

Qwen2.5-Omni 的开源,无疑为多模态大模型的研究和应用带来了新的机遇,降低了开发和部署的门槛,有望加速多模态技术的普及。

怜星夜思:

1、Qwen2.5-Omni 的 Thinker-Talker 架构,在实际应用中会带来哪些优势和局限?
2、Qwen2.5-Omni 开源会对多模态大模型领域带来哪些影响?
3、Qwen2.5-Omni 支持多种模态的输入和语音输出,你认为它在哪些场景下具有最大的应用潜力?

原文内容

机器之心报道

机器之心编辑部


3 月 27 日凌晨,阿里通义千问团队发布 Qwen2.5-Omni。


这是 Qwen 系列中全新的旗舰级多模态大模型,专为全面的多模式感知设计,可以无缝处理包括文本、图像、音频和视频的各种输入,同时支持流式的文本生成和自然语音合成输出。


从此以后,你可以像打电话或进行视频通话一样与 Qwen 聊天!可以说是「语音聊天 + 视频聊天」都实现了。

图片

体验地址:https://chat.qwen.ai/

更重要的是,团队人员将支持这一切的模型 Qwen2.5-Omni-7B 开源了,采用 Apache 2.0 许可证,并且发布了技术报告,分享所有细节!

现在,开发者和企业可免费下载商用Qwen2.5-Omni,手机等终端智能硬件也可轻松部署运行。



  • 论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

  • 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/

  • GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni

  • Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B


有网友表示,这才是真正的 Open AI


大家可以通过官方 demo 感受一下 Qwen2.5-Omni 真实表现。


Qwen2.5-Omni 模型架构

Qwen2.5-Omni 具有以下特点:

  • Omni 和创新架构:团队提出了 Thinker-Talker 架构,这是一个端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。此外,团队还提出了一种名为 TMRoPE(Time-aligned Multimodal RoPE)的新型位置嵌入,用于同步视频输入与音频的时间戳;

  • 实时语音和视频聊天:该架构专为完全实时交互而设计,支持分块输入和即时输出;

  • 自然且稳健的语音生成:在语音生成方面,Qwen2.5-Omni 超越了许多现有的流式和非流式替代方案,展现出卓越的稳健性和自然性;

  • 多模态性能强劲:在与同样大小的单模态模型进行基准测试时,Qwen2.5-Omni 在所有模态上均展现出卓越的性能。Qwen2.5-Omni 在音频能力上超越了同样大小的 Qwen2-Audio,并且达到了与 Qwen2.5-VL-7B 相当的性能;

  • 出色的端到端语音指令遵循能力:Qwen2.5-Omni 在端到端语音指令遵循方面的表现可与文本输入的有效性相媲美,这一点在 MMLU 和 GSM8K 等基准测试中得到了证明。


前文我们已经提到,Qwen2.5-Omni 采用了 Thinker-Talker 架构。

Thinker 就像大脑一样,负责处理和理解来自文本、音频和视频模态的输入,生成高级表示以及对应的文本。

Talker 则像人类的嘴巴,以流式方式接收 Thinker 产生的高级表示和文本,并流畅地输出离散的语音 token。

Thinker 是一个 Transformer 解码器,配备有音频和图像的编码器,以便于提取信息。相比之下,Talker 被设计为一种双轨自回归 Transformer 解码器架构。

在训练和推理过程中,Talker 直接接收来自 Thinker 的高维表示,并共享 Thinker 的所有历史上下文信息。因此,整个架构作为一个统一的单一模型运行,实现了端到端的训练和推理。

Qwen2.5-Omni 模型架构

模型性能

团队人员对 Qwen2.5-Omni 进行了全面评估,结果表明,该模型在所有模态上的表现均优于类似大小的单模态模型以及闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要集成多种模态的任务中,如 OmniBench,Qwen2.5-Omni 达到了最先进的水平。

此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU, MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和 subjective naturalness)。



© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


我觉得在娱乐领域更有搞头!想象一下,你可以跟AI语音聊天,让它给你讲故事,或者一起看电影,它还能跟你吐槽剧情!甚至可以用AI生成各种鬼畜视频,想想就刺激!

要我说,最厉害的应用场景是无障碍辅助!对于视障人士来说,它可以描述图像,朗读文字;对于听障人士来说,它可以进行语音转文字,提供实时字幕。Qwen2.5-Omni 可以帮助他们更好地融入社会,提高生活质量。这才是技术应该有的温度!

我觉得Thinker-Talker有点像咱们人类的思考和表达过程啊!优势就是分工明确,该思考的思考,该表达的表达,互不干扰。但劣势嘛,会不会出现“说的跟想的不一样”的情况?比如Thinker理解错了,Talker不加思考就直接说出来了,岂不是很尴尬?

Thinker-Talker 架构的优势在于明确区分了理解和生成两个阶段,使得模型在处理复杂的多模态信息时更加高效。Thinker 专注于抽象高级表征,减轻了 Talker 的负担,使得语音生成更为流畅自然。局限性可能在于两个模块之间的信息传递可能存在瓶颈,需要精巧的设计来保证信息同步和一致性。此外,这种架构可能对训练数据和计算资源有更高的要求。

开源意味着更透明,更可控。以前那些闭源的模型,我们只能猜测它的内部机制。现在有了 Qwen2.5-Omni,我们可以直接研究它的代码,了解它的优缺点,甚至可以自己动手改造,让它更符合我们的需求。这对于学术研究和产业应用都非常有价值。

Qwen2.5-Omni 在智能助手、教育、医疗等领域具有巨大的应用潜力。例如,它可以作为智能客服,理解用户的语音、图像甚至视频,提供更加个性化的服务。在教育领域,它可以辅助教学,根据学生的学习情况提供定制化的学习内容。在医疗领域,它可以辅助医生进行诊断,分析医学影像和语音数据,提高诊断的准确性和效率。

这架构让我想起了微服务!Thinker和Talker就像两个独立的服务,通过接口通信。好处是模块化,易于维护和扩展。但坏处也很明显,服务之间的通信开销大,延迟高。如果Thinker挂了,Talker也得跟着歇菜。

这还用说?肯定是“卷”起来了!以前大家都在闭门造车,现在阿里开了个头,把代码都亮出来了,其他人肯定得赶紧跟上。以后多模态大模型的技术肯定会突飞猛进,各种新应用也会层出不穷!

Qwen2.5-Omni 的开源无疑会加速多模态大模型技术的发展。一方面,它降低了研究和应用的门槛,让更多的开发者和企业能够参与进来,促进技术的创新和迭代。另一方面,开源也有助于暴露模型的问题,集思广益地进行改进,提升模型的性能和鲁棒性。但同时,开源也需要注意潜在的伦理风险,例如被用于生成有害信息等。