通义千问Qwen2.5-Omni开源：7B尺寸实现全球最强全模态性能

ali_tech · 2025 年3 月 27 日 15:20

通义千问Qwen2.5-Omni开源啦！7B小尺寸实现全球最强全模态性能，可处理文本、图像、音频和视频，并实时生成语音。手机上也能跑！

原文标题：全模态模型Qwen2.5-Omni开源，7B尺寸实现全球最强性能

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247547822&idx=1&sn=34e3c588c73c45a627ad9205a957e46f&

冷月清谈：

阿里云通义千问团队开源了Qwen2.5-Omni-7B，这是一个端到端全模态大模型，能够同时处理文本、图像、音频和视频等多种输入，并实时生成文本和语音。该模型在OmniBench等多模态融合任务测评中表现出色，超越了Google的Gemini-1.5-Pro等同类模型。Qwen2.5-Omni采用Thinker-Talker双核架构和TMRoPE等创新技术，支持多种输入模态，并能实时生成文本和语音响应。在单模态模型权威基准测试中，Qwen2.5-Omni在语音理解、图片理解和语音生成等领域均表现出领先性能，语音生成能力接近人类水平。该模型仅7B参数，易于在手机等终端部署。通义千问团队已开源了多个参数规模和模态的大模型，Qwen系列模型在开源社区拥有广泛的衍生模型。

怜星夜思：

1、Qwen2.5-Omni的开源对于多模态AI的发展意味着什么？它会如何影响未来的应用场景？
2、Qwen2.5-Omni强调了实时语音生成能力，这在实际应用中有什么价值？和传统的语音合成技术相比，它有什么优势？
3、Qwen2.5-Omni既然能在手机上部署，那么对于移动端的AI应用开发会带来哪些新的可能性？开发者可以利用它做些什么有趣的事情？

原文内容

今天，通义千问Qwen2.5-Omni-7B正式开源。

作为通义系列模型中首个端到端全模态大模型，可同时处理文本、图像、音频和视频等多种输入，并实时生成文本与自然语音合成输出。

在权威的多模态融合任务OmniBench等测评中，Qwen2.5-Omni刷新业界纪录，全维度远超Google的Gemini-1.5-Pro等同类模型。

Qwen2.5-Omni以接近人类的多感官方式「立体」认知世界并与之实时交互，还能通过音视频识别情绪，在复杂任务中进行更智能、更自然的反馈与决策。目前，开发者和企业可免费下载商用Qwen2.5-Omni，手机等终端智能硬件也可轻松部署运行。

Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding （位置嵌入）融合音视频技术、位置编码算法TMRoPE（Time-aligned Multimodal RoPE）。双核架构Thinker-Talker让Qwen2.5-Omni拥有了人类的“大脑”和“发声器”，形成了端到端的统一模型架构，实现了实时语义理解与语音生成的高效协同。具体而言，Qwen2.5-Omni支持文本、图像、音频和视频等多种输入形式，可同时感知所有模态输入，并以流式处理方式实时生成文本与自然语音响应。

得益于上述突破性创新技术，Qwen2.5-Omni在一系列同等规模的单模态模型权威基准测试中，展现出了全球最强的全模态优异性能，其在语音理解、图片理解、视频理解、语音生成等领域的测评分数，均领先于专门的Audio或VL模型，且语音生成测评分数（4.51）达到了与人类持平的能力。

相较于动辄数千亿参数的闭源大模型，Qwen2.5-Omni以7B的小尺寸让全模态大模型在产业上的广泛应用成为可能。即便在手机上，也能轻松部署和应用Qwen2.5-Omni模型。当前，Qwen2.5-Omni已在魔搭社区和Hugging Face 同步开源，用户也可在Qwen Chat上直接体验。

从2023年起，通义团队就陆续开发了覆盖0.5B、1.5B、3B、7B、14B、32B、72B、110B等参数的200多款「全尺寸」大模型，囊括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等「全模态」，真正实现了让普通用户和企业都用得上、用得起AI大模型。截至目前，海内外AI开源社区中千问Qwen的衍生模型数量突破10万，是公认的全球第一开源模型。

Qwen Chat免费体验：

https://chat.qwenlm.ai

百炼平台模型调用：

https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

Demo体验：

https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

开源地址：

https://huggingface.co/Qwen/Qwen2.5-Omni-7B

https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

https://github.com/QwenLM/Qwen2.5-Omni

点击阅读原文，立即体验模型！

Zen15e · 2025 年3 月 29 日 07:27

Qwen2.5-Omni的开源意义重大！这意味着多模态AI技术不再是少数大厂的专利，更多开发者和企业能够低成本地参与进来，加速技术创新和应用落地。就像安卓的开源推动了移动互联网的繁荣一样，Qwen2.5-Omni的开源有望开启多模态AI的新时代。未来，我们可能会看到更多基于Qwen2.5-Omni的智能助手、智能家居、智能教育甚至是AI娱乐应用涌现。

Sprite72n · 2025 年3 月 29 日 11:07

从技术角度看，Qwen2.5-Omni开源降低了多模态研究的门槛，鼓励更多学术机构和研究人员参与，有助于突破现有技术的局限性，例如如何更好地融合不同模态的信息，如何提高模型的鲁棒性和泛化能力等。应用层面，随着多模态AI技术的成熟，我们可以预见到它将在医疗诊断、自动驾驶、安防监控等领域发挥更大的作用。

SwiftGazelle777 · 2025 年3 月 31 日 12:12

传统的语音合成技术往往需要预先录制大量的语音片段，然后拼接起来。Qwen2.5-Omni的优势在于它的实时性，可以根据上下文动态生成语音。这意味着它可以表达更复杂的情感和语气，更接近人类的自然语言表达。此外，Qwen2.5-Omni还具有更好的适应性，可以根据不同的用户和场景生成定制化的语音。

SummerSun956 · 2025 年3 月 31 日 14:00

我有个更疯狂的想法！既然Qwen2.5-Omni支持视频输入，那能不能做一个AI导演App？用户只需要拍摄一些素材，然后用语音描述一下想要的效果，AI就能自动剪辑成一部短片！这样人人都可以是导演了！当然，前提是手机的算力要跟得上。

Caliber237r · 2025 年4 月 1 日 00:22

Qwen2.5-Omni能在手机上部署，这意味着我们可以开发出更多离线的、智能的移动应用。比如，一个可以实时翻译的拍照翻译App，即使在没有网络的情况下也能正常使用；或者一个可以根据用户的面部表情和语音语调，给出个性化建议的健身教练App。可能性太多了！

WinterFox306 · 2025 年4 月 2 日 01:14

我觉得实时语音生成最大的价值在于“真实感”。以前的语音合成，一听就是机器的声音，缺乏情感。但如果AI能像Siri一样，根据我的语调、问题，给我一个带着情绪的回答，那体验就完全不一样了！想象一下，以后玩游戏，NPC的对话都是实时生成的，那沉浸感绝对爆炸！

RedFox202 · 2025 年4 月 3 日 00:39

我觉得Qwen2.5-Omni的开源，最直接的影响就是加速了全模态AI的普及。以前大家搞多模态，要么数据难找，要么模型太大跑不动。现在有了开源的方案，至少让更多人能上手玩起来。至于未来的应用场景，我觉得想象力有多大，可能性就有多大！比如，以后开会的时候，AI可以直接根据大家的表情和语气，自动总结会议纪要，想想就觉得很酷！

Crux18l · 2025 年4 月 3 日 08:45

移动端AI应用开发的可能性大大扩展！开发者可以利用Qwen2.5-Omni开发出更智能的图像识别、语音助手、甚至是游戏AI。考虑到Qwen2.5-Omni的多模态能力，我们可以设想一些结合视觉和语音的创新应用，例如，一个可以根据用户拍摄的食物照片和语音描述，推荐菜谱和烹饪方法的App。

Frost16y · 2025 年4 月 4 日 21:29

实时语音生成能力意味着更自然、更流畅的人机交互体验。想象一下，我们和AI对话，它不用先思考半天再用机械的声音回答，而是像真人一样即时回应，是不是感觉更亲切？这在智能客服、虚拟助手等场景下非常有价值。