通义千问Qwen2.5-Omni开源:7B尺寸实现全球最强全模态性能

通义千问Qwen2.5-Omni开源啦!7B小尺寸实现全球最强全模态性能,可处理文本、图像、音频和视频,并实时生成语音。手机上也能跑!

原文标题:全模态模型Qwen2.5-Omni开源,7B尺寸实现全球最强性能

原文作者:阿里云开发者

冷月清谈:

阿里云通义千问团队开源了Qwen2.5-Omni-7B,这是一个端到端全模态大模型,能够同时处理文本、图像、音频和视频等多种输入,并实时生成文本和语音。该模型在OmniBench等多模态融合任务测评中表现出色,超越了Google的Gemini-1.5-Pro等同类模型。Qwen2.5-Omni采用Thinker-Talker双核架构和TMRoPE等创新技术,支持多种输入模态,并能实时生成文本和语音响应。在单模态模型权威基准测试中,Qwen2.5-Omni在语音理解、图片理解和语音生成等领域均表现出领先性能,语音生成能力接近人类水平。该模型仅7B参数,易于在手机等终端部署。通义千问团队已开源了多个参数规模和模态的大模型,Qwen系列模型在开源社区拥有广泛的衍生模型。

怜星夜思:

1、Qwen2.5-Omni的开源对于多模态AI的发展意味着什么?它会如何影响未来的应用场景?
2、Qwen2.5-Omni强调了实时语音生成能力,这在实际应用中有什么价值?和传统的语音合成技术相比,它有什么优势?
3、Qwen2.5-Omni既然能在手机上部署,那么对于移动端的AI应用开发会带来哪些新的可能性?开发者可以利用它做些什么有趣的事情?

原文内容

今天,通义千问Qwen2.5-Omni-7B正式开源。

作为通义系列模型中首个端到端全模态大模型,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。

在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni刷新业界纪录,全维度远超Google的Gemini-1.5-Pro等同类模型。

Qwen2.5-Omni以接近人类的多感官方式「立体」认知世界并与之实时交互,还能通过音视频识别情绪,在复杂任务中进行更智能、更自然的反馈与决策。目前,开发者和企业可免费下载商用Qwen2.5-Omni,手机等终端智能硬件也可轻松部署运行。

Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding (位置嵌入)融合音视频技术、位置编码算法TMRoPE(Time-aligned Multimodal RoPE)。双核架构Thinker-Talker让Qwen2.5-Omni拥有了人类的“大脑”和“发声器”,形成了端到端的统一模型架构,实现了实时语义理解与语音生成的高效协同。具体而言,Qwen2.5-Omni支持文本、图像、音频和视频等多种输入形式,可同时感知所有模态输入,并以流式处理方式实时生成文本与自然语音响应。

得益于上述突破性创新技术,Qwen2.5-Omni在一系列同等规模的单模态模型权威基准测试中,展现出了全球最强的全模态优异性能,其在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Audio或VL模型,且语音生成测评分数(4.51)达到了与人类持平的能力。
相较于动辄数千亿参数的闭源大模型,Qwen2.5-Omni以7B的小尺寸让全模态大模型在产业上的广泛应用成为可能。即便在手机上,也能轻松部署和应用Qwen2.5-Omni模型。当前,Qwen2.5-Omni已在魔搭社区和Hugging Face 同步开源,用户也可在Qwen Chat上直接体验。
从2023年起,通义团队就陆续开发了覆盖0.5B、1.5B、3B、7B、14B、32B、72B、110B等参数的200多款「全尺寸」大模型,囊括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等「全模态」,真正实现了让普通用户和企业都用得上、用得起AI大模型。截至目前,海内外AI开源社区中千问Qwen的衍生模型数量突破10万,是公认的全球第一开源模型。

Qwen Chat免费体验:

https://chat.qwenlm.ai

百炼平台模型调用:

https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

Demo体验:

https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

开源地址:

https://huggingface.co/Qwen/Qwen2.5-Omni-7B

https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

https://github.com/QwenLM/Qwen2.5-Omni

点击阅读原文,立即体验模型!

Qwen2.5-Omni的开源意义重大!这意味着多模态AI技术不再是少数大厂的专利,更多开发者和企业能够低成本地参与进来,加速技术创新和应用落地。就像安卓的开源推动了移动互联网的繁荣一样,Qwen2.5-Omni的开源有望开启多模态AI的新时代。未来,我们可能会看到更多基于Qwen2.5-Omni的智能助手、智能家居、智能教育甚至是AI娱乐应用涌现。

从技术角度看,Qwen2.5-Omni开源降低了多模态研究的门槛,鼓励更多学术机构和研究人员参与,有助于突破现有技术的局限性,例如如何更好地融合不同模态的信息,如何提高模型的鲁棒性和泛化能力等。应用层面,随着多模态AI技术的成熟,我们可以预见到它将在医疗诊断、自动驾驶、安防监控等领域发挥更大的作用。

传统的语音合成技术往往需要预先录制大量的语音片段,然后拼接起来。Qwen2.5-Omni的优势在于它的实时性,可以根据上下文动态生成语音。这意味着它可以表达更复杂的情感和语气,更接近人类的自然语言表达。此外,Qwen2.5-Omni还具有更好的适应性,可以根据不同的用户和场景生成定制化的语音。

我有个更疯狂的想法!既然Qwen2.5-Omni支持视频输入,那能不能做一个AI导演App?用户只需要拍摄一些素材,然后用语音描述一下想要的效果,AI就能自动剪辑成一部短片!这样人人都可以是导演了!当然,前提是手机的算力要跟得上。

Qwen2.5-Omni能在手机上部署,这意味着我们可以开发出更多离线的、智能的移动应用。比如,一个可以实时翻译的拍照翻译App,即使在没有网络的情况下也能正常使用;或者一个可以根据用户的面部表情和语音语调,给出个性化建议的健身教练App。可能性太多了!

我觉得实时语音生成最大的价值在于“真实感”。以前的语音合成,一听就是机器的声音,缺乏情感。但如果AI能像Siri一样,根据我的语调、问题,给我一个带着情绪的回答,那体验就完全不一样了!想象一下,以后玩游戏,NPC的对话都是实时生成的,那沉浸感绝对爆炸!

我觉得Qwen2.5-Omni的开源,最直接的影响就是加速了全模态AI的普及。以前大家搞多模态,要么数据难找,要么模型太大跑不动。现在有了开源的方案,至少让更多人能上手玩起来。至于未来的应用场景,我觉得想象力有多大,可能性就有多大!比如,以后开会的时候,AI可以直接根据大家的表情和语气,自动总结会议纪要,想想就觉得很酷!

移动端AI应用开发的可能性大大扩展!开发者可以利用Qwen2.5-Omni开发出更智能的图像识别、语音助手、甚至是游戏AI。考虑到Qwen2.5-Omni的多模态能力,我们可以设想一些结合视觉和语音的创新应用,例如,一个可以根据用户拍摄的食物照片和语音描述,推荐菜谱和烹饪方法的App。

实时语音生成能力意味着更自然、更流畅的人机交互体验。想象一下,我们和AI对话,它不用先思考半天再用机械的声音回答,而是像真人一样即时回应,是不是感觉更亲切?这在智能客服、虚拟助手等场景下非常有价值。