阿里云Qwen新模型:30亿参数激活实现GPT-4o级性能,消费级GPU即可部署

Qwen新模型3B激活媲美GPT-4o,消费级GPU也能跑!通用、长文本能力大增,已开源。

原文标题:凌晨,Qwen又更新了,3090就能跑,3B激活媲美GPT-4o

原文作者:机器之心

冷月清谈:

Qwen团队最新发布了AI大模型Qwen3-30B-A3B-Instruct-2507,这是一个非思考模式的新版本。该模型最引人注目的亮点在于,它仅激活30亿(3B)参数,却能展现出与谷歌Gemini 2.5-Flash和OpenAI GPT-4o(均在非思考模式下)相媲美的卓越性能,这在模型效率和性能优化上实现了重要跨越。文章通过图表对比,清晰展示了新版本在多项测试基准上(如AIME25、Arena-Hard v2)的显著提升,甚至能基本追平或超越DeepSeek-V3-0324。

具体而言,Qwen3-30B-A3B-Instruct-2507在通用能力、多语言长尾知识覆盖、用户偏好对齐以及长文本理解(提升至256K)方面均实现了大幅提升。这款模型已在魔搭社区和HuggingFace等平台开源,用户也可在QwenChat上直接体验。值得关注的是,该模型能在搭载RTX 3090等消费级GPU的设备上运行,显著降低了运行高性能AI模型的硬件门槛,很快也得到社区量化版本支持,彰显了开源力量。

然而,文章也特别指出这是一个“非推理”模型。著名开发者Simon Willison对比后认为,对于生成复杂代码等特定任务而言,模型是否具备“推理”能力可能是一个关键因素。尽管各家团队在深夜“内卷”,但每天看到AI能力不断突破,也令人兴奋不已。

怜星夜思:

1、文章提到Qwen新模型是一个“非思考模式”的模型,同时提到了LLM的“推理能力”。对于我们普通用户来说,理解“非思考模式”和LLM的“推理能力”有什么实际意义?它们分别适用于哪些日常应用场景呢?
2、仅仅激活30亿参数就能与顶尖模型媲美,且能在RTX 3090这样的消费级GPU上流畅运行,这对于AI大模型的普及和个人用户参与AI创新意味着什么?未来AI模型是否会越来越“轻量化”?
3、Qwen作为国产开源模型,其性能能媲美GPT-4o等闭源模型。这会给当前的大模型市场格局带来怎样的影响?开源模型未来将如何与商业闭源模型进行竞争和协作?

原文内容

机器之心报道

编辑:张倩


继前段时间密集发布了三款 AI 大模型后,Qwen 凌晨又更新了 —— 原本的 Qwen3-30B-A3B 有了一个新版本:Qwen3-30B-A3B-Instruct-2507


这个新版本是一个非思考模式(non-thinking mode)的新模型。它的亮点在于,仅激活 30 亿(3B)参数,就能展现出与业界顶尖闭源模型,如谷歌的 Gemini 2.5-Flash(非思考模式)和 OpenAI 的 GPT-4o 相媲美的超强实力,这标志着在模型效率和性能优化上的一次重大突破。


下图展示了该模型的性能数据,可以看出,与更新前的版本相比,新版本在多项测试中都实现了跨越式提升,比如 AIME25 从之前的 21.6 提升到了 61.3,Arena-Hard v2 成绩从 24.8 提升到了 69.0。



下图展示了新版本和 DeepSeek-V3-0324 等模型的性能对比结果,可以看到,在很多基准测试中,新版本模型可以基本追平甚至超过 DeepSeek-V3-0324。



这让人感叹模型计算效率的提升速度。



具体来说,Qwen3-30B-A3B-Instruct-2507 在诸多方面实现了关键提升:


  • 通用能力大幅提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多方面;

  • 在多语言的长尾知识覆盖方面,模型进步显著

  • 在主观和开放任务中,新模型与进一步紧密对齐了用户偏好,可以生成更高质量的文本,为用户提供更有帮助的回答;

  • 长文本理解能力提升至 256K



现在模型已经在魔搭社区和 HuggingFace 等平台开源。QwenChat 上也可以直接体验。


体验链接:http://chat.qwen.ai/


该模型发布后也很快得到了社区的支持,有了更多的使用渠道,甚至还有了量化版本。这就是开源的力量。




它的出现,让大家在消费级 GPU 上运行 AI 模型有了新的选择。



有人晒出了这个新版本在自己的 Mac 电脑、搭载 RTX 3090 的 PC 等设备上的运行体验。





如果你也想运行这个模型,可以参考这个配置要求:



值得注意的是,这次的新版本模型是一个非推理模型。著名开发者 Simon Willison 将该模型与他之前测试过的「推理」 模型(如 GLM-4.5 Air)进行了对比。他得出的核心结论是:对于生成「开箱即用」的复杂代码这类任务,模型是否具备「推理」能力可能是一个至关重要的因素。



Qwen 团队的这次更新依然在深夜进行,这让其他同行再次感觉被卷到了。不过,每天醒来都能看到 AI 的能力又上了一个新台阶,这本身就是一件激动人心的事。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

哇,这是要打破平衡的节奏啊!想想看,以前用AI模型,我们只能寄希望于那些大公司"开恩",或者花大价钱买服务。现在有了性能强大的开源模型,等于是把金钥匙给了所有人。这对市场竞争来说,绝对是一剂猛药!闭源的那些大佬们,如果不想被后来者超车,就得加速创新,提供更独特、更具附加值的服务。开源模型的未来,我觉得它会成为AI技术发展的"试验田"和"孵化器",各种新奇的想法和应用会在这里迅速萌芽、迭代。而商业闭源模型,则更像是一个"成熟产品供应商",提供稳定、可靠、有保障的服务。两者可能会在某些领域竞争,但在更多领域,开源模型会成为商业模型的"基石",商业模型反哺开源社区,形成一个良性循环的生态。

这个问题问得好深奥啊!不过,能用3090跑大模型,对我这种游戏玩家来说,简直太友好了!以前看到那些几千亿参数的模型就觉得是天方夜谭,只有那些大佬才能碰。现在我自己的显卡也能玩转,这感觉就像是当年电脑从少数人专属变成家家户户都有,甚至未来AI模型能直接集成到手机里、智能音箱里。我觉得这是一个非常正面的信号,更多的个人开发者能参与进来,就像开源软件一样,大家共同努力肯定能碰撞出更多火花。趋势嘛,肯定是越来越轻量化,毕竟不是所有应用场景都需要超大的模型,效率和通用性也很重要。AI以后可能就不仅仅是云上的服务,还会成为我们每个人手中的工具了。

关于“30亿参数激活”和“消费级GPU”运行的意义,我认为这简直是AI普惠化的一大步。过去高性能AI模型就像是奢侈品,只有大型机构或拥有昂贵算力的人才能玩得起,现在普通用户也能在自己的电脑上跑起来,这意味着AI创新的门槛大大降低了。就像智能手机出现前,只有少数人能接触到先进计算能力一样。未来AI模型必然会朝着更轻量化、更高效的方向发展,因为只有这样才能真正普及到M端设备、边缘计算,甚至嵌入到各种智能硬件中。但这不意味着所有模型都会变小,更可能是根据应用场景分化,一部分追求极致性能、更大参数,另一部分追求极致效率、更小尺寸,以满足不同需求。

Qwen这个新动向,简直是给AI界打了一针强心剂!3B参数激活就能媲美顶尖模型,还可以在3090上跑,这不仅意味着AI的"平民化"加速,也预示着一个"人人都是AI创客"的时代可能要来了。想当年,我们用Photoshop、Premiere,多多少少都得有专业工作站,现在一台笔记本也能跑得动。AI也正在经历这个过程。未来,模型肯定会越来越轻量,各种剪枝、量化、蒸馏技术都会让AI模型适配更多终端设备。这就像汽车从最初的笨重天价,逐渐变得普及、高效、亲民。唯一的挑战是,当AI变得无处不在时,我们如何去正确引导和利用它,避免一些意想不到的问题。

Qwen这次的突破,我觉得对咱们国家的大模型发展意义太大了!以前老感觉咱们在跟跑,现在能直接跟GPT-4o掰手腕,而且还是开源的,这能让更多国内企业和机构快速用上先进技术,降低成本,加速创新。就市场格局来说,闭源大厂可能要开始感受到压力了,不能再"躺着赚钱"了,得更努力地优化性能、降低价格、提升服务。未来开源模型肯定会和商业闭源模型形成一种 “互补+竞争” 的关系。开源模型提供底层技术和社区活力,商业闭源模型则可能在商业化套件、隐私安全、定制化服务这些方面做得更深。大家最终的目标都是推动AI技术进步,只是路径不同罢了。最终受益的还是我们这些用户呗。

面对“国产开源模型媲美闭源巨头”这个问题,我认为这首先是对现有闭源巨头的一种强力挑战,它们不再能一家独大,必须面临更激烈的竞争。开源模型的优势在于透明性、可定制性强,能快速迭代并吸纳全球开发者的智慧,从而推动技术普惠和创新。市场格局可能从"中心化"走向"去中心化",更多的垂直领域和特色应用会因开源模型的出现而繁荣。未来,开源和闭源并非完全的"你死我活",更可能是"竞合关系"。开源模型可能成为底层基础设施、技术标准,而闭源模型则在此基础上提供更高阶、更稳定的商业服务、集成解决方案和企业级支持。就像Linux和Windows,各自都有自己的生态位和商业模式。

啥是非思考模式和推理能力?听起来就好高大上!不过我个人体验下来,非思考模式大概就是那种你问它“今天天气怎么样”,它能迅速给出准确答案的。或者让它写个小故事,它能给你编得有模有样。就是那种“条件反射式”的回答,但效率超高。至于推理能力嘛,大概就是你问它“如果我把冰箱门打开了,屋里的温度会变低吗?为什么?”这种需要它分析因果关系、给出解释的。虽然冰箱那个是反常识的哈哈。所以,日常生活中,非思考模式的AI可以帮你写文案、做翻译、陪你聊天解闷;而推理能力强的AI,可能就是你的编程助手、学习导师,帮你解决那些烧脑的问题吧!

关于“非思考模式”和“推理能力”的这个问题,我觉得挺有意思的。从我的理解来看,非思考模式的模型可能更擅长那种“基于大量训练数据,给出最符合逻辑的直接答案”的任务,就像我们平时聊天、写邮件、翻译这类,它能很快地生成流畅自然的文本。而“推理能力”则更像是人类解决问题的能力,比如让你一步步分析一个复杂的数学题,或者根据上下文判断一个模棱两可的句子的真实意图。对于开发者来说,如果你的应用是做智能客服、内容创作,非思考模式的效率可能更高;但如果涉及逻辑编程、科学研究助手这类需要复杂决策的,那推理能力就显得非常关键了。简单说,一个能“说”,一个能“想”。

这个问题问得好,其实这就像是我们大脑的两种工作模式。比如你要写一篇关于某个主题的科普文章,你脑子里有大量相关信息,直接输出就行,这就是“非思考模式”,效率高、速度快,适用于博客写作、新闻摘要、闲聊这些。但如果我要设计一个太空探测器的飞行轨迹,需要考虑各种物理定律、约束条件,一步步推导计算,这需要的就是“推理能力”,更侧重于复杂问题解决、逻辑分析、甚至代码Debug之类的场景。日常生活中,你可以把它们想象成一个学霸的“知识记忆与提取”和“开动脑筋解决难题”的区别。对于我们普通用户,非思考模式的模型可以更好地满足我们对速度和普遍性内容的需求,而推理模型则能在更深度的专业领域提供帮助。