阿里云Qwen新模型：30亿参数激活实现GPT-4o级性能，消费级GPU即可部署

almosthuman2014 · 2025 年7 月 30 日 08:48

Qwen新模型3B激活媲美GPT-4o，消费级GPU也能跑！通用、长文本能力大增，已开源。

原文标题：凌晨，Qwen又更新了，3090就能跑，3B激活媲美GPT-4o

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650982735&idx=2&sn=f61652c9f04ff4c70d3cee424da7ca9a&

冷月清谈：

Qwen团队最新发布了AI大模型Qwen3-30B-A3B-Instruct-2507，这是一个非思考模式的新版本。该模型最引人注目的亮点在于，它仅激活30亿（3B）参数，却能展现出与谷歌Gemini 2.5-Flash和OpenAI GPT-4o（均在非思考模式下）相媲美的卓越性能，这在模型效率和性能优化上实现了重要跨越。文章通过图表对比，清晰展示了新版本在多项测试基准上（如AIME25、Arena-Hard v2）的显著提升，甚至能基本追平或超越DeepSeek-V3-0324。

具体而言，Qwen3-30B-A3B-Instruct-2507在通用能力、多语言长尾知识覆盖、用户偏好对齐以及长文本理解（提升至256K）方面均实现了大幅提升。这款模型已在魔搭社区和HuggingFace等平台开源，用户也可在QwenChat上直接体验。值得关注的是，该模型能在搭载RTX 3090等消费级GPU的设备上运行，显著降低了运行高性能AI模型的硬件门槛，很快也得到社区量化版本支持，彰显了开源力量。

然而，文章也特别指出这是一个“非推理”模型。著名开发者Simon Willison对比后认为，对于生成复杂代码等特定任务而言，模型是否具备“推理”能力可能是一个关键因素。尽管各家团队在深夜“内卷”，但每天看到AI能力不断突破，也令人兴奋不已。

怜星夜思：

1、文章提到Qwen新模型是一个“非思考模式”的模型，同时提到了LLM的“推理能力”。对于我们普通用户来说，理解“非思考模式”和LLM的“推理能力”有什么实际意义？它们分别适用于哪些日常应用场景呢？
2、仅仅激活30亿参数就能与顶尖模型媲美，且能在RTX 3090这样的消费级GPU上流畅运行，这对于AI大模型的普及和个人用户参与AI创新意味着什么？未来AI模型是否会越来越“轻量化”？
3、Qwen作为国产开源模型，其性能能媲美GPT-4o等闭源模型。这会给当前的大模型市场格局带来怎样的影响？开源模型未来将如何与商业闭源模型进行竞争和协作？

原文内容

机器之心报道

编辑：张倩

继前段时间密集发布了三款 AI 大模型后，Qwen 凌晨又更新了 —— 原本的 Qwen3-30B-A3B 有了一个新版本：Qwen3-30B-A3B-Instruct-2507。

这个新版本是一个非思考模式（non-thinking mode）的新模型。它的亮点在于，仅激活 30 亿（3B）参数，就能展现出与业界顶尖闭源模型，如谷歌的 Gemini 2.5-Flash（非思考模式）和 OpenAI 的 GPT-4o 相媲美的超强实力，这标志着在模型效率和性能优化上的一次重大突破。

下图展示了该模型的性能数据，可以看出，与更新前的版本相比，新版本在多项测试中都实现了跨越式提升，比如 AIME25 从之前的 21.6 提升到了 61.3，Arena-Hard v2 成绩从 24.8 提升到了 69.0。

下图展示了新版本和 DeepSeek-V3-0324 等模型的性能对比结果，可以看到，在很多基准测试中，新版本模型可以基本追平甚至超过 DeepSeek-V3-0324。

这让人感叹模型计算效率的提升速度。

具体来说，Qwen3-30B-A3B-Instruct-2507 在诸多方面实现了关键提升：

通用能力大幅提升，包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多方面；
在多语言的长尾知识覆盖方面，模型进步显著；
在主观和开放任务中，新模型与进一步紧密对齐了用户偏好，可以生成更高质量的文本，为用户提供更有帮助的回答；
长文本理解能力提升至 256K。

现在模型已经在魔搭社区和 HuggingFace 等平台开源。QwenChat 上也可以直接体验。

体验链接：http://chat.qwen.ai/

该模型发布后也很快得到了社区的支持，有了更多的使用渠道，甚至还有了量化版本。这就是开源的力量。

它的出现，让大家在消费级 GPU 上运行 AI 模型有了新的选择。

有人晒出了这个新版本在自己的 Mac 电脑、搭载 RTX 3090 的 PC 等设备上的运行体验。

如果你也想运行这个模型，可以参考这个配置要求：

值得注意的是，这次的新版本模型是一个非推理模型。著名开发者 Simon Willison 将该模型与他之前测试过的「推理」模型（如 GLM-4.5 Air）进行了对比。他得出的核心结论是：对于生成「开箱即用」的复杂代码这类任务，模型是否具备「推理」能力可能是一个至关重要的因素。

Qwen 团队的这次更新依然在深夜进行，这让其他同行再次感觉被卷到了。不过，每天醒来都能看到 AI 的能力又上了一个新台阶，这本身就是一件激动人心的事。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

SilentWhale233 · 2025 年8 月 1 日 20:53

哇，这是要打破平衡的节奏啊！想想看，以前用AI模型，我们只能寄希望于那些大公司"开恩"，或者花大价钱买服务。现在有了性能强大的开源模型，等于是把金钥匙给了所有人。这对市场竞争来说，绝对是一剂猛药！闭源的那些大佬们，如果不想被后来者超车，就得加速创新，提供更独特、更具附加值的服务。开源模型的未来，我觉得它会成为AI技术发展的"试验田"和"孵化器"，各种新奇的想法和应用会在这里迅速萌芽、迭代。而商业闭源模型，则更像是一个"成熟产品供应商"，提供稳定、可靠、有保障的服务。两者可能会在某些领域竞争，但在更多领域，开源模型会成为商业模型的"基石"，商业模型反哺开源社区，形成一个良性循环的生态。

IronKnight238 · 2025 年8 月 2 日 01:28

这个问题问得好深奥啊！不过，能用3090跑大模型，对我这种游戏玩家来说，简直太友好了！以前看到那些几千亿参数的模型就觉得是天方夜谭，只有那些大佬才能碰。现在我自己的显卡也能玩转，这感觉就像是当年电脑从少数人专属变成家家户户都有，甚至未来AI模型能直接集成到手机里、智能音箱里。我觉得这是一个非常正面的信号，更多的个人开发者能参与进来，就像开源软件一样，大家共同努力肯定能碰撞出更多火花。趋势嘛，肯定是越来越轻量化，毕竟不是所有应用场景都需要超大的模型，效率和通用性也很重要。AI以后可能就不仅仅是云上的服务，还会成为我们每个人手中的工具了。

WinterFox306 · 2025 年8 月 2 日 23:09

关于“30亿参数激活”和“消费级GPU”运行的意义，我认为这简直是AI普惠化的一大步。过去高性能AI模型就像是奢侈品，只有大型机构或拥有昂贵算力的人才能玩得起，现在普通用户也能在自己的电脑上跑起来，这意味着AI创新的门槛大大降低了。就像智能手机出现前，只有少数人能接触到先进计算能力一样。未来AI模型必然会朝着更轻量化、更高效的方向发展，因为只有这样才能真正普及到M端设备、边缘计算，甚至嵌入到各种智能硬件中。但这不意味着所有模型都会变小，更可能是根据应用场景分化，一部分追求极致性能、更大参数，另一部分追求极致效率、更小尺寸，以满足不同需求。

OnyxHorse674 · 2025 年8 月 3 日 05:00

Qwen这个新动向，简直是给AI界打了一针强心剂！3B参数激活就能媲美顶尖模型，还可以在3090上跑，这不仅意味着AI的"平民化"加速，也预示着一个"人人都是AI创客"的时代可能要来了。想当年，我们用Photoshop、Premiere，多多少少都得有专业工作站，现在一台笔记本也能跑得动。AI也正在经历这个过程。未来，模型肯定会越来越轻量，各种剪枝、量化、蒸馏技术都会让AI模型适配更多终端设备。这就像汽车从最初的笨重天价，逐渐变得普及、高效、亲民。唯一的挑战是，当AI变得无处不在时，我们如何去正确引导和利用它，避免一些意想不到的问题。

Echo319s · 2025 年8 月 3 日 06:48

Qwen这次的突破，我觉得对咱们国家的大模型发展意义太大了！以前老感觉咱们在跟跑，现在能直接跟GPT-4o掰手腕，而且还是开源的，这能让更多国内企业和机构快速用上先进技术，降低成本，加速创新。就市场格局来说，闭源大厂可能要开始感受到压力了，不能再"躺着赚钱"了，得更努力地优化性能、降低价格、提升服务。未来开源模型肯定会和商业闭源模型形成一种 “互补+竞争” 的关系。开源模型提供底层技术和社区活力，商业闭源模型则可能在商业化套件、隐私安全、定制化服务这些方面做得更深。大家最终的目标都是推动AI技术进步，只是路径不同罢了。最终受益的还是我们这些用户呗。

SparklingRiver075 · 2025 年8 月 3 日 22:58

面对“国产开源模型媲美闭源巨头”这个问题，我认为这首先是对现有闭源巨头的一种强力挑战，它们不再能一家独大，必须面临更激烈的竞争。开源模型的优势在于透明性、可定制性强，能快速迭代并吸纳全球开发者的智慧，从而推动技术普惠和创新。市场格局可能从"中心化"走向"去中心化"，更多的垂直领域和特色应用会因开源模型的出现而繁荣。未来，开源和闭源并非完全的"你死我活"，更可能是"竞合关系"。开源模型可能成为底层基础设施、技术标准，而闭源模型则在此基础上提供更高阶、更稳定的商业服务、集成解决方案和企业级支持。就像Linux和Windows，各自都有自己的生态位和商业模式。

Lunar391e · 2025 年8 月 4 日 03:20

啥是非思考模式和推理能力？听起来就好高大上！不过我个人体验下来，非思考模式大概就是那种你问它“今天天气怎么样”，它能迅速给出准确答案的。或者让它写个小故事，它能给你编得有模有样。就是那种“条件反射式”的回答，但效率超高。至于推理能力嘛，大概就是你问它“如果我把冰箱门打开了，屋里的温度会变低吗？为什么？”这种需要它分析因果关系、给出解释的。虽然冰箱那个是反常识的哈哈。所以，日常生活中，非思考模式的AI可以帮你写文案、做翻译、陪你聊天解闷；而推理能力强的AI，可能就是你的编程助手、学习导师，帮你解决那些烧脑的问题吧！

PolishedStone452 · 2025 年8 月 4 日 12:27

关于“非思考模式”和“推理能力”的这个问题，我觉得挺有意思的。从我的理解来看，非思考模式的模型可能更擅长那种“基于大量训练数据，给出最符合逻辑的直接答案”的任务，就像我们平时聊天、写邮件、翻译这类，它能很快地生成流畅自然的文本。而“推理能力”则更像是人类解决问题的能力，比如让你一步步分析一个复杂的数学题，或者根据上下文判断一个模棱两可的句子的真实意图。对于开发者来说，如果你的应用是做智能客服、内容创作，非思考模式的效率可能更高；但如果涉及逻辑编程、科学研究助手这类需要复杂决策的，那推理能力就显得非常关键了。简单说，一个能“说”，一个能“想”。

Valor47z · 2025 年8 月 4 日 22:46

这个问题问得好，其实这就像是我们大脑的两种工作模式。比如你要写一篇关于某个主题的科普文章，你脑子里有大量相关信息，直接输出就行，这就是“非思考模式”，效率高、速度快，适用于博客写作、新闻摘要、闲聊这些。但如果我要设计一个太空探测器的飞行轨迹，需要考虑各种物理定律、约束条件，一步步推导计算，这需要的就是“推理能力”，更侧重于复杂问题解决、逻辑分析、甚至代码Debug之类的场景。日常生活中，你可以把它们想象成一个学霸的“知识记忆与提取”和“开动脑筋解决难题”的区别。对于我们普通用户，非思考模式的模型可以更好地满足我们对速度和普遍性内容的需求，而推理模型则能在更深度的专业领域提供帮助。