阿里通义千问发布 Qwen3-Max-Thinking:万亿参数挑战 Gemini 与 Claude

阿里发布万亿参数 Qwen3-Max-Thinking,多项基准测试媲美甚至超越 GPT-5.2、Claude-Opus 和 Gemini-3 Pro。

原文标题:参数破万亿!阿里Qwen3-Max-Thinking发布,编程能力“踢馆”Gemini与Claude

原文作者:AI前线

冷月清谈:

阿里通义千问发布了Qwen3-Max-Thinking,这是一个总参数超过1万亿的超大规模AI模型。该模型在多个权威基准测试中表现出色,性能可与GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro等顶级模型竞争,甚至在某些方面超越。Qwen3-Max-Thinking 引入了自适应工具调用能力(能自主选择并调用搜索、记忆和代码解释器)和测试时扩展技术(通过迭代式自我反思提升推理性能)两项核心创新,这两项技术显著提升了模型在复杂推理和编程任务中的能力。目前,该模型已在千问App PC端和网页端上线,并开放API。

怜星夜思:

1、Qwen3-Max-Thinking 在工具调用方面的“自主选择”具体是如何实现的?与传统的工具调用方式相比,这种自适应能力带来了哪些实际优势?
2、文章中提到的“测试时扩展技术”通过“经验提取”避免重复推导,这种机制的具体原理是什么?它与传统的并行采样与聚合方法相比,优势体现在哪些方面?
3、网友评论中提到“产品体验、生态建设是否匹配当前能力”,你认为目前大模型在产品化和生态构建方面面临的最大挑战是什么?

原文内容



作者|冬梅
阿里突发最强旗舰模型,总参数过万亿

就在刚刚,Qwen3-Max-Thinking 正式版突然发布,总参数规模超过 1 万亿(1T),位于目前全球最大规模 AI 模型行列,预训练数据规模高达 36T Tokens,覆盖大量高质量语料。

Qwen3-Max 是阿里通义团队迄今规模最大、能力最强的语言模型,该版本包括 Base、Instruct 和 Thinking 多种形式。

在多项权威基准测试中表现优异,Qwen3-Max-Thinking 性能可与 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等闭源顶级模型竞争甚至超越。

具体而言,Qwen3-Max-Thinking 在多项关键 AI 基准测试中达到了或刷新了全球 SOTA 表现:

  • 在包含事实科学知识、复杂推理和编程能力在内的 19 项权威基准测试中取得极高水平,有记录显示其综合表现可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini-3 Pro 等业内领先模型。
  • 在数学推理基准测试中,该模型曾在预览阶段实现 AIME 25 和 HMMT 25 满分(即 100% 准确率),这一表现被认为代表了高难度数学推理能力。
  • 相较于此前的 Instruct 版本,Thinking 版本在 Agent 工具调用、复杂逻辑和深度推理任务中表现出更优的能力。

这些测试覆盖了科学知识问答(如 GPQA Diamond)、数学推理(如 IMO 等级测试)、代码编程(如 LiveCodeBench)等多个领域,是衡量大型语言模型综合能力的重要指标。

为实现上述性能突破,千问团队在官方博客中称为 Qwen3-Max-Thinking 引入两项核心创新:

  • 自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线;
  • 测试时扩展技术(Test-Time Scaling),显著提升推理性能,在关键推理基准上超越 Gemini 3 Pro。

那么,这两项核心创新到底什么意思?

首先是自适应工具调用能力,据千问团队介绍,与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking 能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。

该能力源于专门设计的训练流程:在完成初步的工具使用微调后,模型在多样化任务上使用基于规则和模型的反馈进行了进一步训练。实验表明,搜索和记忆工具能有效缓解幻觉、提供实时信息访问并支持更个性化的回复。代码解释器允许用户执行代码片段并应用计算推理来解决复杂问题。这些功能共同提供了流畅且强大的对话体验。

再来说说测试时扩展。该技术是指在推理阶段分配额外计算资源以提升模型性能的技术。研发团队提出了一种经验累积式、多轮迭代的测试时扩展策略。

不同于简单增加并行推理路径数量 N(这往往导致冗余推理),团队对并行轨迹数量进行限制并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。

该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。关键在于,相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在大致相同的 token 消耗下,该方法持续优于标准的并行采样与聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

这些技术改善了模型处理复杂任务时的自主规划、推理链构建和决策能力。

千问 App PC 端和网页端已经第一时间上新这一 Qwen 系列最强模型,现在即可免费体验。API(qwen3-max-2026-01-23)也已开放。

体验地址:https://chat.qwen.ai/?spm=a2ty_o06.30285417.0.0.1ef4c921OJuiXU

网友:中国大模型卷疯了!

在模型发布消息传出后,社交平台上也迅速出现了大量讨论。一部分网友的关注点集中在模型能力本身,语气中带着明显的惊讶与认可。

有海外开发者在 X 上表示,自己已经习惯看到 Qwen 在多个榜单上“反超”其他模型。

“Qwen 总是能跑赢其他模型,”一位用户调侃道,同时也提出了更偏产品层面的期待,希望 Qwen 能在 Android 端做出“更简洁、更有辨识度的应用设计”,认为模型能力已经走在前面,产品体验还有进一步打磨空间。

也有不少声音将 Qwen 的发布节奏与国际头部厂商作对比。一位网友直言,通义千问团队在模型更新和能力披露上的频率,甚至“已经超过了 OpenAI”。在他看来,这种持续、高密度的迭代和公开沟通,本身就是一种对开发者更友好的信号,至少让外界清楚知道模型在什么阶段、解决了哪些问题。

还有用户的反馈则更为直接。一位名为 Harriett Solid 的网友在评论中写道:“这正是我一直在等的 Qwen 发布版本。”这类评价并未展开具体技术细节,但从情绪上看,显然将 Qwen3-Max-Thinking 视为一次“到位”的升级,而不是过渡性产品。

整体来看,网友评论呈现出两个明显特点:一方面,对 Qwen 在推理能力和更新速度上的认可度较高;另一方面,讨论已经开始从“模型是否强”延伸到“产品体验、生态建设是否匹配当前能力”。

这也从侧面反映出,随着模型能力逼近甚至进入全球第一梯队,外界对通义千问的期待,正在从单点技术突破,转向更完整的产品与平台层面。

参考链接:

https://chat.qwen.ai/

https://qwen.ai/blog?id=qwen3-max-thinking

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

今日荐文

图片

你也「在看」吗?👇

测试时扩展技术的核心在于效率。标准的并行采样与聚合方法,简单来说就是“人多力量大”,但很多人都在做重复劳动。“ 경험 추출 ”机制则像是有个小组长,把大家做过的东西总结一下,避免重复。优势在于,相同的计算资源下,能够处理更复杂的问题,或者在相同的问题上达到更高的准确率。学术一点说,是在推理过程中实现了更有效的知识蒸馏。

这个“经验提取”感觉像是给模型加了一个“记忆”模块,记录下之前推理过程中的关键信息和结论。在后续的推理中,模型会先检查“记忆”,如果已经有相关的结论,就直接利用,避免重复计算。而传统的并行采样与聚合方法,每次都是从头开始推理,浪费了很多计算资源。你可以理解为,一个学霸做题,做过的题下次直接套公式,而学渣每次都得重新推导。

我认为最大的挑战在于通用性和定制化之间的平衡. 大模型很强大,但是要让它真正服务于某个行业或者特定用户群体,还需要进行大量的定制化工作。这涉及到数据收集、模型微调、应用开发等等,需要耗费大量的人力和时间。另外,现在大模型的接口还不够友好,对于非专业的开发者来说,使用门槛比较高。 感觉就像是拿到了一把瑞士军刀,功能很多,但是要真正用好,还需要学习各种工具的使用方法。

我理解这个’经验提取’像是在模型推理过程中建立了一个动态的知识图谱,每次推理的结果都会被整理成知识点存储到这个图谱中。后续推理时,模型会先检索这个图谱,看有没有相关的知识可以使用。与传统的并行方法相比,这种机制更像是一个迭代优化的过程,而不仅仅是简单的增加计算量,有点类似于人类的思考方式:不断学习和积累经验。

我觉得最大的挑战是找到真正 Killer Application。现在很多大模型应用都停留在“炫技”阶段,并没有解决用户的实际痛点。生态构建方面,需要有更多开发者参与进来,基于大模型开发出各种各样的应用。就好比智能手机,光有强大的硬件没用,还得有丰富的APP应用才行。当前的大模型,有点像“屠龙之技”,看起来很厉害,但用处不大。 需要找到能让大家“用得爽”的应用场景。

我猜想它的实现方式可能是通过一个大型神经网络,这个网络分析用户输入,并根据它的内部知识和训练数据来预测哪个工具最适合解决问题。这种方式的优点是显而易见的:它使得用户体验更加无缝,因为用户不再需要手动指定使用哪个工具。缺点也很明显,如果自主选择出现偏差,可能导致南辕北辙。

Qwen3-Max-Thinking 的自主选择工具调用,应该是在训练过程中通过大量数据让模型学习到在不同情境下应该调用哪些工具。你可以理解为模型内部有一个决策机制,根据输入的文本和上下文,判断是需要搜索信息、查询记忆还是执行代码。这种自适应能力避免了人工干预,提高了效率,也使得模型能够更好地应对复杂任务。打个比方,以前你让AI帮你查天气,你得告诉它“用XX搜索工具查”,现在你直接说“今天天气怎么样”,它自己就知道该用什么工具了。

从商业角度来看,成本控制和盈利模式是关键。大模型的训练和推理成本都非常高,如果不能找到有效的盈利模式,很难持续发展。同时需要考虑数据安全和隐私保护问题,避免滥用大模型带来的风险。生态建设方面,需要建立一个开放、协作的平台,鼓励开发者和企业共同参与,形成一个良性循环。有点像建一个高科技产业园,光有技术不行,还得有资金、政策和人才。

从技术角度看,这可能涉及到强化学习或者基于模型的元学习。模型需要学习一个策略,这个策略会根据当前的状态(即对话历史)选择最优的工具。 优势在于,用户使用门槛降低,不再需要了解各种工具的语法和使用方法;同时也提升了模型的泛化能力,使其可以在更广泛的任务中应用各种工具。有点像给AI配备了一个智能助理,能根据你的需求自动分配任务。