阿里开源Qwen 3.5-Plus:性能比肩Gemini,推理效率大幅提升

阿里开源Qwen 3.5-Plus,性能媲美Gemini 3 Pro,成本降至1/18!底层架构革新,原生多模态训练,Agent能力大幅提升。

原文标题:阿里除夕开源“王炸”千问 3.5-Plus ,性能媲美Gemini 3 Pro、Claude 4.5 Opus,百万 Token 8毛钱

原文作者:AI前线

冷月清谈:

阿里巴巴在除夕当天开源了新一代大模型 Qwen 3.5-Plus。该模型在性能上对标 Gemini 3 Pro,并在多个基准测试中超越,而API价格仅为 Gemini 3 Pro 的 1/18,每百万 Token 0.8 元人民币。Qwen 3.5-Plus 并非参数规模的线性升级,而是一次 底层模型架构的全面革新,总参数规模为 3970 亿,但单次激活参数仅 170 亿。它基于视觉和文本混合 token 进行预训练,并大幅新增中英文、多语言、STEM 和推理等数据,在推理、编程、Agent 智能体等全方位基准评估中均表现优异。其综合性能超过了此前万亿参数规模的 Qwen3-Max,显存占用反而降低约 60%,推理效率显著提升。在多个高难度基准中,如MMLU-Pro、GPQA、IFBench等,其成绩均进入“第一梯队”。Qwen 3.5 还实现了原生多模态训练,在多模态推理、通用视觉问答、文本识别和文件理解、空间智能、视频理解等评测中均斩获最佳性能。千问团队通过自研的门控技术、混合专家MoE模型架构,以及训练稳定优化和多 token 预测等技术,实现了性能与效率的提升。千问 3.5 的开源,以及其在UI设计、多语言支持和Agent能力方面的潜力,引起了海外技术社区的广泛关注。

怜星夜思:

1、千问 3.5-Plus 的开源会对国内大模型行业带来哪些影响?它在性能和成本上的优势,是否会加速国内大模型市场的洗牌?
2、Qwen 3.5-Plus 在 Agent 智能体方面的能力提升,预示着大模型未来的发展方向吗?你认为“模型不仅会说话,还会做事”的 Agent AI,会在哪些领域率先落地应用?
3、文章提到千问 3.5-Plus 在多语言支持方面扩展至 201 种语言,这一特性对于全球化业务的企业来说意味着什么?你认为大模型在多语言能力上还有哪些挑战?

原文内容

整理|冬梅

除夕当天,阿里巴巴低调但密集地抛出了一枚重磅“技术炸弹”——全新一代大模型 Qwen 3.5-Plus 正式开源。

GitHubhttps://github.com/QwenLM/Qwen3.5

APIhttps://modelstudio.console.alibabacloud.com/ap-southeast-1/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen3.5-plus

Hugging Facehttps://huggingface.co/collections/Qwen/qwen35

ModelScopehttps://modelscope.cn/collections/Qwen/Qwen35

官方给出的定位非常直接:性能对标 Gemini 3 Pro,并在多个关键基准中实现超越;而在成本侧,千问 3.5-Plus 的 API 价格低至每百万 Token 0.8 元人民币,仅为 Gemini 3 Pro 的 1/18。

在当前大模型进入“性能趋同、成本博弈”的阶段,这一组合几乎精准击中了行业的核心痛点。

不是小修小补,而是一次底层架构重做

与前几代千问模型相比,千问 3.5 并非参数规模的线性升级,而是一次 底层模型架构的全面革新

据官方介绍,千问 3.5-Plus 的总参数规模为 3970 亿,但单次激活参数仅 170 亿

千问 3 预训练在纯文本 Tokens 上进行,而千问 3.5 则基于视觉和文本混合 token 上预训练,并大幅新增中英文、多语言、STEM 和推理等数据,让张开“眼睛”的大模型学会了更密集的世界知识和推理逻辑,以不到 40% 的参数量获得超万亿的 Qwen3-Max 基座模型的顶尖性能,在推理、编程、Agent 智能体等全方位基准评估中均表现优异。

在这种“以小胜大”的设计下,其综合性能不仅超过了此前万亿参数规模的 Qwen3-Max,显存占用反而降低约 60%,推理效率显著提升,最大推理吞吐量可提升至 19 倍

这意味着,在相同硬件条件下,开发者可以:

  • 跑更大的并发
  • 支撑更复杂的 Agent 任务
  • 显著压低单位调用成本

在推理密集型应用逐渐成为主流的当下,这种工程取向的优化,比单纯堆参数更具现实意义。

比如,在多个高难度基准中,其成绩已经进入“第一梯队”:

  • MMLU-Pro 知识推理:87.8 分,超越 GPT-5.2
  • GPQA 博士级难题:88.4 分,高于 Claude 4.5
  • IFBench 指令遵循:76.5 分,刷新当前模型纪录
  • 通用 Agent 评测(BFCL-V4)、搜索 Agent(BrowseComp):整体表现均超过 Gemini 3 Pro 与 GPT-5.2

图说:阿里开源千问 Qwen3.5-Plus,性能媲美 Gemini 3 Pro

原生多模态训练,也带来千问 3.5 的视觉能力飞跃:在多模态推理(MathVison)、通用视觉问答 VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等众多权威评测中,千问 3.5 均斩获最佳性能。

在学科解题、任务规划与物理空间推理等任务上,千问 3.5 相比千问专项模型 Qwen3-VL 表现更好,空间定位推理和带图推理能力均大幅增强,推理分析更精细、精准;在视频理解方面,千问 3.5 支持长达 2 小时(1M token 上下文)的视频直接输入,适用于长视频内容分析与摘要生成;同时,千问 3.5 实现了视觉理解与代码能力的原生融合,结合图搜和生图工具,可将手绘界面草图直接转为可用的前端代码,一张截图就能定位并修复 UI 问题,让视觉编程真正成为生产力工具。

相对于 Qwen3 系列模型,Qwen3.5 的 Post-training 性能提升主要来自于阿里对各类 RL 任务和环境的全面扩展。研发团队更加强调 RL 环境的难度与可泛化性,而非针对特定指标或狭隘类别的 query 进行优化。

下图展示了在通用 Agent 能力上,模型效果随 RL Environment scaling 带来的增益。整体性能由各模型在以下基准上的平均排名计算得出:BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。

背后的技术细节

千问 3.5 性能跃升的背后,是对 Transformer 经典架构的重大创新突破。千问团队自研的门控技术成果,曾斩获全球 AI 顶会 2025 NeurIPS 最佳论文,该前沿技术已融入到千问 3.5 创新的混合架构中去,团队结合线性注意力机制与稀疏混合专家 MoE 模型架构,实现了 397B 总参数激活仅 17B 的极致模型效率;

同时,千问 3.5 通过训练稳定优化以及多 token 预测等系列技术,Qwen3.5 性能与 Qwen3-Max 模型持平,并进一步提升了推理效率:在常用的 32K 上下文场景中,千问 3.5 推理吞吐量可提升 8.6 倍;在 256K 超长上下文情况下,Qwen3.5 推理吞吐量最大提升至 19 倍,推理效率大幅提升。

具体而言,千问团队做了什么?

据千问技术博客介绍,他们在预训练上下了一番功夫。Qwen3.5 在能力、效率与通用性三个维度上推进预训练:

能力(Power):在更大规模的视觉 - 文本语料上训练,并加强中英文、多语言、STEM 与推理数据,采用更严格的过滤,实现跨代持平:Qwen3.5-397B-A17B 与参数量超过 1T 的 Qwen3-Max-Base 表现相当。

效率(Efficiency):基于 Qwen3-Next 架构——更高稀疏度的 MoE、Gated DeltaNet + Gated Attention 混合注意力、稳定性优化与多 token 预测。在 32k/256k 上下文长度下,Qwen3.5-397B-A17B 的解码吞吐量分别是 Qwen3-Max 的 8.6 倍 /19.0 倍,且性能相当。Qwen3.5-397B-A17B 的解码吞吐量分别是 Qwen3-235B-A22B 的 3.5 倍 /7.2 倍。

通用性(Versatility):通过早期文本 - 视觉融合与扩展的视觉 /STEM/ 视频数据实现原生多模态,在相近规模下优于 Qwen3-VL。多语言覆盖从 119 增至 201 种语言 / 方言;25 万词表(vs. 15 万)在多数语言上带来约 10–60% 的编码 / 解码效率提升。

图说:千问 3.5 推理效率大幅提升,最大吞吐量提升至 19 倍

千问 3.5 的原生多模态训练工作,是在阿里云的 AI 基础设施上完成的。围绕多模态训练过程中常见的算力与效率瓶颈,千问团队在底层训练技术上进行了多项改进,使模型在文本、图像、视频等混合数据上的训练吞吐量,接近纯文本基座模型的训练水平,二者几乎持平。这在一定程度上降低了原生多模态模型在工程实现层面的复杂度与门槛。

在数值精度设计上,千问 3.5 采用了结合 FP8 与 FP32 的混合精度策略。在训练规模扩展至数十万亿 Token 的情况下,该策略使激活内存占用减少约 50%,同时训练速度提升约 10%。相关优化在控制训练稳定性的同时,降低了整体算力消耗,也带来了模型训练成本的进一步下降。

在模型能力层面,依托视觉理解能力的增强,千问 3.5 的应用场景开始从 Agent 框架层延伸至更具体的 Agent 应用。模型具备在手机和电脑环境中执行操作的能力,能够完成多种日常任务。在移动端,千问 3.5 支持更多主流应用及相关指令;在 PC 端,则可以处理包含多步骤的复杂操作,例如跨应用的数据整理和自动化流程执行等,从而提升整体操作效率。

围绕 Agent 能力的训练与扩展,千问团队同时构建了一套可扩展的异步强化学习框架。该框架在端到端训练过程中可实现约 3 至 5 倍的加速,并支持插件式智能体 Agent 的扩展,规模可提升至百万级。

在开源生态方面,自 2023 年启动开源以来,阿里已累计开源 400 余个千问模型,覆盖不同参数规模及多种模态类型。根据官方披露的数据,千问模型的全球累计下载量已超过 10 亿次,单月下载量超过 DeepSeek、Meta、OpenAI、智谱、Kimi、MiniMax 等多个模型的合计水平。开发者基于千问模型构建的衍生模型数量已超过 20 万。

针对不同国家和地区开发者及企业的使用需求,千问大模型体系仍在持续扩展中。以千问 3.5 为例,其语言支持范围已扩展至 201 种语言,词表规模由 15 万增加至 25 万,在部分小语种场景下,编码效率最高可提升约 60%。

据悉,千问 APP、PC 端已第一时间接入 Qwen 3.5-Plus 模型。开发者可在魔搭社区和 HuggingFace 下载新模型,或通过阿里云百炼直接获取 API 服务。阿里很快将继续开源不同尺寸、不同功能的千问 3.5 系列模型。性能更强的旗舰模型 Qwen3.5-Max 不久也将发布。

外网炸了

围绕 Qwen 3.5 Plus 的发布,海外技术社区也迅速出现了多种不同侧重的讨论视角。

在 x 平台,有用户首先注意到模型在界面与交互层面的能力。一位网友评价称,Qwen 3.5 Plus 展现出“非常出色的 UI 设计能力”,在生成界面布局、组件结构以及交互逻辑时,整体完成度明显高于以往的大模型表现。这类能力被认为对低代码开发、应用原型设计等场景具有直接价值。

也有评论将关注点放在多语言覆盖能力上。

针对 Qwen 3.5 扩展支持 201 种语言,一位用户直言“太棒了”,并特别提到,模型已经能够清晰、自然地使用自己的母语进行表达。这位用户同时表示,十分期待后续 A17b 版本在多语言和推理能力上的进一步表现。这类反馈反映出,超大规模语言覆盖正在从“参数指标”转变为真实可感知的使用体验。

此外,还有网友从更宏观的行业趋势出发,对这次发布进行了解读。在相关评论中提到,“智能体人工智能(Agent AI)”的竞争正在明显升温。

该用户指出,阿里巴巴 发布 Qwen 3.5 的目标并不止于提升对话能力,而是让模型能够在真实应用中采取行动,包括在应用程序中执行任务、完成操作流程等。在其看来,“模型不仅会说话,还会做事”正在成为新的竞争方向,而“智能体”很可能成为 2026 年最重要的 AI 主题之一。

整体来看,这些来自社区的反馈从 UI 生成、多语言体验到 Agent 化趋势,勾勒出 Qwen 3.5 Plus 在开发者与技术用户眼中的几个关键定位:不仅是性能升级的模型版本,也被视为迈向“可执行智能体”的重要一步。

参考链接:

https://x.com/bariserdem81/status/2023331882893443347

https://qwen.ai/blog?id=qwen3.5

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

今日荐文

图片

你也「在看」吗?👇

我感觉这次阿里开源千问 3.5-Plus,有点像鲶鱼效应。之前大家都在自己的小池塘里扑腾,现在突然来了一条大鲶鱼,搅动了整个市场。短期内肯定会对一些企业造成冲击,但长期来看,这也能激发整个行业的活力,让大家更有动力去创新和发展。毕竟,只有不断进步,才能在激烈的市场竞争中生存下去。

对于做跨境电商的朋友来说,这个功能简直太香了!以前要对接不同国家的客服,光是语言就是一个大问题,现在有了千问 3.5-Plus,可以直接用母语和客户交流,沟通效率肯定大大提高。不过话说回来,机器翻译再厉害,也比不上真人,有些文化差异和语言习惯,机器还是很难理解的。希望以后的大模型能在这方面做得更好。

我觉得Agent AI这个概念挺酷的,以后会不会出现像《西部世界》里的机器人一样,既能聊天,又能干活?开个玩笑哈。不过认真来说,Agent AI肯定会在需要大量重复性工作的领域先落地,比如金融行业的自动化报表生成,电商的智能客服,还有物流行业的路径规划等等。这些领域对效率要求高,而且人力成本也高,Agent AI可以很好地解决这些问题。

从技术实现的角度来看,Agent AI 的关键在于如何让模型具备自主学习、感知环境和决策行动的能力。这需要结合强化学习、计算机视觉、自然语言处理等多种技术。目前,已经有一些研究机构和企业在进行这方面的探索,例如 OpenAI 的 GPTs,以及一些基于大模型的自动化工具。未来,随着技术的不断进步,Agent AI 的能力将会越来越强大,应用范围也会越来越广泛。

千问 3.5-Plus 的开源无疑会对国内大模型行业带来巨大的冲击。性能上对标 Gemini 3 Pro,成本却大幅降低,这对于很多还在苦苦追赶的企业来说,无疑是一个巨大的压力。一方面,它可能会加速国内大模型市场的洗牌,一些技术实力较弱、成本控制能力差的企业可能会被淘汰。另一方面,它也会倒逼其他企业加大研发投入,努力提升自身的技术水平和竞争力。长期来看,这对整个行业的发展是有利的,可以促进行业的优胜劣汰,提升整体的技术水平。

千问 3.5-Plus 扩展至 201 种语言绝对是全球化业务企业的福音!这意味着企业可以使用同一个模型,为不同国家和地区的用户提供服务,无需针对每种语言都训练一个单独的模型,大大降低了成本和复杂度。但大模型在多语言能力上仍然面临很多挑战,例如:1. 数据稀缺:很多小语种的训练数据非常有限,导致模型在这些语言上的性能较差;2. 语言差异:不同语言的语法、语义和文化背景差异很大,如何让模型理解这些差异是一个难题;3. 翻译质量:目前的机器翻译技术仍然不够完善,容易出现翻译错误,影响用户体验。

Agent 智能体绝对是大模型未来的发展方向之一!现在的大模型只能进行简单的对话和生成,缺乏自主行动能力。而 Agent 智能体则可以根据用户的指令,自主地完成各种任务,这无疑会极大地拓展大模型的应用范围。我认为 Agent AI 会在以下几个领域率先落地应用:1. 智能客服:Agent AI 可以自主地处理用户的咨询和投诉,无需人工干预,提高服务效率;2. 智能助手:Agent AI 可以帮助用户完成各种日常任务,例如预定机票、安排行程、管理邮件等,提高生活效率;3. 自动化流程:Agent AI 可以自主地执行各种自动化流程,例如数据分析、报告生成、风险评估等,提高工作效率。

从学术角度来看,千问 3.5-Plus 的开源降低了大模型的使用门槛,使得更多的研究者和开发者能够参与到大模型的研发和应用中来。这有助于推动大模型技术的创新和发展,促进大模型在各个领域的应用。同时,开源也使得大模型的安全性和可靠性得到了更好的保障,因为更多的开发者可以参与到模型的测试和改进中来,及时发现和修复潜在的问题。

从语言学的角度来看,大模型的多语言能力实际上是建立在对不同语言的底层结构和语义关系的理解之上的。目前,很多大模型主要还是以英语为中心进行训练,对于其他语言的理解还不够深入。因此,未来大模型需要更加注重对不同语言的语言学特征进行研究,并采用更加有效的训练方法,才能真正实现多语言的流畅和自然的表达。