阿里开源Qwen3-Coder编程模型:能力比肩Claude 4,效率革新开发流程

阿里开源Qwen3-Coder,编程能力比肩Claude,高效开发新选择!

原文标题:刚刚,阿里开源Qwen3-Coder,Claude级别编程模型

原文作者:机器之心

冷月清谈:

Qwen3-Coder是阿里巴巴最新开源的编程模型,它在编程能力上达到了全球开源模型的顶尖水平,甚至超越了闭源的GPT-4.1,与顶级的Claude 4模型旗鼓相当。该模型采用了千问系列中首个混合专家(MoE)架构,总参数量达480B,但激活参数仅35B,并原生支持256K的上下文长度。凭借7.5T的预训练数据(其中70%为代码),Qwen3-Coder在Agent能力评估中表现出色,刷新了WebArena和BFCL的开源模型记录,并在SWE-Bench上取得了开源最佳成绩,可媲美Claude 4。其主要亮点在于解决复杂长任务的能力,能够自主规划并调用大量工具。文章指出,有了它,新手程序员一天可完成资深程序员一周的工作量,甚至有望取代昂贵的Claude,成为Agent领域受欢迎的编程模型。目前,Qwen3-Coder已在魔搭社区和HuggingFace等平台开源,并将集成到通义灵码,API也已上线阿里云百炼。此外,阿里还开源了配套的命令行工具Qwen Code。

怜星夜思:

1、文里说Qwen3-Coder能让新手一天顶资深一周,甚至5分钟搞定官网,听着太玄幻了。实际项目开发中,这种效率真能兑现吗?长期看对现有的开发流程会有什么冲击?
2、Qwen3-Coder在Agent能力上表现很强,甚至超越GPT-4.1,这在实际应用场景里意味着什么?未来它能帮我们解决哪些以前觉得很棘手的编程任务?AI Agent的边界到底在哪里?
3、阿里这次把Qwen3-Coder这样级别的模型开源了,直接对标Claude。大家觉得,在编程大模型这个领域,开源和闭源模式的竞争会怎么发展?开源的优势真能完全碾压闭源吗,还是各有其道?

原文内容

左右滑动查看更多图片

阿里开源,又开始卷起来了!

刚刚,阿里发布了 Qwen3-Coder,这次直接在编程能力上登顶全球开源模型,更厉害的是还超越了 GPT-4.1 这种闭源模型,能和 Claude 4 这个目前最强的编程模型平起平坐。

最让人兴奋的是它的实际效果 —— 据说新手程序员用它一天就能完成资深程序员一周的工作量,生成一个品牌官网最快只需要 5 分钟。这效率简直颠覆认知。

从技术角度看也很有意思,这是千问系列首个采用混合专家 MoE 架构的代码模型,总参数达到 480B 但只激活 35B 参数,原生支持 256K token 上下文,还能扩展到 1M 长度。它用 7.5T 数据预训练,其中 70% 都是代码,难怪编程能力这么强悍。

Agent 能力方面的表现更是亮眼。在 WebArena(浏览器调用)和 BFCL(工具调用)这些 Agent 评测中,Qwen3-Coder 直接刷新了开源模型记录,甚至超越了 GPT-4.1。在 SWE-Bench 这个考察模型自主解决编程任务的评测里,也拿到了开源最佳成绩,能媲美 Claude 4 的水平。

最实用的还是它解决复杂长任务的能力,能够统筹全局自主规划,调用各种工具深入研究问题。实测显示它能调用的工具数量比 Claude 多好几倍,效果相当出色。业内已经有人说开源的 Qwen3-Coder 可能要取代昂贵的 Claude,成为 Agent 领域最受欢迎的编程模型。

目前,它已经在魔搭社区、HuggingFace 等平台开源了,全球开发者都能免费使用。很快还会接入通义灵码,API 也上线了阿里云百炼。

阿里还专门开源了命令行工具 Qwen Code,能更好发挥代理式编程的潜力。而且 API 可以和 Claude Code、Cline 这些工具协同使用。

一直以来,Claude 都是编程大模型领域的天花板。此次阿里开源这种级别的编程模型,你怎么看?欢迎已经用上的同学们评论。

Qwen3-Coder在Agent能力的突出表现,尤其是在WebArena和BFCL这类测评基准上的领先,意味着它在自主、多步骤地执行复杂任务方面具备了显著优势。这不仅仅是生成代码,更重要的是它能理解任务上下文、规划执行路径、调用外部工具,并根据反馈进行迭代与修正。在实际应用中,这意味着未来可以期待它在自动化测试、复杂系统集成、数据分析管道构建甚至自动化漏洞修复等领域发挥更大作用。AI Agent的边界,目前来看主要受限于其对“常识”的理解、对开放世界复杂性的处理能力以及在高度不确定性环境中进行决策的能力。真正的“通用人工智能代理”仍需时日。

这个问题挺有意思的。从商业角度看,闭源模型靠卖API调用挣钱,目标是服务更多企业用户;开源嘛,可能阿里是想通过它来构建自己的生态,吸引开发者使用阿里云的服务,或者间接推广通义大模型家族。我觉得双方都会持续投入,但竞争会越来越激烈。闭源的“护城河”在于顶级的性能和大规模算力投入,以及独家数据。而开源的“护城河”在于庞大的社区贡献和快速迭代。最终,用户会根据自己的需求(成本、性能、定制化程度、数据隐私等)来选择。可能小型团队和个人开发者会倾向开源,而大型企业对稳定性和服务质量要求高的,会继续依赖闭源API。谁能笑到最后,还得看谁能真正解决用户痛点,并且跑得够快。

哇塞,如果真能做到这样,那简直是生产力革命啊!想想看,以前几天甚至几周的工作量,现在几分钟搞定,那不是能大大缩短产品上市时间吗?创业公司可能也能以更低的成本迅速迭代。我倒是觉得,这种效率提升会迫使我们重新思考“程序员”的定义,可能未来更多的是“AI代码质量管理师”或者“高级提示工程师”,而不是纯粹的编码民工了。不过,核心业务逻辑和创新性的突破,估计还得靠人类的脑洞。

我敢说,Agent能力强,最直接的好处就是能把我们从那些繁琐、重复的操作中解放出来。比如以前要手动部署一套环境,各种工具链配置,现在可能跟Qwen3-Coder说一句就能帮你搞定,甚至还能帮你修复个测试环境里的小bug。未来的编程,可能不再是写一行行代码,而是通过更高级别的指令,让AI Agent像个“智能项目经理”一样,去协调资源,完成任务。至于边界嘛,目前肯定还不能指望它能独立设计一套复杂的操作系统或者解决火星移民这种宏大问题,但日常的“体力活”编程,它会越来越驾轻就熟。

我绝对是开源派的拥趸!阿里这次开源Qwen3-Coder简直是给整个行业开了个好头。你想想,开源就意味着普惠,意味着任何开发者都能在此基础上进行创新和二次开发,而不必受制于大公司的API限制和高昂费用。这种社区的力量是闭源模型永远无法比拟的。尤其在编程领域,对透明度、可定制性和本地化部署的需求非常高,开源模型有着天然的优势。长期来看,我相信开源模型会像Linux之于操作系统一样,最终在编程工具链生态中占据核心地位,成为事实标准。闭源的优势只是一时,生态才是王道!

对于Qwen3-Coder说新手一天顶资深一周这个事儿,我个人持保留意见。可能在某些特定、重复性高的任务上能体现出来,比如生成个官网页面啥的。但真要到复杂、需要大量业务逻辑和长期维护的项目,尤其涉及架构设计、bug调试和团队协作,我觉得AI目前还很难替代资深工程师的经验和判断力。它更像个超级助理,把基础体力活搞定,让资深工程师能专注于更有价值的创造性工作。长期看,流程肯定会变,测试和Code Review可能会更侧重AI生成代码的质量和安全性。

听着就牙痒痒,这不是摆明了要逼死我们这些“老家伙”吗?哈哈。开玩笑归开玩笑,我觉得这种效率的提升肯定是有场景限制的。比如对于那些“CRUD Boy”或者做简单前端页面的,Qwen3-Coder肯定能大大提高效率。但真正的“搬砖”不仅仅是敲代码,还包括了需求理解、架构设计、问题排查、线上稳定……这些环节AI目前都还没法完全Hold住。短期看,可能让项目排期变得更“激进”了,甲方爸爸又要提新需求了,QA测试估计要加班加点了!总之,解放我们双手去喝茶是不可能的,只会让我们干更多的活儿!

在编程大模型领域,开源与闭源的竞争会是一个长期且多元化的局面。闭源模型如Claude、GPT系列,通常能更快地集成最前沿的研究成果,通过API提供高质量服务,并通过商业模式快速回笼资金进行再投入,其优势在于算力投入、数据积累和专业优化。而开源模型如Qwen3-Coder,则凭借其开放性吸引全球开发者共同贡献、迭代,形成强大的社区生态,降低了使用门槛,促进了技术普惠。未来,闭源模型可能会继续在高精度、高吞吐和特定商业场景保有优势,而开源模型则可能在定制化、本地部署和通用工具链方向上发力,甚至成为行业标准。两者并非你死我活,而可能形成互补或差异化竞争。

哇塞,这不就是电影里那种“钢铁侠贾维斯”的早期版本吗?!以后我只用说一句:“贾维斯,给我搞一个能自动炒股还能顺便帮我点外卖的APP!” 它就全给我安排得明明白白了?想想就刺激!Agent的边界?我觉得它能帮我把那些我最讨厌的、要改几百行if-else的代码都搞定,甚至还能帮我跟产品经理吵架,那简直就是我的超人!但要说完全取代人类思考?哼哼,做梦!我的咖啡还得我自己冲呢!