GLM-5:中国AI从“炫技”到“实干”的成人礼?

智谱GLM-5标志中国AI从“炫技”到“实干”的转变,开源模型具备系统工程能力,比肩GPT、Claude,国产AI火力全开。

原文标题:GLM-5封神,智谱市值五天翻倍,中国AI火力全开了

原文作者:机器之心

冷月清谈:

文章指出,智谱GLM-5的发布标志着中国AI正在从“炫技”的青春期迈向成熟的成年期。与以往侧重前端展示的AI模型不同,GLM-5专注于解决更深层次的系统工程问题,具备了进行复杂架构重构、算法实现以及操作系统内核级开发的能力。通过实际案例,如构建高并发分布式算力调度系统、全栈式生命游戏和标题推荐器,展示了GLM-5在代码能力上的代际跨越。文章还介绍了GLM-5在技术上的突破,如扩展参数规模、集成稀疏注意力机制和构建异步强化学习框架,以及其在主流基准测试中的优异表现。同时,智谱还推出了Z Code等配套工具链,进一步提升了开发效率,并实现了与国产算力平台的深度适配。

怜星夜思:

1、GLM-5的出现,是否意味着AI工程师的角色将会发生转变?未来AI工程师的核心竞争力会是什么?
2、文章提到GLM-5在国产芯片上的适配,这对国产AI产业意味着什么?
3、GLM-5从“Vibe Coding”转向“Agentic Engineering”,你认为这种转变对软件开发行业会产生什么影响?

原文内容

Image
机器之心编辑部

我们每天都在见证「全球大模型第一股」智谱的历史新高。



2026 年的春节档,注定将被写入中国 AI 的发展史。


过去半个月,AI 社区被两颗「超新星」彻底点燃:一颗是字节跳动发布的 Seedance 2.0,它用震撼的视频生成能力横扫了全球社交网络,代表了 AI 在感性与创意维度的大爆发;而另一颗,则是这几天让开发者们彻夜未眠的智谱 GLM-5


可以说,Seedance 2.0 让世界看到了中国 AI 惊艳的「想象力」,而 GLM-5 则是在向世界展示中国 AI 扎实的「执行力」。


这恰恰构成了 2026 年 AI 赛道的「双子星」格局:一条是通往物理世界模拟的视频航道,一条是通往数字世界构建的 Coding 航道。


在 Seedance 2.0 爆火之后,GLM-5 在 Coding 领域的开源与实战表现,释放了一个极其重要的信号:中国 AI 正在从炫技的青春期,正式迈向成熟稳重的成年期 —— 这就是国产 AI 的「成人礼」。我们不再满足于生成一个漂亮的网页,而是开始真正接管系统内核、重构复杂架构,去解决那些最硬核的生产力难题。


这种跨越级的跃迁意味着中国 AI 终于真正拿到了属于自己的技术王座。而市场对这位「新王」的反应,可以用「狂热」来形容。


自从前天晚上代号「」的智谱 GLM-5 显露真名以来,其受到的赞誉也被迅速转化成了购买欲,不仅 Ollama、Modal、Poe、硅基流动等诸多平台商提供了 Day-0 支持,智谱官方每天限额的 GLM Coding Plan 即使 也是秒空,没能上车的开发者也只能每天 10:00 蹲点抢。



甚至就连 Ollama 的云服务也在上线 GLM-5 之后被挤爆了。



很多没能及时抢到 GLM Coding Plan 名额的开发者大喊:


图片


这种疯狂的背后,其实是一个信号:开源社区苦「玩具模型」久矣。


既然闭源的 Claude Opus 4.6 和 GPT-5.3 已经证明了 AI 具备系统工程能力,那大家就更受不了手边的开源模型只能写写贪吃蛇、画个 SVG 这种程度的水平了。开发者们在等,等一个开源界真正能干脏活、累活、大工程的「包工头」。


而 GLM-5,似乎就是那个带着安全帽、扛着图纸进场的角色。


别再迷信 Vibe Coding 了

这是「系统工程」的时代


在 2026 年初的今天,AI 编程的门槛已被降至历史最低点。无论是生成一个带有粒子特效的着陆页,还是用 SVG 绘制图标,都已经成为各大模型的基础技能。这种被著名 AI 大牛 Andrej Karpathy 命名为「氛围编程(Vibe Coding)」的开发模式确实能让非技术人员快速上手,产出令人眼花缭乱的 Demo。


这很酷,但对真正的软件工程来说,这远远不够。


前段时间,,悄然改变了顶级闭源模型的竞争维度。它们不再单纯强调「One Shot」的单次生成效果,转而开始比拼 Agentic 能力。这意味着模型需要具备长程规划、多步执行以及处理复杂系统工程的能力


这一次,Karpathy 同样给出了非常不错的总结。他写到:「通过 LLM agent 来编程,正在逐渐成为专业人士的默认工作流,只是伴随着更多的监督和审查。目标是在不牺牲软件质量的前提下,最大化利用 agent 带来的杠杆效应。」



在此背景下,GLM-5 的发布显得尤为关键。它没有选择继续在「前端审美」这条赛道上与其它优秀的开源模型内卷,转而选择了一条更为陡峭的技术路径:成为开源界首个「系统架构师」级模型。(当然,GLM-5 的前端审美依然非常在线。)


正如著名 AI 研究者 Simon Willison 在博客中评论的那样,GLM-5 可被称为「用 LLM 构建的专业软件工程师」,看到智谱选择「Agentic Engineering」这个词来形容这种范式是「很有意思的」。


这种差异化的定位的直接体现是解决问题的深度。是的,GLM-5 能解决更加困难的系统级问题了!


如果你需要快速搭建一个视觉效果炸裂的网页原型,市场上已有众多模型可供选择。但如果你面对的是后端架构重构、复杂算法实现或是操作系统内核级的开发任务,GLM-5 很可能是目前开源社区的唯一可选项。


口说无凭,我们决定给它上点强度。


我们没有让它写游戏,而是扔给它一个极度硬核的任务:从零构建一个基于 Rust 的高并发分布式算力调度系统。



从这个提示词可以看出,完成这个任务将需要 GLM-5 具备系统架构级理解与重构、并发模型的理解与掌控、分布式调度与算法设计、Agentic 规划与工程分解、全栈协同、工程防御等多种能力。


如果换做以前的模型,大概率会给你生成一段漂亮的 Python 代码,然后在大并发下直接崩盘。但 GLM-5 的表现,确实让我们产生了一种「坐在高级架构师旁边结对编程」的错觉。



它没有急着写代码,而是先画图。它否定了单体架构,设计了 Gossip 协议做节点发现,上了 Raft 做共识,甚至考虑到了网络分区时的 CP/AP 取舍。



在随后的 40 分钟里,看着它用 Tokio 重写异步逻辑,自己处理 Rust 那个让人头大的所有权机制,甚至自己发现编译错误自己修,这种「它真的在思考,而不是在概率匹配」的感觉非常强烈。


GLM-5 在执行过程中自动验证和修复


最终,它不仅交出了代码,还顺手写了一个防 DDoS 的压力测试脚本。说实话,这种工程防御意识,很多初级人类工程师都未必具备。



最终结果证明,该架构能够在高压下主动拒绝无效请求,同时保障有效任务的成功率。



我们还成功尝试了另一个非常有趣的实测案例,让配置了 GLM-5 的 Claude Code 编写了一个全栈式生命游戏。我们使用了这样一个提示词:



很显然,这个任务既需要 AI 了解算法与数学逻辑,也需要全栈工程架构以及可视化与图形编程能力。


这一次,GLM-5 足足运行了 2 小时 33 分钟,最终得到了这样一个相当复杂的系统:



同样地,这一次的执行过程也充满了大量验证和修改 —— 就像一个真正的软件工程师,最终给出的结果也是直接可用的。不过由于我们没有在提示词中明确指出,GLM-5 给出的初始结果并没有自动运行能力,但没有关系,我们只是简单增加了一句提示词「增加一个自动运行功能,可以比如一秒前进一步」,GLM-5 仅用 4 分钟就解决了这个问题,给出了让人满意的结果。这是我们以前面的提示词截图为种子运行得到的效果:



最后,我们还用 GLM-5 构建一个非常实用的标题推荐器。使用我们 2025 年之前的 5086 个标题,我们让 GLM-5 仔细分析后构建了一个标题推荐 Skill。提示词如下:


读取 机器之心文章列表.md,分析里面的所有标题,为我编写一个文章标题推荐 Skill,让我可以贴入文章,让 AI 每次为我建议 10 个不同标题。


最终,我们得到了一个相当不错的 Skill,能为我们推荐 10 个不同风格的标题:



我们找了一篇近期的文章来实验,效果可以说是出人意料了,有好几个标题都可以直接使用:



GLM-5 甚至还为我们创建了一个细节到各个关节都能独立运动的人体模拟器:



从这些项目体验中,我们感受到:开源模型代码能力已经实现了代际跨越。我们相信这也是智谱将 GLM 系列的模型的版本号提升到 5 的底气。


GLM-5 证明了开源模型已经具备了处理复杂任务的能力。它不再仅仅是一个辅助写代码的 Copilot,更像是一个能够独立承担系统级任务的 AutoPilot。对于开发者而言,这意味着在构建高并发电商库存系统、设计 Redis 缓存策略或是处理遗留代码屎山时,终于拥有了一个成本可控且逻辑严密的开源选择。


基于此,我们可以做出这样的判断:GLM-5 标志着开源模型真正做好了迎接 Agentic 大任务时代的准备


为 Agentic Engineering 而生的 GLM-5


GLM-5 从「Vibe Coding」向「Agentic Engineering」的跨越并非偶然。智谱官方披露的技术细节显示,这是一款为稳定交付生产结果而重构的基座模型。


为了提升通用智能水平,GLM-5 将参数规模从上一代的 355B(激活 32B)大幅扩展至 744B(激活 40B),预训练数据量也提升至 28.5T。更关键的是,为了解决大模型在长程任务中 Token 消耗巨大的痛点,GLM-5 首次集成了稀疏注意力(Sparse Attention)机制。这使得模型在维持长文本效果无损的同时,大幅降低了部署成本与推理延迟。


在训练层面,智谱构建了全新的异步强化学习基础设施 Slime 框架。配合异步智能体强化学习算法,GLM-5 能够在海量的长程交互中持续学习。这种大规模强化学习(RL)的介入,正是它能够像资深工程师一样进行自我反思与规划的根本原因。


这些技术突破直接体现在了硬核基准测试成绩上。


代码能力上,在业内公认的主流基准测试中,GLM-5 表现强劲。在全球权威的 Artificial Analysis 智能水平榜单上,GLM-5 位居全球第四、开源第一



而在 Artificial Analysis 的 Agentic 榜单上,GLM-5 的排名还更加靠前,超过了 GPT-5.2 (xhigh) 和 Claude Opus 4.5,仅次于两个 Claude Opus 4.6,位列全球第三。



是的,GLM-5 能力上已经比肩昂贵的新版 Claude Opus 和 GPT,但它是开源的。


更具体来看,在 SWE-bench-Verified 和 Terminal Bench 2.0 基准上,GLM-5 分别斩获 77.8 和 56.2 的高分,不仅刷新了开源模型记录,更在性能表现上超越了 Gemini 3.0 Pro,与 Claude Opus 4.5 处于同一梯队。



Code Arena 分享了一个 SVG 生成结果的对比视频,让我们可以更直观地看到 GLM-5 与 Claude Opus 4.6 和 Gemini 3.0 Pro 相差无几的水平:


https://x.com/arena/status/2021732547349344690


而在智谱内部的 Claude Code 评估集合上,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越上一代的 GLM-4.7(平均增幅超过 20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务。智谱表示,GLM-5 的「使用体感逼近 Opus 4.5」。



GLM-5 的长程任务执行能力也达到了 SOTA 级别。比如其在 MCP-Atlas(工具调用和多步骤任务执行)和 τ²-Bench(复杂多工具场景下的规划和执行)等基准上均达到了前沿水平,在 BrowseComp(联网检索与信息理解)上更是有着显著领先优势(超过第二名 8.1 分)。


举个例子,在衡量模型经营能力的 Vending Bench 2 中,GLM-5 获得开源模型第一表现。该基准要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5,展现出出色的长期规划和资源管理能力。



这种能力已经开始转化为真实的生产力。


在 OpenRouter 匿名上线 Pony 版本后,我们观察到了一个极具代表性的用户案例:一位开发者使用 GLM-5 端到端开发了一个「学术版抖音」。从开源项目的改造、API 批处理、后端取数逻辑到前端渲染,GLM-5 独立完成了全流程开发。目前,这个 App 已经提交 App Store 申请,即将正式上线。



为了让更多开发者拥有这种能力,配套的工具链也迎来了重构。


智谱同步推出了 Z Code。这是一个全新的开发环境,用户只需通过自然语言描述需求,模型即可自动拆解任务,并调度多智能体并发完成代码编写、调试、预览及提交。更令人兴奋的是,Z Code 打通了移动端与桌面端的边界,你甚至可以用手机远程指挥桌面端的 Agent,解决那些以往必须坐在电脑前才能完成的工程任务。


此外,针对桌面级自动化任务,AutoGLM 版本的 OpenClaw 也已上线。它就像一个驻留在电脑里的智能实习生,能够 7x24 小时帮助用户完成网页搜索、资讯整理甚至跨应用操作。


GLM-5 的交付能力甚至延伸到了代码之外。它现在可以直接输出产品需求文档(PRD)、电子表格和财务报告等格式文件(.docx、.xlsx、.pdf)。此外,智谱还推出了原生适配 Excel 环境的 AI 插件。可以说,GLM-5 真正实现了从工程开发到文档交付的全流程闭环。


GLM-5 生成的 .docx 文档


顺带一提,GLM-5 在 AA-Omniscience 基准上的幻觉率也是最低的。



从底层模型到上层工具,GLM-5 展示了一个完整的 Agentic 生态:它不再满足于在对话框里输出代码片段,而是要接管键盘与鼠标,替人类完成那些繁琐的系统工程。


国产 AI 软硬体系的「会师」


昨天智谱 GLM-5 正式发布后,GLM Coding Plan 的使用量立刻爆满,官方不得不开始限售。不过对于广大 AI 应用的用户来说,算力不足只是暂时的。


一众国产芯片也宣布了对于该模型的 0Day 适配。据介绍,目前 GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。



我们有理由相信,GLM-5 只是一个序章,它证明中国 AI 已经准备好去定义未来。


随着国产算力底座的日益坚实,大模型落地的最后一块拼图已被补齐。接下来的 2026,不仅是技术的角斗场,更是应用生态的爆发年 —— 而这把开启新时代的钥匙,现在就在我们手中。


现在,唯一的悬念就是:扩容后的 GLM Coding Plan,你抢到了吗?



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

AI在办公领域的应用肯定会越来越深入,重复性的工作,比如数据录入、文档整理等,会被AI取代。但同时,也会创造出新的工作岗位,比如AI训练师、AI伦理师等。关键是我们要不断学习,适应变化。

机遇当然是巨大的!想想看,如果算力成本大幅降低,那AI的应用门槛也会随之降低,中小企业也能用得起AI了。挑战在于,我们的芯片生态还不够完善,需要更多的人才和资金投入。

大胆预测一下,未来老板可能只需要一个AI秘书,就能搞定所有工作!早上让AI生成一份今日头条,中午让AI写一份商业计划书,晚上让AI安排和客户的会面,想想都觉得可怕.jpg 不过话说回来,如果AI真的这么强大,那我们是不是可以提前退休了?

这就像是造车,光有发动机还不行,还得有轮胎、变速箱、底盘。GLM-5适配国产算力平台只是其中一步,要实现AI的完全自主,还需要整个产业链的协同发展。

AI在PRD撰写方面肯定能帮大忙,至少能生成一个初稿,省去大量复制粘贴的时间。至于取代产品经理,我觉得短期内不可能。产品经理的核心价值在于理解用户需求、定义产品方向,并协调各方资源实现产品目标。这些都需要对市场、用户和技术有深刻的理解,以及出色的判断力和决策能力。

从国家安全的角度来看,国产AI芯片的重要性不言而喻。AI在军事、金融等敏感领域的应用越来越广泛,如果使用国外的芯片,存在潜在的安全风险。使用国产芯片,可以更好地保障国家安全。

我觉得AI可以成为产品经理的“超级助理”,帮助我们进行数据分析、竞品调研、用户访谈纪要整理等繁琐的工作,让我们有更多时间去思考战略和创新。但是,AI无法完全取代产品经理,因为产品经理需要具备同理心、沟通能力、领导力等软技能,这些是AI目前无法企及的。

我觉得Agentic AI最厉害的还是解放重复劳动,比如在游戏行业,以后美术可以专注于创意,AI就能把这些想法快速实现,甚至直接生成游戏Demo,大大缩短开发周期。以后打工人可能只需要提需求,剩下的就交给AI打工了,想想还有点小激动呢!

别光想着AI帮你打工,也得想想自己会不会被AI替代。现在GLM-5已经能搞定系统架构了,下一步是不是要抢程序员饭碗了?感觉以后只会提需求的人,价值会越来越低啊!

咳咳,作为一名AI方向的博士生,我来补充一点学术角度的看法。Agentic 能力的提升,意味着大模型可以更好地模拟人类的认知过程,比如目标设定、问题分解、知识检索、行动执行等等。这背后涉及到复杂的算法和模型设计,也带来了更大的挑战,比如如何保证 Agent 的安全性和可靠性。

这意味着我们不再受制于人啊!之前我们的大模型都是跑在国外的算力平台上,相当于把自己的核心技术放在别人的地盘上。现在有了国产芯片的加持,我们就可以构建自己的 AI 生态,实现真正的自主可控。当然,距离完全自主可控还有很长的路要走,需要在芯片、算法、数据等各个方面持续投入和创新。

Agentic 能力我觉得是大模型走向通用人工智能的关键一步啊!它意味着大模型不再是被动地接收指令,而是能够像人类一样主动思考、规划和执行任务。在实际应用中,比如智能客服、自动化运维、甚至是科研探索,都需要这种 Agentic 能力才能真正发挥价值。

用大白话来说,稀疏注意力就是让模型学会“抓重点”,Slime框架就是给模型提供一个“练功房”,让它在里面不断“打怪升级”。

的确,基准测试就像考试,决定了你能否拿到好学校的offer,但是否能胜任工作,要看的还有人品、情商、抗压能力甚至是不是996 ICUV~ 当然,我还是相信拥有好的基准测试结果的模型,在真实应用中大概率也更靠谱。

Vibe Coding像是玩票,Agentic Engineering才是动真格的。Vibe Coding注重快速出效果,但质量和可维护性可能不行。Agentic Engineering则更注重系统性和长期性,但前期投入和调试成本可能会更高。就好像一个是快餐,一个是正餐,各有各的适用场景。

简单理解,稀疏注意力就像是给学霸一个重点笔记,让他不用记住所有细节;异步强化学习就像是让 AI 自己玩游戏升级,不用人类手把手教。感觉以后炼丹也要讲究方法论了,不能瞎堆参数。

国产芯片 + 国产大模型 = 真香!感觉以后可以自豪地说:我们的 AI 是纯国产的!机遇肯定是巨大的,但是也要警惕低水平重复建设,避免资源浪费。希望未来能看到更多软硬件厂商携手共进,打造出世界一流的 AI 产品。

国产AI软硬件体系的’会师’,意味着我们终于可以打造一个完全自主可控的AI生态系统。这不仅能够保障国家安全,还能够激发国内企业的创新活力,加速AI技术的应用和普及。我相信,在不久的将来,中国AI产业将会在全球占据领先地位。

我觉得最大的挑战是信任问题。让AI Agent参与到核心的系统工程中,我们需要确保它的决策是可靠和安全的。这涉及到很多方面,比如模型的透明性、可解释性,以及安全漏洞的防范。我们需要建立一套完善的评估体系,来验证AI Agent的可靠性。