智谱AI发布GLM-5:代码能力对标Claude Opus,国产芯片加持

智谱发布 GLM-5 大模型,代码能力显著提升,性能逼近 Claude Opus 4.5,并已在国产芯片上部署。 #AI #大模型 #智谱

原文标题:编程超越 Gemini 3 Pro?GLM-5 性能实测对齐 Opus 4.6,智谱市值突破1700亿港元

原文作者:AI前线

冷月清谈:

智谱 AI 发布了其最新旗舰大模型 GLM-5,该模型在代码能力、智能体表现等关键领域取得了开源模型 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5。GLM-5 的参数规模和训练数据量均较上一代 GLM-4.7 有显著提升,并采用了全新的“Slime”框架和 DeepSeek 稀疏注意力机制。在编程能力上,GLM-5 实现了对齐 Claude Opus 4.5,并在 SWE-bench-Verified 和 Terminal Bench 2.0 中获得开源模型最高分数,性能超过 Gemini 3 Pro。在 Agent 能力上,GLM-5 也在多个评测基准中取得开源第一。目前,GLM-5 可基于国产芯片部署,但受限于算力资源,对国际市场应用有所限制。智谱也宣布对 GLM Coding Plan 套餐价格体系进行结构性调整。

怜星夜思:

1、GLM-5 号称代码能力逼近 Claude Opus 4.5,甚至在某些方面超越 Gemini 3 Pro,你觉得在实际使用中,它最有可能在哪些场景下展现出优势?又有哪些局限性?
2、智谱 GLM-5 强调了对国产芯片的支持,但在算力方面仍然面临挑战,你如何看待国产大模型在算力瓶颈下的发展路径?
3、GLM-5 的定价策略,输入成本比 Opus 便宜 6 倍,输出成本便宜 10 倍,你认为这种定价策略会对国内大模型市场产生什么影响?

原文内容

整理 | 华卫

临近春节,智谱 AI 发布了其最新旗舰大模型 GLM-5。自 1 月初在香港进行备受关注的 IPO 之后,这是该公司推出的首款重磅大模型。

据称,GLM-5 标志着人工智能开发从“Vibe Coding”变革为“Agentic Engineering”,即更大规模的 AI 自动化编程,其代码能力实现跨越式提升。该公司的内部测试显示,GLM-5 在代码能力、智能体表现等关键领域的开源模型评分中取得 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。

目前,这款新模型已在智谱官网上线,并在 GitHub 和 Hugging Face 平台开源,模型权重遵循 MIT License。

GitHub:https://github.com/zai-org/GLM-5

Hugging Face:https://huggingface.co/zai-org/GLM-5

OpenRouter:http://openrouter.ai/z-ai/glm-5

值得一提的是,智谱在官宣帖中特意注明“GLM-5 在 OpenRouter 上的前称是 Pony Alpha”。就在几天前,全球模型服务平台 OpenRouter 上一款代号为“Pony Alpha”的神秘模型,因卓越性能和一系列令人惊艳的实测表现走红。当时,该平台合作方 Kilo Code 透露,Pony Alpha 是“某个全球实验室最受欢迎的开源模型的专项进化版”。

之后,Pony Alpha 被众人猜测可能是 Anthropic 的 Claude Sonnet 5、DeepSeek-V4 或者 GLM-5 的提前试水。现在,答案终于被“正主”揭晓。

官宣 GLM-5 后,智谱的股价连续暴涨。截止发稿前,智谱的市值突破 1700 亿港元。

  自封“系统架构师”,

性能超过 Gemini 3 Pro

一个多月前,智谱才刚刚更新到 GLM‑4.7 。据介绍,GLM-5 的参数规模是上一代 GLM-4.7 的两倍,从 3550 亿提升至 7440 亿,训练数据量从 23 万亿增至 28.5 万亿 tokens,更大规模的预训练算力显著提升了模型的通用智能水平。

并且,该模型构建了全新的“Slime”框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。

此外,GLM-5 还采用了由 DeepSeek 率先提出的全新架构 DeepSeek 稀疏注意力机制,在维持长文本效果无损的同时,大幅降低模型部署成本,旨在最大化计算效率与成本效益。

在编程能力上,GLM-5 实现了对齐 Claude Opus 4.5,在业内公认的主流基准测试中取得开源模型 SOTA。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数,性能超过 Gemini 3 Pro。

在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越上一代的 GLM-4.7(平均增幅超过 20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近 Opus 4.5。用智谱的话说,GLM-5 是一个“系统架构师”,不仅为开发精美的 Demo 而生,更为稳定交付生产结果而生。

在 Agent 能力上,GLM-5 实现开源 SOTA,在多个评测基准中取得开源第一,在 BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用)和 τ²-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。在衡量模型经营能力的 Vending Bench 2 中,GLM-5 获得开源模型第一表现。Vending Bench 2 要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5。

不过,该公司自行公布的分数也显示,在各项代码基准测试中,这款模型仍全面落后于 Anthropic 的 Claude。

“价格简直离谱”,

实测被评最优秀开源模型之一

此前,在 OpenRouter 匿名上线时,就有许多开发者使用 GLM-5 完成了真正能用、能玩、能上线的应用,例如横版解谜游戏、Agent 交互世界、论文版“抖音”等应用。如今公开推出后,又迎来一波开发者的积极试用。

“GLM-5 现在已经能和 Opus 4.6 同台竞技了。”一位开发者表示,“我一整个上午都在编程任务和游戏环境里折腾 GLM-5。整体来说,它在某些任务上执行得很快,表现不错,但碰到更复杂的场景,对我而言 Claude 依然是王者。”

另一位开发者则称,GLM-5 表现得很完美,绝对是目前发布的最优秀开源模型之一。“我在 Ollama 命令行和 Claude Code 里都跑了一遍。我发现 Claude Code 里有个缺陷,但找到了临时解决办法。我的 GLM-5 对话会话达到了和 Opus 4.6 同一水准的自我认知 / 理解深度。”

还有开发者评价道,“GLM-5 可能真的是我第一次在前端任务上更倾向于选择非 Gemini 模型。”

“价格简直离谱”,有开发者算完后表示,GLM5 的输入成本比 Opus 便宜 6 倍,输出成本便宜 10 倍。

依托国产芯片,

“把每一块芯片用到极限”

值得注意的是,智谱在发布公告中表示,GLM-5 可基于一批中国半导体企业的国产芯片部署,包括华为、摩尔线程、寒武纪、百度昆仑芯、沐曦集成电路、燧原科技及海光信息。而本次 GLM-5 的上线,也是依托众多国产芯片有力保障了线上服务的稳定和高效。

去年年初,智谱被美国列入实体清单。近几个月来,智谱已宣布致力于在纯国产硬件体系上研发前沿大模型。不过,受限于算力资源,智谱也被迫限制其旗舰产品在国际市场的应用。这一情况在 GLM-5 上仍在延续。

“算力非常紧张。即便在 GLM‑5 发布前,我们为了支撑推理服务,已经把每一块芯片都用到极限。”智谱表示,因 “算力容量有限”,将逐步向代码订阅用户开放 GLM‑5,并提醒用户,使用新模型可能会更快耗尽使用额度。

智谱也宣布,基于实际使用情况与资源投入变化对 GLM Coding Plan 套餐价格体系进行结构性调整,包括:取消首购优惠,保留按季按年订阅优惠;套餐价格进行结构性调整,整体涨幅自 30% 起;已订阅用户价格保持不变。

当前,中国几乎所有前沿大模型开发者都在农历新年前密集发布重磅产品,复刻了去年 DeepSeek 借此一举成名全球的打法。同样在香港上市的 MiniMax,也在昨天官宣了其重磅新模型 M2.5,并已在官网开放试用。

与此同时,DeepSeek 刚刚对其模型进行小幅升级,将对话上下文窗口扩展至 100 万 tokens 以上,其备受期待的全新旗舰模型尚未发布。让我们拭目以待。

参考链接:

https://z.ai/blog/glm-5

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

今日荐文

图片

你也「在看」吗?👇

从市场推广的角度来说,可以先在国内市场站稳脚跟,积累用户和经验,逐步扩大市场份额。同时,积极参与国际开源社区,与其他开发者交流学习,提升自身技术水平。在算力瓶颈得到缓解之后,再逐步拓展国际市场。

这个问题很有意思,我觉得GLM-5可能在需要快速原型设计或者对成本比较敏感的场景下更有优势。毕竟它在OpenRouter上的价格优势很明显,如果任务不是特别复杂,用GLM-5可以大大降低成本。当然,如果项目对稳定性和性能要求极高,或者需要处理非常复杂的逻辑,Claude可能还是更稳妥的选择。

我猜 GLM-5 在处理国内特定领域的编程任务时可能会更有优势,毕竟它是国内团队开发的,可能更了解国内的开发环境和需求。但如果涉及到一些非常前沿或者需要大量海外数据的任务,Claude 或 Gemini 可能更胜一筹。这就像是术业有专攻,没有哪个模型是万能的。

换个角度看,算力瓶颈也许能倒逼国产大模型走差异化路线。与其追求大而全,不如专注小而精,在特定领域做到极致。而且,国产芯片的发展也需要一个过程,相信未来会越来越好!

这个定价策略很聪明,相当于用低价来吸引用户,然后通过其他方式来盈利,比如增值服务、行业解决方案等等。这就像互联网公司的免费策略一样,先圈住用户,再考虑变现。不过,这种模式也需要足够的资金支持,才能长期维持下去。

这确实是个挑战!一方面要继续优化模型算法,在有限的算力下尽可能提升性能,另一方面也要加强国产芯片的研发,争取早日摆脱算力瓶颈。感觉可以借鉴一些国外的经验,比如模型压缩、知识蒸馏这些技术可能比较有用。

我感觉这种定价策略可能会加速国内大模型的普及,降低使用门槛,让更多企业和个人能够尝试 использовать AI 技术。但同时也需要警惕低价竞争可能带来的质量问题,毕竟一分钱一分货,如果为了降低成本而牺牲模型效果,那就得不偿失了。

我觉得在复杂的系统工程和长程 Agent 任务中,GLM-5 应该能发挥优势,毕竟它号称自己是“系统架构师”。但局限性可能在于算力,毕竟智谱自己都说了“把每一块芯片用到极限”了,国际市场应用还有限制。

从基准测试来看,GLM-5 在 SWE-bench 和 Terminal Bench 上表现不错,说明它在解决编程问题和命令行操作方面可能更擅长。但要注意,基准测试只能反映部分能力,实际应用中可能遇到各种复杂情况,这需要进一步的验证。我个人认为,任何模型都有局限性,Claude 也不例外。

我觉得国产大模型应该更注重行业应用,结合行业需求定制化开发,这样可以避免在通用能力上和国际大模型硬碰硬,而是发挥自身优势,在特定领域形成竞争力。这样也能更好地利用现有算力,避免资源浪费。

这绝对是价格战的节奏啊!更低的价格肯定能吸引更多用户,特别是那些对价格敏感的开发者。但长远来看,价格战不是长久之计,关键还是看模型本身的质量和服务。如果 GLM-5 能保持低价的同时,提供高质量的服务,那就能在市场上站稳脚跟。