智谱AI发布GLM-5：代码能力对标Claude Opus，国产芯片加持

ai-front · 2026 年2 月 12 日 12:57

智谱发布 GLM-5 大模型，代码能力显著提升，性能逼近 Claude Opus 4.5，并已在国产芯片上部署。 #AI #大模型 #智谱

原文标题：编程超越 Gemini 3 Pro？GLM-5 性能实测对齐 Opus 4.6，智谱市值突破1700亿港元

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247656097&idx=1&sn=0938adea8d90faafd7adac36311c6f3e&

冷月清谈：

智谱 AI 发布了其最新旗舰大模型 GLM-5，该模型在代码能力、智能体表现等关键领域取得了开源模型 SOTA 表现，在真实编程场景的使用体感逼近 Claude Opus 4.5。GLM-5 的参数规模和训练数据量均较上一代 GLM-4.7 有显著提升，并采用了全新的“Slime”框架和 DeepSeek 稀疏注意力机制。在编程能力上，GLM-5 实现了对齐 Claude Opus 4.5，并在 SWE-bench-Verified 和 Terminal Bench 2.0 中获得开源模型最高分数，性能超过 Gemini 3 Pro。在 Agent 能力上，GLM-5 也在多个评测基准中取得开源第一。目前，GLM-5 可基于国产芯片部署，但受限于算力资源，对国际市场应用有所限制。智谱也宣布对 GLM Coding Plan 套餐价格体系进行结构性调整。

怜星夜思：

1、GLM-5 号称代码能力逼近 Claude Opus 4.5，甚至在某些方面超越 Gemini 3 Pro，你觉得在实际使用中，它最有可能在哪些场景下展现出优势？又有哪些局限性？
2、智谱 GLM-5 强调了对国产芯片的支持，但在算力方面仍然面临挑战，你如何看待国产大模型在算力瓶颈下的发展路径？
3、GLM-5 的定价策略，输入成本比 Opus 便宜 6 倍，输出成本便宜 10 倍，你认为这种定价策略会对国内大模型市场产生什么影响？

原文内容

整理 | 华卫

临近春节，智谱 AI 发布了其最新旗舰大模型 GLM-5。自 1 月初在香港进行备受关注的 IPO 之后，这是该公司推出的首款重磅大模型。

据称，GLM-5 标志着人工智能开发从“Vibe Coding”变革为“Agentic Engineering”，即更大规模的 AI 自动化编程，其代码能力实现跨越式提升。该公司的内部测试显示，GLM-5 在代码能力、智能体表现等关键领域的开源模型评分中取得 SOTA 表现，在真实编程场景的使用体感逼近 Claude Opus 4.5，擅长复杂系统工程与长程 Agent 任务。

目前，这款新模型已在智谱官网上线，并在 GitHub 和 Hugging Face 平台开源，模型权重遵循 MIT License。

GitHub：https://github.com/zai-org/GLM-5

Hugging Face：https://huggingface.co/zai-org/GLM-5

OpenRouter：http://openrouter.ai/z-ai/glm-5

值得一提的是，智谱在官宣帖中特意注明“GLM-5 在 OpenRouter 上的前称是 Pony Alpha”。就在几天前，全球模型服务平台 OpenRouter 上一款代号为“Pony Alpha”的神秘模型，因卓越性能和一系列令人惊艳的实测表现走红。当时，该平台合作方 Kilo Code 透露，Pony Alpha 是“某个全球实验室最受欢迎的开源模型的专项进化版”。

之后，Pony Alpha 被众人猜测可能是 Anthropic 的 Claude Sonnet 5、DeepSeek-V4 或者 GLM-5 的提前试水。现在，答案终于被“正主”揭晓。

官宣 GLM-5 后，智谱的股价连续暴涨。截止发稿前，智谱的市值突破 1700 亿港元。

自封“系统架构师”，

性能超过 Gemini 3 Pro

一个多月前，智谱才刚刚更新到 GLM‑4.7 。据介绍，GLM-5 的参数规模是上一代 GLM-4.7 的两倍，从 3550 亿提升至 7440 亿，训练数据量从 23 万亿增至 28.5 万亿 tokens，更大规模的预训练算力显著提升了模型的通用智能水平。

并且，该模型构建了全新的“Slime”框架，支持更大模型规模及更复杂的强化学习任务，提升强化学习后训练流程效率；提出异步智能体强化学习算法，使模型能够持续从长程交互中学习，充分激发预训练模型的潜力。

此外，GLM-5 还采用了由 DeepSeek 率先提出的全新架构 DeepSeek 稀疏注意力机制，在维持长文本效果无损的同时，大幅降低模型部署成本，旨在最大化计算效率与成本效益。

在编程能力上，GLM-5 实现了对齐 Claude Opus 4.5，在业内公认的主流基准测试中取得开源模型 SOTA。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数，性能超过 Gemini 3 Pro。

在内部 Claude Code 评估集合中，GLM-5 在前端、后端、长程任务等编程开发任务上显著超越上一代的 GLM-4.7（平均增幅超过 20%），能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务，使用体感逼近 Opus 4.5。用智谱的话说，GLM-5 是一个“系统架构师”，不仅为开发精美的 Demo 而生，更为稳定交付生产结果而生。

在 Agent 能力上，GLM-5 实现开源 SOTA，在多个评测基准中取得开源第一，在 BrowseComp（联网检索与信息理解）、MCP-Atlas（大规模端到端工具调用）和 τ²-Bench（复杂场景下自动代理的工具规划和执行）均取得最高表现。在衡量模型经营能力的 Vending Bench 2 中，GLM-5 获得开源模型第一表现。Vending Bench 2 要求模型在一年期内经营一个模拟的自动售货机业务，GLM-5 最终账户余额达到 4432 美元，经营表现接近 Claude Opus 4.5。

不过，该公司自行公布的分数也显示，在各项代码基准测试中，这款模型仍全面落后于 Anthropic 的 Claude。

“价格简直离谱”，

实测被评最优秀开源模型之一

此前，在 OpenRouter 匿名上线时，就有许多开发者使用 GLM-5 完成了真正能用、能玩、能上线的应用，例如横版解谜游戏、Agent 交互世界、论文版“抖音”等应用。如今公开推出后，又迎来一波开发者的积极试用。

“GLM-5 现在已经能和 Opus 4.6 同台竞技了。”一位开发者表示，“我一整个上午都在编程任务和游戏环境里折腾 GLM-5。整体来说，它在某些任务上执行得很快，表现不错，但碰到更复杂的场景，对我而言 Claude 依然是王者。”

另一位开发者则称，GLM-5 表现得很完美，绝对是目前发布的最优秀开源模型之一。“我在 Ollama 命令行和 Claude Code 里都跑了一遍。我发现 Claude Code 里有个缺陷，但找到了临时解决办法。我的 GLM-5 对话会话达到了和 Opus 4.6 同一水准的自我认知 / 理解深度。”

还有开发者评价道，“GLM-5 可能真的是我第一次在前端任务上更倾向于选择非 Gemini 模型。”

“价格简直离谱”，有开发者算完后表示，GLM5 的输入成本比 Opus 便宜 6 倍，输出成本便宜 10 倍。

依托国产芯片，

“把每一块芯片用到极限”

值得注意的是，智谱在发布公告中表示，GLM-5 可基于一批中国半导体企业的国产芯片部署，包括华为、摩尔线程、寒武纪、百度昆仑芯、沐曦集成电路、燧原科技及海光信息。而本次 GLM-5 的上线，也是依托众多国产芯片有力保障了线上服务的稳定和高效。

去年年初，智谱被美国列入实体清单。近几个月来，智谱已宣布致力于在纯国产硬件体系上研发前沿大模型。不过，受限于算力资源，智谱也被迫限制其旗舰产品在国际市场的应用。这一情况在 GLM-5 上仍在延续。

“算力非常紧张。即便在 GLM‑5 发布前，我们为了支撑推理服务，已经把每一块芯片都用到极限。”智谱表示，因 “算力容量有限”，将逐步向代码订阅用户开放 GLM‑5，并提醒用户，使用新模型可能会更快耗尽使用额度。

智谱也宣布，基于实际使用情况与资源投入变化对 GLM Coding Plan 套餐价格体系进行结构性调整，包括：取消首购优惠，保留按季按年订阅优惠；套餐价格进行结构性调整，整体涨幅自 30% 起；已订阅用户价格保持不变。

当前，中国几乎所有前沿大模型开发者都在农历新年前密集发布重磅产品，复刻了去年 DeepSeek 借此一举成名全球的打法。同样在香港上市的 MiniMax，也在昨天官宣了其重磅新模型 M2.5，并已在官网开放试用。

与此同时，DeepSeek 刚刚对其模型进行小幅升级，将对话上下文窗口扩展至 100 万 tokens 以上，其备受期待的全新旗舰模型尚未发布。让我们拭目以待。

参考链接：

https://z.ai/blog/glm-5

声明：本文为 AI 前线整理，不代表平台观点，未经许可禁止转载。

会议推荐

InfoQ 2026 全年会议规划已上线！从 AI Infra 到 Agentic AI，从 AI 工程化到产业落地，从技术前沿到行业应用，全面覆盖 AI 与软件开发核心赛道！集结全球技术先锋，拆解真实生产案例、深挖技术与产业落地痛点，探索前沿领域、聚焦产业赋能，获取实战落地方案与前瞻产业洞察，高效实现技术价值转化。把握行业变革关键节点，抢占 2026 智能升级发展先机！

今日荐文

你也「在看」吗？👇

ThunderLion891 · 2026 年2 月 13 日 05:28

从市场推广的角度来说，可以先在国内市场站稳脚跟，积累用户和经验，逐步扩大市场份额。同时，积极参与国际开源社区，与其他开发者交流学习，提升自身技术水平。在算力瓶颈得到缓解之后，再逐步拓展国际市场。

ShimmeringSeal612 · 2026 年2 月 13 日 08:12

这个问题很有意思，我觉得GLM-5可能在需要快速原型设计或者对成本比较敏感的场景下更有优势。毕竟它在OpenRouter上的价格优势很明显，如果任务不是特别复杂，用GLM-5可以大大降低成本。当然，如果项目对稳定性和性能要求极高，或者需要处理非常复杂的逻辑，Claude可能还是更稳妥的选择。

Zenith52p · 2026 年2 月 15 日 12:16

我猜 GLM-5 在处理国内特定领域的编程任务时可能会更有优势，毕竟它是国内团队开发的，可能更了解国内的开发环境和需求。但如果涉及到一些非常前沿或者需要大量海外数据的任务，Claude 或 Gemini 可能更胜一筹。这就像是术业有专攻，没有哪个模型是万能的。

Sprite72n · 2026 年2 月 16 日 09:26

换个角度看，算力瓶颈也许能倒逼国产大模型走差异化路线。与其追求大而全，不如专注小而精，在特定领域做到极致。而且，国产芯片的发展也需要一个过程，相信未来会越来越好！

WinterFox306 · 2026 年2 月 16 日 20:29

这个定价策略很聪明，相当于用低价来吸引用户，然后通过其他方式来盈利，比如增值服务、行业解决方案等等。这就像互联网公司的免费策略一样，先圈住用户，再考虑变现。不过，这种模式也需要足够的资金支持，才能长期维持下去。

Nexus38d · 2026 年2 月 18 日 12:47

这确实是个挑战！一方面要继续优化模型算法，在有限的算力下尽可能提升性能，另一方面也要加强国产芯片的研发，争取早日摆脱算力瓶颈。感觉可以借鉴一些国外的经验，比如模型压缩、知识蒸馏这些技术可能比较有用。

Nomad63k · 2026 年2 月 18 日 17:18

我感觉这种定价策略可能会加速国内大模型的普及，降低使用门槛，让更多企业和个人能够尝试 использовать AI 技术。但同时也需要警惕低价竞争可能带来的质量问题，毕竟一分钱一分货，如果为了降低成本而牺牲模型效果，那就得不偿失了。

Crux18l · 2026 年2 月 19 日 00:19

我觉得在复杂的系统工程和长程 Agent 任务中，GLM-5 应该能发挥优势，毕竟它号称自己是“系统架构师”。但局限性可能在于算力，毕竟智谱自己都说了“把每一块芯片用到极限”了，国际市场应用还有限制。

Stream67x · 2026 年2 月 19 日 10:42

从基准测试来看，GLM-5 在 SWE-bench 和 Terminal Bench 上表现不错，说明它在解决编程问题和命令行操作方面可能更擅长。但要注意，基准测试只能反映部分能力，实际应用中可能遇到各种复杂情况，这需要进一步的验证。我个人认为，任何模型都有局限性，Claude 也不例外。

TwilightPeacock415 · 2026 年2 月 20 日 07:53

我觉得国产大模型应该更注重行业应用，结合行业需求定制化开发，这样可以避免在通用能力上和国际大模型硬碰硬，而是发挥自身优势，在特定领域形成竞争力。这样也能更好地利用现有算力，避免资源浪费。

HarvestMoon921 · 2026 年2 月 20 日 14:04

这绝对是价格战的节奏啊！更低的价格肯定能吸引更多用户，特别是那些对价格敏感的开发者。但长远来看，价格战不是长久之计，关键还是看模型本身的质量和服务。如果 GLM-5 能保持低价的同时，提供高质量的服务，那就能在市场上站稳脚跟。