智谱GLM-5技术揭秘：异步强化学习框架Slime成关键

almosthuman2014 · 2026 年2 月 23 日 10:28

智谱GLM-5技术报告发布，揭示其在架构和异步强化学习上的创新，尤其Slime框架成为关键，助力Agentic Engineering。

原文标题：揭秘GLM-5技术底牌：「异步强化学习框架Slime」成终极杀招

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651017750&idx=1&sn=ab51cbfb1ac1bdc0ecd43a76ecb9c6ba&

冷月清谈：

智谱发布GLM-5技术报告，展示了其在底层架构和异步强化学习基准设施上的创新。GLM-5面向Agentic Engineering打造，擅长处理复杂系统工程和长程Agent任务，在Coding与Agent任务上取得开源SOTA级表现。其核心创新包括：采用DSA（DeepSeek Sparse Attention）在长文本推理和训推成本间取得平衡；通过Slime框架解耦生成和训练过程，提升后训练阶段效率；使用Agent强化学习算法更高效地学习复杂交互。GLM-5通过重构计算路径，优化计算结构，在长程推理和Agent时代取得优势。异步RL方面，通过Slime框架将推理和训练引擎分离，解决同步RL效率问题。此外，GLM-5还针对软件工程任务构建了可验证的SWE环境，引入三级奖励体系优化模型设计，并通过跨阶段蒸馏和分层上下文管理克服遗忘问题。GLM-5还适配了国产GPU，体现了其在Agentic Engineering路径上的探索和实力。

怜星夜思：

1、GLM-5的DSA技术，通过减少冗余计算来优化长文本处理，这个思路在其他领域有哪些潜在的应用？
2、GLM-5的Slime框架通过异步强化学习提升效率，这种方法是否可以推广到其他需要大量计算和反馈的AI训练任务中？会面临哪些挑战？
3、GLM-5在软件工程领域的应用，对于未来的程序员来说，意味着什么？是会被AI取代，还是会迎来新的工作方式？

原文内容

编辑｜杜伟、陈陈

一边放出新一代旗舰基座模型 GLM-5 技术报告，展现其从底层架构到异步强化学习基准设施的深层创新硬实力；一边马年港股首个交易日收盘暴涨近 43%，市值突破 3200 亿港元。这一波，智谱属实「两开花」了。

到今天，对于打工人来说，这个「AI 味」浓厚的马年春节即将迎来尾声！

过去一周多的时间，机器人无疑是顶流中的顶流，「机器人全面入侵春晚」的词条更是一度占据了各大社交平台的热搜榜首。与此同时，作为当前主流机器人「大脑」的 AI 大模型，其范式与技术创新同样值得我们复盘。

这个春节，DeepSeek V4「鸽了」，但以字节 Seedance、智谱为代表的大厂及 AI 明星独角兽相继发布模型，同样是在技术路径上的一次「强势亮剑」。

其中，凭借新一代旗舰基座大模型 GLM-5 引爆全球开发者社区的智谱，在几天前将该模型完整的技术报告放了出来。

我们先来回顾一下 GLM-5 的核心亮点：

它面向 Agentic Engineering 打造，凭借更强的代码能力、更长的 200K 上下文、更好的 Agent 工具调用能力，尤其擅长处理复杂系统工程与长程 Agent 任务，准确率攀升明显。

在 Coding 与 Agent 任务上，GLM-5 在 SWE-bench、Terminal-Bench、BrowseComp、MCP-Atlas 等多个主流基准测试中取得开源 SOTA 级表现。这使得 GLM-5 成为构建通用 Agent 助手的理想基座选择，并推动 Agent 从「跑通 Demo」的玩具阶段跨越到「解决现实世界复杂工程问题」的生产力临界点。

随着技术报告的释出，我们得以揭开其强悍性能背后的技术秘诀。总结来看，GLM-5 的核心创新点可以归纳为三点：

首先，GLM-5 在底层架构层面采用 DSA（DeepSeek Sparse Attention），在「长文本推理能力」与「训推成本」之间取得绝佳平衡。

其次，GLM-5 通过异步强化学习基础设施 —— Slime 框架，将「生成过程」与「训练过程」解耦，显著提升后训练阶段的效率。

最后，Agent 强化学习算法是 GLM-5 能够更高效地从复杂、长时序交互中学习的关键。

针对 GLM-5 的一系列创新，X 平台上一些大 V 给出了极高评价，「在处理端到端的软件工程挑战时，GLM-5 显著超越现有基线，标志着模型能力从『片段式响应』进化到『系统级交付』。」

图源：X@omarsar0

在大模型的发展历程中，很少有能力是凭空产生的。无论是架构设计、训练范式，还是数据处理与优化技巧，几乎所有领先模型都建立在既有研究成果与工程实践的基础之上。

从 Transformer 的提出到注意力机制的演进，再到强化学习与知识迁移方法的成熟，每一次突破都来自持续的迭代与吸收。

但在仔细研读 GLM-5 的技术报告之后，我们发现了智谱独特的技术品味。

技术报告原文链接：https://arxiv.org/pdf/2602.15763
GitHub 开源地址：https://github.com/zai-org/GLM-5

DSA：降低训练与推理成本

DSA（DeepSeek Sparse Attention）是 DeepSeek 提出的一种高效注意力机制。要理解它解决了什么问题，我们先要知道注意力机制是干什么的：模型在理解每一个词时，需要参考上下文中其他所有词，句子越长，需要参考的词越多，计算量呈平方级增长。对于动辄十万词的长文本，这个开销是灾难性的。

DSA 的核心思路是：不是每个词都同等重要，大多数词其实可以忽略。它通过动态打分，只挑出真正相关的少数 token 参与计算。实验证明，长文本中约 90% 的注意力计算是冗余的，DSA 把这部分直接省掉，在不牺牲理解能力的前提下，将长序列的计算量压缩了 1.5 到 2 倍。

得益于 DSA，GLM-5 得以将模型参数规模扩展至 744B（40B 激活参数），训练 token 总量提升至 28.5T。但用 DSA 和把 DSA 真正用好之间，有一段不短的工程距离。

当 DSA 与 MLA（Multi-Latent Attention）、自研 Muon 优化器等既有组件叠加时，团队发现模型在多个基准上出现性能退化。

为此，GLM-5 提出 Muon Split 机制：将矩阵拆分为不同头的更小矩阵，并对这些独立矩阵应用矩阵正交化，使得不同注意力头的投影权重能够以不同尺度更新。

另外，针对 MLA 解码计算成本高难题，GLM 团队提出了 MLA-256 变体：把 head dimension 从 192 提到 256，同时把注意力头数减少 1/3，使训练计算量和参数量保持不变，但解码计算量显著下降。

为进一步提升基础模型性能，智谱还提出在训练阶段共享 3 层 MTP 的参数。这样既保持了草稿模型与 DeepSeek-V3 相同的内存开销，又提升了 token 的接受率。

在当前大模型竞争格局中，参数规模已不再是唯一的护城河。真正的壁垒在于如何在算力预算、长上下文忠实度与工程稳定性之间取得平衡。

GLM-5 在 DSA 体系上的实践提供了一个清晰的答案：不再盲目追求无限堆砌算力，而是通过重构计算路径，让模型在同等资源下完成更高效的工作。如果说大模型的前半场是在比拼「谁做得更大」，那么 GLM-5 则标志着下半场的开启，在长程推理与 Agent 时代，谁能把计算结构设计得更「聪明」，谁才能在端到端的软件工程等复杂任务中胜出。

异步 RL 基础设施：Slime 框架的工程创新

在从「文本生成」向「自主代理（Agent）」进化的过程中，传统同步强化学习的低效与长程推理的昂贵成本成为了最大的阻碍。

传统同步 RL 的流程是：生成一批轨迹→等所有轨迹完成→送入训练→更新权重→再生成下一批。但问题在于，智能体任务的轨迹长度极度不均匀，修一个简单 bug 可能 3 步，实现一个复杂功能可能需要 50 步以上。同步模式下整批训练的速度由最慢的那条轨迹决定，GPU 在等待中大量空转，造成资源浪费。

GLM-5 的核心解法是将推理引擎与训练引擎部署在不同 GPU 设备上，完全异步并行运行。推理引擎持续生成轨迹，积累到预定阈值后批量推送给训练引擎；训练引擎持续消费数据、更新参数，每完成 K 次梯度更新后将新权重同步回推理引擎。两条流水线互不阻塞，GPU 利用率大幅提升。

但异步 RL 中有一个看似微小但后果严重的问题：如果推理引擎输出文本，训练端再重新 tokenize，哪怕是空白符处理、特殊 token 位置、截断方式的细微差异，都可能导致 action 和 reward 之间的对应位置出错，这种错位会持续累积，最终破坏 RL 信号的准确性。

TITO Gateway 的解法是直接截获推理引擎产生的 token ID 序列和元数据，绕过任何文本中转，确保训练端使用与采样完全一致的 token 流。

此外，异步训练中，一条轨迹的生成过程中模型可能已经更新了多次，精确追踪行为策略概率几乎不可行，否则需要维护大量历史 checkpoint，存储和通信开销极高。

GLM 团队提出直接双侧重要性采样：直接复用 rollout 时记录的 log 概率作为行为策略代理。并采用双侧 token 级掩码：重要性采样比落在区间范围内的 token 正常计算梯度，超出范围的 token 梯度直接置零。

这些设计听上去像是工程层面的补丁，但它们解决的，其实是一个更根本的问题：如何让大规模 Agent 强化学习在现实算力条件下真正跑得起来、稳得住。如果说同步 RL 更适合短轨迹、规则明确的任务，那么 GLM-5 这一套异步机制，则是为长程软件工程、复杂工具调用、多轮交互决策场景量身打造的。它让模型不再被训练框架拖慢节奏，而是能够在持续交互中不断生成、评估、更新，形成近似在线学习的循环。

锻造工业级长程智能体，非一役之功

解决了训推效率与工程落地难题，接下来就要进入长程软件工程的实战环节了。

GLM 团队发现，在将底层 DSA 架构与大规模 RL 训练结合时，短短数步之内就会出现崩溃、损失异常以及模型能力快速退化等情况。在一番摸查之后，根源定位到了 DSA 内部使用的非确定性 CUDA top-k 算子，其输出的不稳定性干扰了 RL 的梯度更新。

因此，在将该算子替换为确定性的 torch.topk 之后，虽然牺牲了微小的运行速度，但可以让训练立刻恢复稳定并带来显著的性能收益。同时，为了避免 RL 阶段的无效学习干扰，还对索引器参数（Indexer）进行了冻结。

不仅如此，GLM 团队还通过以下一系列创新性解法，全方位克服 RL 在复杂智能体任务中的数据短缺、审美、遗忘等其他难题。

首先，软件工程任务的 RL 训练最缺的是「考场」，现有数据集不仅规模小，还极易受到数据污染。

GLM 团队基于 RepoLaunch 框架，构建了 10000 + 可验证的 SWE 环境，覆盖了 Python、Java、Go 等 9 种主流编程语言。并且，每个环境支持从依赖安装到测试解析的全流程自动化。这意味着，模型对代码的修改是否有效，全凭单元测试说了算，不再依赖主观且低效的人工打分，从而实现 RL 信号的真实可靠。

其次，智能体不仅要会写代码，还要懂设计。GLM-5 引入了以 HTML 幻灯片为载体的三级奖励体系，在结构化文档生成的「审美」方面形成了自己的风格：

Level-1（静态规则）：检查布局、间距、字体等基础属性，并利用 AI 识别幻觉与重复图片。
Level-2（运行布局）：通过分布式渲染，抓取渲染后 DOM 节点的宽高、边界框等真实几何指标，搞定静态代码看不出的排版冲突。
Level-3（视觉感知）：直接从视觉层面检测异常空白或构图失衡，确保看起来舒服。

一套流程走下来，效果立竿见影，GLM 团队识别并修复了两类奖励破解行为，将 16:9 合规率从 40% 提升至 92%。

接下来要面对多阶段 RL 训练中的灾难性遗忘问题。GLM-5 的后训练依次分为推理 RL、智能体 RL、通用对齐 RL 等三个阶段，遗忘问题会导致后续阶段覆盖前序积累的能力。

为此，GLM 团队引入了「跨阶段蒸馏」，将当前策略与各个前序阶段的最优教师模型进行对数概率对比。这样既可以让模型掌握新能力，也会靠拢之前的最优状态。一种设计达成两个目标：在克服遗忘的同时通过简化算法逻辑提升训练效率。

最后还要为搜索智能体配上「长短期记忆」。GLM 团队发现，当上下文超过 100K 时，传统的清空所有工具记录的方案会造成浪费，而保留所有记录又可能导致混乱。

GLM 团队提出了分层上下文管理（HCM，Hierarchical Context Management）策略，在实践中先试着折叠早期记录，并保留最近 5 轮记忆。如果还是太大，则清空所有工具调用历史，然后重置。结果显示，这种分层组合方案让 GLM-5 在 BrowseComp 任务上的准确率从 55.3% 暴涨至 75.9%，一举超越了现有已知的开源上下文管理方案。

可以看到，通过对长程交互中每一个细节的极致掌控，包括底层算子、环境构建以及如何让模型长记性，GLM 团队全给理顺了。

当然，GLM-5 还全栈适配了国产 GPU，包括华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原等七家主流国产芯片平台，进一步拓宽算力生态。

以上构成了 GLM-5 技术底色的完整轮廓，它们不是调参的结果，不是重新包装的已有工作，而是在真实工程实践中遇到真实问题、提出真实解法的过程。

写在最后

十天前，图灵奖得主、RL 大佬 Richard Sutton 以远程连线的方式，在加州大学洛杉矶分校（UCLA）的纯粹与应用数学研究所（IPAM）发表了名为《AI 的未来》（The Future of AI）的最新演讲。

图源：https://www.youtube.com/watch?v=lieqoaBV6ww

演讲中，Sutton 表达了这样一种观点：尽管当下的 AI 仍受限于对人类数据的学习，但未来的 AI 将立足于从交互经验中学习。这样的范式能让模型持续获取新知识，从而爆发出远超现状的演进潜力。

这一观点与 GLM-5 发力 Agentic Engineering 并推进「系统级交付」的范式选择不谋而合：让 AI 脱离人类预设的指令集，转而在长程真实或虚拟环境中通过 RL 实现自我进化。

在长程规划与资源管理能力上，GLM-5 证明了其实力。如下图左的 Vending-Bench 2（让 AI 模拟自动售货机一整年）和图右的 CC-Bench-V2（智谱 AI 官方内部测试）基准结果所示，GLM-5 的表现接近并在一些任务上能够超越 Claude Opus 4.5。

根据 Artificial Analysis 最近的一项数据显示，相较于 Anthropic 最强的 Claude Opus 4.6，作为开源模型的 GLM-5 与其之间的智能差距已经缩小到史无前例的程度。

在开源步步逼近闭源竞品的路上，GLM-5 交出了一份令业界惊叹的答卷。

而这仅仅是智谱在 Agentic Engineering 路径上的首次出手，下一代 GLM 旗舰模型又将进化到何种程度，我们拭目以待。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

VioletRaven051 · 2026 年2 月 25 日 21:49

这就像给AI请了个“美学导师”，从代码规范到最终展示效果都进行指导。好处是让AI生成的文档更“顺眼”，用户体验更好。但关键是这个“审美”标准怎么定？是完全模仿人类，还是探索AI自己独特的风格？如果Agent生成的文档更美观，那它在汇报工作、撰写报告时肯定更有优势，老板看了都开心。

SapphireCat928 · 2026 年2 月 27 日 16:23

英雄所见略同，我也有类似的思考

1. 延迟补偿机制： 由于异步RL中存在延迟，可以引入延迟补偿机制，例如使用历史模型参数的加权平均来减少延迟的影响。
2. 置信度评估： 对异步更新的梯度进行置信度评估，只有置信度高的梯度才被用于更新模型，从而避免引入噪声。
3. 增加同步更新的频率： 在异步更新的基础上，定期进行同步更新，以保证模型训练的稳定性。

Valor47z · 2026 年2 月 27 日 16:29

这问题太棒了，我来说说我的看法：

1. 分层注意力： 可以设计多层级的注意力机制。第一层快速筛选出最相关的token，第二层再对筛选出的token进行更细致的分析。这样可以兼顾效率和精度。
2. 上下文动态调整阈值： DSA中“忽略”的阈值不应该是固定的，而是应该根据当前的上下文动态调整。例如，在处理非常重要的信息时，可以降低阈值，减少忽略的可能性。
3. 引入外部知识： 结合知识图谱等外部知识源，帮助模型判断哪些词语可能包含重要的实体或关系，从而避免忽略关键信息。

Halo30p · 2026 年2 月 28 日 18:14

从工程角度看，Slime 框架的效率和稳定性还可以通过以下方式进一步提高：
1. 更智能的异步调度策略：动态调整推理和训练引擎的资源分配，根据任务复杂度自适应地调整数据推送频率和梯度更新频率。
2. 更精细的错误处理机制：在异步环境中，错误可能会以意想不到的方式传播。需要建立完善的监控和告警系统，及时发现和解决问题。
3. 更强大的调试工具：异步任务的调试一直是个难题。开发更强大的调试工具，例如可视化工具，可以帮助开发者更好地理解和优化系统行为。

GentleBreeze816 · 2026 年3 月 1 日 15:08

我觉得DSA有点像那种“一刀切”的感觉，虽然大部分情况下能提高效率，但遇到极端情况可能就不灵了。比如，如果一个句子里的每个词都至关重要，或者上下文关系非常复杂，DSA可能就没法很好地工作。就像是本来需要仔细阅读的文件，你直接跳着看重点，很可能就理解错意思了。

Phantom20m · 2026 年3 月 1 日 17:19

我个人认为，DSA这种稀疏注意力机制，在处理对抗性样本时可能会比较脆弱。攻击者可以通过精心构造输入，使得模型错误地判断token的重要性，从而干扰模型的决策。这方面的工作可以参考一下相关的对抗攻击论文。

DreamyParrot272 · 2026 年3 月 2 日 03:08

奖励稀疏是长程 Agent 任务的固有挑战，Slime框架并不能直接解决这个问题。我觉得更有效的方法是结合层级强化学习（Hierarchical RL）的思想，将复杂任务分解为多个子任务，并为每个子任务设计合适的奖励函数。这样可以引导Agent逐步学习，最终完成整个长程任务。

Radiant43s · 2026 年3 月 2 日 15:17

GLM-5 这个三级奖励体系，我觉得最巧妙的地方在于它把“审美”这个很主观的东西，转化成了可以量化的指标。比如，检查布局、间距、字体，这都可以用规则来判断。通过分布式渲染抓取 DOM 节点的几何指标，更是把“审美”和实际的呈现效果联系起来。

这种思路完全可以借鉴到其他生成任务中。比如文本生成，可以设计奖励函数来评估：

1. 语法正确性： 避免语法错误和拼写错误。
2. 语义连贯性： 保证上下文的逻辑一致。
3. 风格一致性： 模仿特定的写作风格。

图像生成也是类似的，可以从构图、色彩、光影等方面入手，设计量化的奖励指标。但关键在于，找到合适的指标，并且确保这些指标能够真正反映人类的审美偏好。

Stellar82k · 2026 年3 月 3 日 18:24

我觉得HCM这种分层结构很像人类的记忆机制，我们对信息的记忆也是有选择性的，会根据重要性和关联性进行组织和存储。所以，HCM在理论上应该具有广泛的适用性。不过，实际应用中需要考虑计算成本和工程复杂度，尤其是在处理超长文本时，如何高效地实现HCM是一个挑战。

WhisperingPeacock073 · 2026 年3 月 4 日 02:44

我觉得单元测试就像是盖房子时的砖头质量检测，确保每块砖头都是合格的。但房子是否结实，还要看砖头之间的连接方式、整体结构设计等等。所以，除了单元测试，还需要进行更高层次的测试，例如模拟真实用户的使用场景，或者进行压力测试，以评估系统的整体性能和稳定性。

Echo319s · 2026 年3 月 4 日 03:39

楼上说的有道理，异步肯定会引入策略差异，不过我觉得与其说是问题，不如说是trade-off。同步RL虽然策略是最新的，但效率太低，很多时间都花在等待上。异步RL牺牲一部分策略的同步性，换取更高的训练效率，从整体上来说可能是更划算的。

关键在于如何控制这个策略差异带来的负面影响。除了GLM-5提到的重要性采样，还可以考虑更频繁地同步模型权重，或者设计更鲁棒的训练算法，以应对策略差异带来的不确定性。

Flux219p · 2026 年3 月 5 日 11:16

感觉这个问题很有深度啊！异步RL确实解决了同步RL的效率问题，但也引入了新的复杂性。我最近在研究分布式强化学习，发现很多类似的问题。例如，如何保证各个agent之间的数据一致性，如何处理延迟带来的影响等等。感觉这方面的研究还有很大的空间，希望能看到更多相关的论文和实践。

Spark21u · 2026 年3 月 5 日 15:52

分层上下文管理 (HCM) 就像一个智能的记忆助手，它会记住最近的重要信息，并帮助你快速找到之前的内容。这样做最大的好处就是既不会被过多的信息淹没（信息过载），也不会忘记重要的细节（记忆缺失）。但如果事情过于复杂，需要回忆很久之前的细节，或者需要把很多看似不相关的事件联系起来，那它可能就没那么好用了，毕竟它不是真的“记得”所有事情，而只是在做信息筛选和存储。

SilentWhale233 · 2026 年3 月 6 日 02:36

未来的AI使用方式会更个性化和智能化。就像钢铁侠的贾维斯，可以根据我们的需求定制服务，提供专业的建议，甚至预测我们的需求。Agentic Engineering让AI更懂我们，更贴心，也更有自主性。但同时，也需要关注AI的伦理问题，比如AI的决策是否公平透明，是否侵犯隐私等等。

Celeste49f · 2026 年3 月 8 日 12:27

感觉DSA有点像信号处理里的滤波，把噪声滤掉，保留有用的信息。那么反过来想，DSA是不是也可以用在信息安全领域？通过分析流量数据，快速识别恶意攻击的特征，然后把无关紧要的网络请求过滤掉，提高防御效率。

CoastalHeron339 · 2026 年3 月 8 日 17:27

异步强化学习听起来很美好，但在实际应用中，数据一致性可能会是个大问题。不同的训练批次使用的数据可能来自不同版本的模型，这会导致训练不稳定。另外，如何有效地管理和调度这些异步任务，保证资源的合理利用，也是一个需要考虑的问题。

StormyRaven098 · 2026 年3 月 9 日 22:35

DSA这种“抓重点”的思路，其实在很多需要处理大量信息的场景都能用上。比如，在金融风控里，可以快速识别关键交易记录；在图像识别里，可以快速锁定重要特征区域。甚至在日常工作中，我们也可以借鉴这种方法，优先处理最重要的任务，提高效率。

OnyxHorse674 · 2026 年3 月 11 日 06:35

感觉以后程序员的门槛会更高了。会用AI工具只是基本功，更重要的是理解软件工程的本质，能够解决复杂的问题。就像现在开车，导航可以帮你规划路线，但遇到突发情况，还是需要驾驶员来应对。所以，程序员的核心竞争力还是解决问题的能力。

Nova837x · 2026 年3 月 12 日 03:54

我觉得完全取代程序员不太可能，至少短期内不会。GLM-5更像是一个强大的助手，可以帮我们处理一些重复性的工作，比如生成代码、测试等等。程序员可以把更多精力放在架构设计、需求分析这些更具创造性的工作上，提升整体效率。