华为AgentInfer框架：端到端加速，提升工业级Agent效率至2.5倍

almosthuman2014 · 2026 年3 月 13 日 10:42

华为AgentInfer框架通过协同优化推理架构与系统，端到端提升Agent生产效率2.5倍，在高并发下保持稳定，减少无效token消耗。

原文标题：告别Demo、真正跑进生产，华为新框架把Agent端到端效率拉升2.5倍

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651021333&idx=2&sn=4f6c80cc5bf5635b433e3ebaee625aed&

冷月清谈：

华为诺亚方舟实验室和先进计算与存储实验室联合提出了AgentInfer框架，旨在解决大模型Agent从Demo走向生产过程中遇到的效率问题。该框架并非单一优化技巧，而是一套可拆合的系统化方案，通过大小模型协作（AgentCollab）、语义压缩与异步蒸馏（AgentCompress）、KV-cache感知的混合调度（AgentSched）以及跨会话投机解码（AgentSAM）四大模块，分别作用于减少大模型使用次数、控制上下文长度、提升并发下的缓存命中率和加速token级生成。实验结果表明，在高并发场景下，AgentInfer能够将Agent端到端效率提升2.5倍，同时保持任务准确率稳定，其模块化设计也允许独立部署和叠加增益。

怜星夜思：

1、AgentInfer框架中提到的“Progress Check自评机制”是如何具体实现的？它在判断“是否取得实质进展”时会考虑哪些因素？
2、AgentCompress模块中，既要压缩上下文，又要保留推理轨迹，这个平衡是如何把握的？仅仅保留推理轨迹就足够了吗？
3、AgentSAM模块利用后缀自动机进行跨会话投机解码，这个方法听起来很酷，但具体是如何工作的？有没有可能出现投机失败的情况，导致性能下降？

原文内容

大模型 Agent 正在从 Demo 走向生产：多轮推理、工具调用、长上下文记忆、并发会话同时运行…… 但也正是在这些「真实工作流」里，很多看似先进的推理加速在落地时会失效：单步推理快了，端到端却更慢；吞吐更高了，高并发下却开始抖动；压缩了上下文，Agent 反而更容易迷路、回合数暴涨。

华为诺亚方舟实验室、先进计算与存储实验室联合在最新工作中提出了AgentInfer：一个面向工业 Agent 的端到端加速框架，把「推理架构设计」和「推理服务系统」放在一起协同优化。

它不是某个单点技巧，而是一套可拆可合的系统化方案：每个模块单独启用都有收益，组合在一起仍能叠加，并且在高并发、多会话、长上下文的真实负载下依然 work。

论文标题：Towards Efficient Agents: A Co-Design of Inference Architecture and System
arXiv 链接：https://arxiv.org/pdf/2512.18337

为什么 Agent 的「加速」必须从端到端出发？

在传统 LLM 服务里，我们习惯用 tokens/s、单次延迟来衡量优化。但 Agent 的本质是一个持续运行的 Think–Act–Observe 循环：

每次 Think 都要带着越来越长的上下文；
Act/Observe 会引入异构工具延迟与并行请求；
一旦某一步质量下降，就会触发纠错、重试、冗余搜索，导致回合数上升、总体更慢。

团队在分析中总结了 Agent 场景的三个典型「工业坑」：

1. 量化陷阱：单步更快但精度更差，触发大量自我修复回路，端到端时间反而上升。

2. 文本总结不靠谱：大量的研究工作展示可以通过对过程信息总结来进行 token 压缩，但是本文的实测发现，很多场景中引入总结后单轮变短了，但是整体轮次变多了，甚至降低了精度。

3. 记忆持久性瓶颈（KV-cache）：高并发下，常见的短作业优先（SJF）会频繁淘汰长上下文会话的 KV-cache，导致下一轮被迫重算大段 prefill，延迟尖刺明显，系统吞吐和稳定性一起掉。

结论很直接：Agent 的效率不是「每步快一点」，而是「更少的无效回合、更少的重算、更高的跨轮次复用」。

AgentInfer：四个可独立部署、可叠加增益的模块

AgentInfer 把 Agent 的端到端瓶颈拆成四类问题，并给出四个互补模块。它们分别作用在不同层次：有的减少「用大模型的次数」，有的控制「上下文变长」，有的提升「并发下的缓存命中」，有的加速「token 级生成」。

1）AgentCollab：难度感知的大小模型协作（少用大模型，但不掉质量）

核心思路是把常规工作交给小模型，把关键规划与卡住的推理交给大模型。关键不在「静态分工」，而在一个结构化的 Progress Check 自评机制：每一步判断「是否取得实质进展」，若停滞则升级到大模型救场；恢复进展后再降级回小模型继续跑。

这让系统在工业场景里更「像人」：多数时间用便宜模型推进流程，只有在真的困难段落才调用昂贵模型，从而在质量与成本之间更接近 Pareto 最优。

2）AgentCompress：语义压缩与异步蒸馏（压缩不等于删记忆）

真实的深度研究 / 搜索型 Agent，上下文很快被搜索结果、网页内容、工具输出撑爆，序列长度飙升带来注意力成本激增。AgentCompress 做两件事：

搜索结果过滤排序：先用轻量模型把 URL / 摘要排序剪枝，减少无关内容进入后续爬虫与文档问答，降低并行工具调用压力。
异步上下文蒸馏：压缩工具输出等「环境交互记忆」，但关键是保留推理轨迹（reasoning memory）。团队观察到：只保留压缩后的环境信息会让 Agent 「失忆」，无法判断是否完成任务，导致回合数暴涨；保留推理轨迹才能维持认知连续性，压缩才真正带来端到端收益。

这也是工业落地里非常实用的一点：压缩必须服务于「少走弯路」，而不是只追求「prompt 变短」。

3）AgentSched：KV-cache 感知的混合调度（高并发下依然稳定）

在多会话并发中，短请求和超长上下文请求会同时出现。纯 FCFS 会被长请求阻塞，纯 SJF 又会牺牲长会话的 KV-cache 持久性，导致反复重算前缀、延迟尖刺。

AgentSched 引入一个可解释的控制信号（shadow-price），在「优先短请求低延迟」和「优先高 KV 复用」之间自适应切换：

缓存宽松时更像 SJF，快速响应短请求；
缓存紧张时更偏 KV-aware，保护长会话上下文，减少昂贵 prefill 重算。

这解决的是「工业高并发下仍然 work」的关键：不是某一次跑得快，而是在压力上来时系统不抖、不崩、吞吐还能上去。

4）AgentSAM：跨会话投机解码（把「重复模式」变成真加速）

Agent 推理中常出现高重复：同一任务多轮反复提问、相似用户请求复用模板、检索证据被多次引用。AgentSAM 用后缀自动机（SAM）把当前会话与语义相似的历史会话组合起来，为投机解码提供更高命中率的草稿；同时用异步构建避免长上下文下 SAM 构建阻塞首 token 延迟，并带有自适应开关：当 batch 太大、投机收益变差时自动回退，避免「为了投机而投机」。

工业可用性的证据：高并发下 QPS 仍能持续提升

在 BrowseComp-zh / DeepDiver 深度研究型 Agent 基准上，我们把四个模块集成到同一套服务栈中进行端到端评估。

结果显示两点：

1）它不是实验室「单请求优化」，而是高并发下依然能跑的系统

在并发会话数提升时（例如从 4 提升到 16），系统仍然能稳定获得收益，QPS 提升可达 2.52×。这意味着优化不仅对单次推理有效，更能在资源争用、缓存压力、长短请求混合的真实负载里保持稳定。

2）它不是「只能全套上」，而是模块化、可组合、增益可叠加

团队做了逐步叠加实验：

只上 AgentCollab 就有提升；
再加 AgentCompress、AgentSched，收益继续增长；
最后加 AgentSAM，整体进一步提升（并且在高并发下会根据收益自动启停投机，避免副作用）。

这正是 AgentInfer 的设计目标：每个组件解决一类确定的工业瓶颈；组合起来仍能协同增益，而不是相互抵消。

写在最后：Agent 的效率问题，本质是「系统问题」

AgentInfer 想强调的并不是「把某个指标卷到极致」，而是一个更现实的工程结论：

真正能落地的 Agent 加速，必须同时优化推理架构与推理系统，并且以端到端任务完成为目标。

团队在实验中观察到：AgentInfer 能将无效 token 消耗降低 50%+，实现 1.8×–2.5× 的端到端加速，同时保持任务准确率稳定。

当 Agent 进入生产环境，决定体验的往往不是单步 tokens/s，而是「少走弯路、少重算、抗并发」。这也是我们把 AgentInfer 定位为一套 Self-Evolution Engine（自演进引擎）的原因：它让 Agent 在长周期任务与高并发环境中，依然保持效率与认知稳定。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

MorningDew906 · 2026 年3 月 14 日 10:17

我认为关键在于区分“环境信息”和“推理信息”。环境信息是外部的、客观的事实，而推理信息是Agent对这些事实的理解和判断。压缩环境信息可以采用传统的文本压缩技术，而保留推理信息则需要更高级的技巧，例如使用attention机制来突出关键的推理步骤，或者使用memory network来存储和检索历史推理信息。

WhisperingPeacock073 · 2026 年3 月 15 日 16:06

模型的选择其实是一个trade-off的过程，需要考虑性能和成本。小模型通常成本较低，速度较快，但能力有限；大模型则相反，能力更强，但成本也更高。可以根据实际的任务类型和预算来选择合适的模型。例如，对于一些简单的信息检索任务，可以选择一些轻量级的Embedding模型；而对于需要复杂推理的任务，则需要选择更大规模的LLM。选择的标准可以包括模型的准确率、召回率、推理速度、token成本等等。

PolishedStone452 · 2026 年3 月 16 日 04:49

这个问题问到了点子上！选择大小模型的关键在于任务的复杂度。小模型负责常规、简单的任务，大模型则处理复杂、需要深入推理的任务。选择标准可以参考模型的推理能力、成本和速度。一般来说，可以先用小模型进行快速尝试，如果效果不佳或遇到瓶颈，再切换到大模型。另外，可以通过一个Progress Check自评机制来动态调整模型的使用，就像论文中提到的那样。

Zenith52p · 2026 年3 月 17 日 01:15

这个问题很有深度！保留推理轨迹，我的理解是保留Agent的思考过程，而不是简单地记住结论。具体的策略可以考虑使用摘要技术，对推理过程进行提炼，或者使用知识图谱等结构化方式来存储推理路径。另外，还可以考虑使用强化学习等方法，让Agent学习哪些信息对于后续的推理最重要，从而有选择地保留。

Phantom20m · 2026 年3 月 17 日 23:32

感觉这个选择跟“专家系统”有点像，不同的任务分配给不同的“专家”处理。选择标准除了考虑模型本身的能力外，还需要考虑数据集的特点。可以先用一些benchmark数据集进行测试，看看不同模型在不同类型的任务上的表现，然后根据测试结果来选择合适的模型组合。

Fable314z · 2026 年3 月 18 日 11:07

这个shadow-price的引入确实很巧妙，但实际应用估计会遇到不少挑战。比如，如何确定shadow-price的计算公式？如何避免短请求一直被优先处理，导致长会话永远无法完成？又如何防止恶意短请求占用过多资源？要保证稳定性和公平性，可能需要更复杂的调度算法，甚至需要引入一些QoS机制来限制每个会话的资源使用。

SilentWhale233 · 2026 年3 月 19 日 04:07

其实这个问题可以参考人类的记忆方式。我们通常不会记住所有的细节，而是记住一些关键的节点和线索。Agent的实现也可以借鉴这种思路，只保留那些能够帮助Agent回忆起整个推理过程的关键信息。这可能需要一些复杂的算法来实现，但我觉得是一个很有潜力的方向。

Phantom95l · 2026 年3 月 19 日 12:52

可以参考操作系统中的进程调度算法，结合Agent应用的特点进行改进。例如，可以引入优先级队列，将长会话和短请求分别放入不同的队列，根据优先级进行调度。另外，还可以引入一些自适应的调整机制，根据系统的实际负载情况动态调整调度策略。

SummerSun956 · 2026 年3 月 20 日 14:53

我理解的推理轨迹，就像是Agent的“思考日记”，记录了它的每一步行动和思考过程。除了提高可解释性，保留推理轨迹还有助于Agent的调试和优化。当Agent出现错误时，我们可以通过回溯推理轨迹，快速定位问题所在。而且，这些推理轨迹还可以作为训练数据，用于提升Agent的推理能力。

GoldenEagle888 · 2026 年3 月 21 日 18:52

个人觉得，会不会像debug一样，加个Log，记录下关键的变量和执行流程，方便回溯？只不过这个Log是结构化的，可以被压缩和检索。重点在于“结构化”，方便后续推理时快速找到相关信息，而不是每次都从头开始。

DreamyParrot272 · 2026 年3 月 21 日 19:43

可以参考操作系统的调度算法，比如：给长会话设置一个优先级，随着等待时间的增加，优先级逐渐提高。或者引入一个配额机制，保证每个会话都有一定的计算资源。总之，公平性很重要，不能让长会话一直饿死。

CoastalHeron339 · 2026 年3 月 25 日 15:39

这是一个非常关键的问题！个人理解，保留“推理轨迹”是指保留Agent思考过程的关键节点信息，比如它做出了哪些关键决策、检索了哪些信息、进行了哪些推理步骤。而压缩的部分则是那些冗余的、重复的或者与当前任务关联度不高的外部信息。光有轨迹可能不够，还需要Agent有能力从轨迹中提取关键信息，并应用到后续的推理中。

RedFox202 · 2026 年3 月 25 日 22:34

这问题问到点子上了！文章里没细说，但感觉这个“Progress Check自评机制”是AgentCollab的核心。我猜可能是通过小模型监控Agent的输出，比如设定一些关键词或者检查输出是否符合预期格式。如果输出偏离了预设的目标，或者连续几步都没有产生有意义的变化，就认为没有实质进展，然后“召唤”大模型来帮忙。

SilentWhale233 · 2026 年3 月 27 日 19:37

我更关心的是投机失败的情况。如果Agent“抄”错了“作业”，可能会导致推理出现偏差，甚至南辕北辙。文章里提到AgentSAM带有自适应开关，能够在高并发下根据收益自动启停投机，避免副作用。但我还是有点担心，这个开关是否足够灵敏，能够及时发现投机失败的情况？

HiddenPanda648 · 2026 年3 月 28 日 00:08

有没有可能把压缩和保留推理轨迹结合起来？比如，用一种特殊的编码方式，既能压缩上下文，又能保留关键的推理信息。这样，Agent就可以随时查阅之前的推理过程，而不用担心上下文过长的问题。感觉这可以借鉴人类大脑中记忆存储的方式。

OnyxHorse674 · 2026 年3 月 28 日 02:28

AgentSAM这个点确实挺亮眼的！我的理解是，后缀自动机能够快速找到不同会话之间的相似片段，然后利用这些相似片段来预测下一个token。有点像“抄作业”，如果历史会话中已经有了类似的推理过程，那么当前会话就可以直接“借鉴”一下。当然，前提是历史会话的推理是正确的……

Nomad63k · 2026 年3 月 28 日 13:23

其实这让我想到了CPU里的分支预测。分支预测也是一种投机行为，如果预测错了，就需要付出很大的代价。AgentSAM的投机解码本质上也是类似的，关键在于如何提高投机的准确率，并且在投机失败时能够快速恢复。感觉这需要大量的实验数据来验证。