Cloudflare 推出 Agent Memory:为 AI 智能体提供持久化记忆托管

Cloudflare 推出 Agent Memory 预览版,主打 AI 智能体的持久记忆与跨会话检索。

原文标题:Cloudflare 推出 Agent Memory:面向 AI 智能体的持久记忆托管服务

原文作者:AI前线

冷月清谈:

Cloudflare 在 Agents Week 期间宣布推出 Agent Memory 私人测试版,这是一项面向 AI 智能体的托管记忆服务,主打跨会话记忆、上下文压缩和重启后仍可保留信息。它的核心思路不是把所有历史都塞进上下文窗口,而是从对话中提取结构化记忆,在需要时再检索相关内容,以缓解“上下文衰减”带来的输出质量下降问题。

从架构上看,Agent Memory 在摄入端会对消息做幂等处理,并通过双通道提取细节与概括信息,再经验证和分类后分为事实、事件、指令和任务几类;检索端则并行使用全文搜索、事实键查找、原始消息检索、向量搜索和 HyDE 搜索,并通过 RRF 融合结果。Cloudflare 还支持共享记忆,便于多个智能体复用同一知识档案。

文章同时提到,这类能力正在成为智能体基础设施的一部分,而不只是模型能力。与 Mem0、Zep、LangMem、Letta 等方案相比,Cloudflare 的优势在于边缘部署以及与 Durable Objects、Vectorize、Workers AI 的深度集成。不过目前产品仍处于私人测试阶段,定价也尚未公布,实际落地仍需要关注供应商锁定、记忆质量控制和检索可迁移性等问题。

怜星夜思:

1、你觉得 AI 智能体真的需要“长期记忆”吗,还是大多数场景只是把上下文管理做得更好?
2、如果智能体记忆做成平台能力,你会担心供应商锁定吗?为什么?
3、你怎么看“共享记忆”这个设计?它会提升协作效率,还是带来新的安全和权限问题?
4、Cloudflare 这种把记忆做成基础设施的思路,会不会是下一代智能体平台的标配?

原文内容

作者 | Steef-Jan Wiggers
译者 | 明知山

Cloudflare 在 Agents Week 期间宣布 Agent Memory 已开启私人测试。这是一项托管服务,可为 AI 智能体提供跨会话、上下文压缩以及重启后的持久化记忆能力。该服务无需把所有内容都塞进上下文窗口,而是从对话中提取结构化记忆,只在需要时检索相关内容。Cloudflare 工程团队的 Tyson Trautmann 与 Rob Sutter 撰文 表示:

我们之所以构建 Agent Memory,是因为平台上实际运行的工作负载暴露出了现有方案无法彻底解决的短板。那些在真实代码库和生产系统中运行数周乃至数月的智能体需要一种能够随规模扩大持续可用的记忆能力,而不仅仅是在标准基准数据集上表现良好的记忆。

该服务解决了业界所说的上下文衰减(Context Rot)问题。即便上下文窗口已突破百万级词元,相关研究表明,随着上下文不断被填满,模型输出质量会随之下降。开发者陷入两难困境:要么保留全部信息,任由输出质量下滑,要么大幅精简内容,但会丢失智能体后续所需的关键信息。研究还表明,模型在上下文更少、但内容更相关的情况下能够生成更优质的结果,这也让记忆功能不再只是单纯的存储管理工具,更成为提升输出质量的重要手段。

Cartesian 首席软件架构师、InfoQ 编辑 Eran Stiller 在领英上 指出,此次公告标志着智能体系统设计思路正在发生更广泛的转变。“当一个智能体需要用到记忆的那一刻,你面对的就不再是聊天问题,而是架构问题。”Stiller 写道。他认为记忆“越来越不像是模型的特新,更像是基础设施”,生命周期管理、有效性校验、信息压缩与隔离边界正成为重要的关注点。

对于从业者而言,架构细节至关重要。在数据摄入端,每条消息都会分配一个基于内容寻址的 SHA-256 标识,以此来实现幂等重复摄入。提取器会并行运行两条处理通道:一条为宽泛通道,以约 10K 字符为单位进行分块处理;另一条为细节通道,专注于名称、价格、版本号等具体数值信息。验证器会在记忆完成分类前执行八项校验,将记忆划分为四种类型:事实、事件、指令和任务。事实与指令按照归一化主题进行键值管理,新增记忆会覆盖旧有记忆,而非直接删除旧记忆。

在检索端,五条通道并行运行,并通过倒数排名融合(RRF)整合结果:全文搜索、精确事实键查找、原始消息搜索、直接向量搜索,以及通过生成声明式答案来弥补词汇不匹配问题的 HyDE 向量搜索。Cloudflare 默认使用 Llama 4 Scout(17B MoE)完成信息提取与分类工作,仅在内容合成时使用 Nemotron 3(120B MoE),发现更大的模型仅在合成阶段能发挥作用。

Agent Memory 摄入流程图,从对话输入、验证和分类,再到存储

共享记忆功能是 Agent Memory 突破单智能体记忆局限的关键。记忆档案不必专属于某一个智能体,团队可以共用同一份档案,让某位工程师的编码智能体所学到的规范约定、架构决策和隐性知识都能供全员共享使用。Cloudflare 内部已经在落地这项功能。接入 Agent Memory 的智能体代码审查器学会了在特定模式曾被标记且作者选择保留的情况下自动保持静默。

Kristopher Dunham 在 对这项服务的详细评测 中指出了几个值得权衡的取舍。关于供应商锁定问题,Dunham 指出:

“可导出”意味着你能够提取原始事实,但并不代表你的检索流程具备可移植性。

他还观察到,提取质量取决于开发者无法控制的次级模型,并建议对于关键事实主动调用 remember 工具,而非依赖自动摄入。对于准备采用智能体记忆服务的团队,Dunham 建议先把对话历史与习得事实做架构层面的拆分,并在上下文窗口达到约 60% 时触发压缩,而非等到达到上限。

智能体记忆赛道正变得愈发拥挤。Mem0 提供搭载向量、图谱与键值存储的托管云 API。Zep 的 Graphiti 引擎采用时序知识图谱,用来追踪各类事实的有效存续时间。LangMem 可与 LangGraph 集成,但需要自行部署托管。Letta(原 MemGPT)提供分层记忆架构,允许智能体自主管控自己的上下文。Cloudflare 这款产品的差异化优势在于边缘分布式部署、与自身计算原语(Durable Objects、Vectorize、Workers AI)的深度集成,以及独有的多通道检索架构。

Agent Memory 目前仍处于私人测试阶段。在 Cloudflare 平台上开发智能体的开发者可以 加入等待列表,产品定价暂未公布。

原文链接

https://www.infoq.com/news/2026/04/cloudflare-agent-memory-beta/

声明:本文由 InfoQ 翻译,未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

会议推荐

世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?安全与可信这道坎怎么过?研发体系不重构,还能撑多久?

AICon 上海站 2026,4 大核心专题等你来:世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。

诚挚邀请你登台分享实战经验。AICon 2026,期待与你同行。

今日荐文

图片
你也「在看」吗?👇

会担心。文章里提到“可导出”不代表检索流程可移植,这个点很关键。数据能拿走不等于系统能平滑迁移,真正难的是记忆提取、排序和召回这套逻辑。

1 个赞

是的,未来大家拼的可能不是谁嘴更会说,而是谁更会记仇(不是)。认真说,能长期稳定记住业务状态的智能体,才有机会从玩具变工具。

1 个赞