Google 开源 Agent Substrate 与 AX:想把 Kubernetes 的经验带到 AI Agent 基础设施

Google 开源 Agent Substrate 与 AX,探索更高效运行大规模 AI Agent 的基础设施。

原文标题:Google 想为 AI Agent 打造下一个 Kubernetes

原文作者:AI前线

冷月清谈:

Google 开源了两个面向 AI Agent 基础设施的早期项目:Agent Substrate 和 Agent eXecutor(AX),均采用 Apache-2.0 许可证。Agent Substrate 构建在 Kubernetes 之上,试图为高频、突发式、经常等待人类或外部工具响应的 Agent 工作负载提供更高效的生命周期管理;AX 则作为运行时,负责协调 Agentic 循环、事件日志、状态恢复以及本地和远程 Actor 通信。文章重点提到,传统模式下每个活跃对话往往绑定独立进程或容器,即使处于等待状态也会占用资源,而 Substrate 可以将非活跃 Agent 挂起并保存状态,让 Worker 回到共享池中,恢复时通常只需数百毫秒。Google 将其称为“零空闲”架构,并认为 Agent 基础设施正处在类似 Kubernetes 早期的关键阶段。不过两个项目仍非常早期,接口和能力都可能发生破坏性变化。

怜星夜思:

1、Agent 工作负载真的需要一个“专门版 Kubernetes”吗,还是现有 K8s 加一些插件就够了?
2、文章里说“零空闲”架构能提升硬件效率,但会不会带来状态一致性、调试和可观测性的新麻烦?
3、如果 Agent 经常在等待人类或外部工具,那优化基础设施和优化产品交互,哪个更重要?
4、Google 把 Agent Substrate 做成开源且厂商中立,是技术理想主义,还是云服务生态布局?

原文内容

作者 | Phillip de Wet
译者 | 田橙
策划 | Tina

两个新的 Apache 2.0 项目让具有突发性的 Agent 工作负载硬件效率提升了 97%。

Google 表示,面向希望在大规模企业环境中高效运行 Agent 工作负载、又不想重新发明 Kubernetes 的组织,它已经拿出了一个早期方案。

目前,Google 已经开源 Agent Substrate,以及构建在其上的分布式 Agent 运行时 Agent eXecutor,简称 AX。两个项目均采用较为宽松的 Apache-2.0 许可证。不过,Agent Substrate 仍处于非常早期的开发阶段,相关能力和接口都可能继续变化。

Agent Substrate 是一种在 Kubernetes 之上构建 Agent 专属控制能力的方式。它让用户可以借助一个轻量级控制平面来管理 Agent 生命周期。这个控制平面专门面向 Agent 场景中的高频交互设计,可应对数百万次亚秒级工具调用。

与之配套的 AX,则是一个子系统或运行时,用于协调 Agentic 循环、通过事件日志管理执行,并与本地和远程 Actor 通信……原生支持恢复和执行续跑,即使是在复杂的分布式环境中也是如此。

来自 Kubernetes 的经验?

GKE 工程师 Tim Hockin 和产品经理 Brandon Royal 在谈到为何开放这些早期项目时表示:“在 Kubernetes 早期,来自不同贡献者的反馈和视角至关重要,他们在解决类似挑战的过程中帮助项目走向成功。我们认为,Agent 基础设施正处在一个类似的拐点。”

Google 在 5 月下旬发布了这两个项目,版本分别为 v0.0.0 和 v0.1.0。两者都附带了大量关于破坏性变更和整体不成熟的提示。

Substrate 文档警告称:“在这一阶段,我们不对向后兼容性作出任何保证,本项目中的一切都可能发生变化。”这也强调了它仍处于非常早期的孕育阶段。

配套的视频演示展示了 AX 和 Substrate 的实际运行效果:对于突发式工作负载的 Agent,它们能够带来巨大的效率提升。这类场景在 Agent 等待人类交互、外部工具或数据源时很常见。

Google 表示,在传统模型下,每一个活跃对话通常都会将计算和内存资源绑定到一个专用进程或容器上,即使它正在等待缓慢的外部事件。

借助 Substrate 对非活跃 Agent 的挂起能力,Google 演示了这样一种效果:如果从统计上看任意时刻只有一个 Agent 正在执行,那么最多 30 个逻辑 Agent 会话实际上可以共享同一份物理执行容量。

推理本身并不会变得更快,但对于大量间歇性活跃的 Agent 来说,Agent Substrate 的目标是在没有冷启动开销的情况下释放硬件资源,从而带来显著的效率收益。

项目负责人表示,Agent Substrate 位于 Kubernetes 之上,同时也在 Agent 执行层之下,目的是绕开 Kubernetes 的一些短板,而不是重新发明它。AX 则作为一个位于其上的 Agent 运行时,不绑定特定协议和计算形态,但针对 K8s 做了优化。

为那些因人类太慢而空闲的 Agent 提供底座

Google 表示,规模越大,Agent 花在等待人类、工具或其他来源输入上的时间就越多。

在传统基础设施中,选择通常只有两个:要么为硬件买单,把 Agent 状态持续保存在内存中;要么接受一次以秒计的冷启动。

Agent Substrate 将 Agent 的逻辑生命周期与底层计算资源解耦。当 Agent 进入非活跃状态时,它的执行状态会被快照保存,处理它的 Worker 则返回共享池。当对话恢复时,Agent 可以在任意可用 Worker 上快速恢复,通常只需几百毫秒,而不是经历一次完整冷启动。

Google 将其描述为一种“零空闲”架构。硬件资源保持流动,而 Agent 会话则独立于其下方的基础设施持续存在。由于构建在 Kubernetes 之上,恢复后的 Agent 可以运行在一个全新的 Pod 上,同时不丢失上下文。

Google 表示,Kubernetes 非常擅长编排大量相对稳定、长期运行的服务,但真正大规模运行的 Agentic 系统会产生数百万次亚秒级工具调用,并呈现出高度突发式的执行模式。

AX 位于这一层之上,作为运行时和执行环境,用于承载不同类型的 Agent 和工具,同时依赖 Substrate 完成调度、隔离、挂起和状态恢复。

Google 表示,摆脱传统的无状态微服务模型还能带来其他好处。例如,该系统会为 Agent 会话强制执行单写者一致性,避免为处理多个请求同时命中同一会话状态而引入锁层和分布式协调机制。

与 Google 集成,但也保持厂商中立

AX 内置了一个 Gemini Agent,用于处理自然语言请求;在其路线图的优先事项中,还包括与 Google Antigravity Agentic 开发平台集成。该项目提到,GKE 在调度和恢复等领域的工作,以及 Google DeepMind 在分布式 harness 方面的工作,是其早期影响来源。

不过,Google 的思路和当年的 Kubernetes 类似:先把核心组件开放出来,做成不绑定特定生态的基础设施,再借助社区参与推动项目成熟,最终也为自家云服务创造需求。

产品管理总监 Nathan Beach 表示:“我们选择以开放方式构建这一项目,是因为我们相信,未来的 AI 基础设施必须厂商中立、可移植,并由社区共同推动。”

原文连接:

https://www.thestack.technology/google-chases-kubernetes-moment-for-ai-agents/

声明:本文由 InfoQ 翻译,未经许可禁止转载。

会议推荐

大会限时早鸟票享 8 折专属优惠,现在报名立减 1160,更多详情可扫码或联系票务经理 13269078023 进行咨询。

今日荐文

图片
你也「在看」吗?👇

回答“开源是理想还是布局”:两者都有。Kubernetes 的历史已经证明,开放核心基础设施可以快速形成事实标准,而云厂商可以在托管服务、企业支持和生态集成里赚钱。Google 这步棋不难理解。

1 个赞

关于“现有 K8s 加插件够不够”,我偏保守一点:先别急着造新轮子。K8s 生态里调度、队列、serverless、workflow engine 已经很多了,真要证明 Substrate 有必要,得拿出更完整的 benchmark,不只是演示里 30 个会话共享资源。

3 个赞

针对“零空闲会不会增加复杂度”:肯定会。状态快照、恢复、单写者一致性、事件日志,这些都是分布式系统里最容易出锅的地方。资源利用率提高了,但排查问题可能从“看日志”变成“考古事件流”。

3 个赞

说到“零空闲”的副作用,我脑补了一下:老板看到硬件利用率上去了很开心,工程师看到状态恢复链路多了三层开始沉默。省下来的 GPU 钱,可能最后变成了买咖啡续命的钱。

2 个赞