高权限AI Agent:AI基础设施的新挑战与需求

探讨高权限AI Agent所需的基础设施,关注其执行边界、安全风险及评估体系,强调Agent已成为一个由模型、工具和环境构成的完整系统。

原文标题:更高权限的 AI Agent 需要怎样的 AI Infra?

原文作者:机器之心

冷月清谈:

随着 AI Agent 从对话式助手向嵌入企业流程的执行节点演进,其能力边界正在经历重塑。这类高权限 Agent 不仅需要处理复杂的任务负载,还需要在权限、状态、工具等方面进行综合管理。文章指出,业界对 Agent 的定义已从最初的“模型能力外延”转变为一个由模型、工具、运行状态与环境反馈共同构成的完整系统。在评估体系方面,由于 Agent 承担系统执行功能,风险已从“输出偏差”转向“执行失控”,因此需要更严格的访问约束、执行范围限制和安全评估。此外,文章还探讨了在不以真实世界作为训练场的前提下,如何设计可复现、可验证、可隔离的 Agent 评估体系,以及如何构建满足更高负载需求的基础设施,包括沙箱、权限、凭证隔离和运行时控制等。

怜星夜思:

1、你认为 Agent 最容易在哪些业务场景中“做错”?除了文章中提到的,还有哪些潜在的风险?
2、文章中提到“Agent = Model + Harness”,你觉得 Harness 在 Agent 系统中扮演了什么角色?如果让你来设计一个 Harness,你会重点考虑哪些方面?
3、你认为在评估 Agent 的安全性时,最容易被忽略的环节是什么?你有什么好的建议来弥补这些疏忽?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


高权限 Agent 正在经历一次对象边界的重写。从对话式助手到嵌入企业流程、浏览器、终端与操作系统的执行节点,Agent 已不只是「会回答问题的 AI 应用」,而是一个同时具有执行面、状态面、工具面与权限面的混合软件系统。伴随任务负载和责任边界的扩展,业界的话题开始关注这种「高权限 Agent」应当适配怎样的 AI Infra


目录

01. Agent 作为「带执行面的混合软件系统」的能力边界有何特点?

业界对高权限 Agent 的定义在如何调整?Agent 的工作负载正在如何扩张?Harness 在如何影响 Agent 的 Infra 设计?...

02. 不以真实世界作为训练场的 Agent 需要什么样的评估体系?

真实世界之外,Agent 该如何评估?从「说错」到「做错」的风险升级要如何管控?...

03. 更高负载的 Agent 需要怎样的基础设施?

新的 Agent Infra 需要考虑哪些问题?为什么沙箱、权限、凭证隔离和运行时控制会成为默认前提?...


Agent 作为「带执行面的混合软件系统」的能力边界有何特点?

1、以 OpenClaw 为代表的新一代高权限 Agent,已经不再局限于对话窗口中的问答工具,而是开始接入文件系统、命令行、浏览器、消息通道与网络服务,成为可以读写状态、调用工具并在授权边界内执行任务的系统对象。其应用扩展不仅限于传统问答,而是积极参与到多个执行场景中,承担复杂任务。

LangChain 公开的 GTM agent 已能围绕 Salesforce leads 自动触发流程,跨 Gong、LinkedIn、公司网站等来源收集上下文,再将带 reasoning 和 sources 的 Slack 草稿推送给销售,显示 Agent 已被直接嵌入销售流程。[1-1]

② LangChain 在总结 Stripe、Ramp、Coinbase 的内部 coding agents 时,也直接将共性架构概括为 isolated cloud sandboxes、curated toolsets、subagent orchestration,以及 Slack、GitHub、Linear 等工作流集成,说明 Agent 正在成为研发流程中的执行基础设施。[1-2]

2、在权限、任务负载和边界逐渐扩张的趋势下,业界对 Agent 或 LLM-based Agent 的定义开始聚焦其整体性,强调 Agent 不只是模型能力的外延,而是一个由模型、工具、运行状态与环境反馈共同构成的完整系统。

① 以 Lei Wang 等人 2023 年的综述为代表,早期讨论多在「基于大语言模型的自主智能体」的框架下理解智能体,重点在于通过规划、记忆、工具使用等模块补足大模型能力,使其具备更完整的自主决策与执行能力。[1-3]

② 到近期综述中,这一理解进一步被系统化:研究者更强调智能体的「完整系统」属性,即其关键不只在于模型本身,而在于模型如何与工具、记忆、反馈回路和运行环境结合,作为连接自然语言意图与现实世界计算的系统接口持续运作。[1-4]

3、在企业实践中,Agent 的定义则从「模型能力外接工具」进一步收束为「可部署、可约束、可编排的执行系统」,其关键不只在于模型本身,而在于模型如何与工具、运行环境和流程控制机制共同工作。

① LangChain 将 Agent 概括为「Model + Harness」,并将这一外层执行框架进一步拆解为提示词、工具、沙箱、浏览器和编排逻辑等组成部分。[1-5]

② OpenAI 在有关 Agent 能力稳定目标下 harness engineering 的相关工作中,同样将重点放在环境设计、意图设定与反馈回路,而不再只是模型本身。[1-6]

4、在智能体开始承担系统执行功能之后,其责任后果不再单纯表现为会「说错」,业界开始担忧 Agent 是否会在系统执行层面真的「做错」。

① 随着模型开始调用工具、接入权限并嵌入业务流程,风险已具体表现为越权执行、误触发流程、敏感资源暴露,以及在错误边界内代表用户行动。

② 以 OpenClaw 为代表的智能体系统为例,其公开漏洞显示,恶意网站已可沿着本地网关、配对机制等控制路径尝试接管智能体。[1-7]

③ 美国国家标准与技术研究院已将部署环境中的访问约束、运行监测与安全评估列为智能体系统安全的重点问题。[1-8][1-9]

5、在高权限 Agent 的风险由「输出偏差」转向「执行失控」之后,相关治理已不再停留在模型侧防护,而是进一步扩展到权限、集成、网络、运行时与隔离环境。相关讨论的重点,已从「如何减少错误输出」转向「如何约束访问边界、限制执行范围并降低失控后的影响面」。

① 微软将 OpenClaw 视作「带持久凭证的不受信代码执行」,建议仅在隔离环境中评估,并使用低权限、非敏感凭证。[1-10]

② 官方模型威胁框架(Threat Model)将「恶意技能读取环境变量和配置文件以窃取凭证」列为严重残余风险,同时将 Runtime、Gateway、Integrations、Marketplace 与 MCP Servers 一并纳入威胁建模范围,并建议采用技能沙箱与凭证隔离等措施。[1-11][1-12][1-13]


不以真实世界作为训练场的 Agent 需要什么样的评估体系?

1、对于能够自主操作网页、图形界面和操作系统的智能体而言,真实网站与真实系统并不天然适合作为直接训练场。与之相应,围绕网页智能体和系统操作智能体的环境设计,当前正更集中地强调可复现、可验证与可隔离,即任务状态能够稳定重置、执行结果能够清晰判定、试错行为能够被限制在受控边界内...


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

我倾向于把 Harness 看作是 Agent 的“外骨骼”,它提供必要的支持和保护,让 Agent 能够更好地完成任务。我觉得设计Harness时,需要考虑Agent的具体应用场景,比如是金融、医疗还是电商。不同的场景对安全性、稳定性和效率的要求都不一样。#场景适配 #定制化Harness

我认为社会工程学攻击往往被忽略。攻击者可能会通过伪装成用户或者管理员来欺骗 Agent,获取敏感信息或者控制权限。建议是加强对 Agent 的身份验证机制,采用多因素认证,并对员工进行安全意识培训。#社会工程学#多因素认证

Harness 的角色更像是教练,负责训练、指导和监督 Agent。设计 Harness 时,重点在于如何让 Agent 从错误中学习,不断提高自己的能力。所以,我认为反馈机制和强化学习算法非常重要。#Agent学习 #强化学习

同意楼上的观点,高风险行业确实要谨慎。我补充一点,我认为在涉及人身安全的场景,例如自动驾驶或者工业机器人控制,agent的错误操作可能直接造成人员伤亡。更进一步说,如果agent被恶意攻击,后果不堪设想。 #AI安全 #责任边界

我理解 Harness 就像是 Agent 的“安全带”和“方向盘”,它负责约束 Agent 的行为,确保它在安全可控的范围内运行。如果让我设计,我会特别关注权限控制、异常处理和可追溯性。权限控制要细粒度,异常处理要完善,可追溯性要强,方便问题排查。#Agent架构 #Harness设计

我觉得在金融风控或者医疗诊断这种高风险领域,Agent“做错”的后果不堪设想。比如,Agent可能因为数据偏差导致错误的信贷决策,或者在辅助诊断时忽略关键信息。此外,隐私泄露也是个大问题,Agent如果未经授权访问敏感数据,那就麻烦大了。 #高权限AI #Agent风险