AI Agent通信协议四大分类框架解析

文章概述了LLM AI Agent通信协议,提出分类框架:上下文导向型和代理间通信型,并用旅行计划案例分析了几种协议。

原文标题:4大类AI Agent协议框架全面综述

原文作者:数据派THU

冷月清谈:

本文对LLM AI Agent通信协议进行了系统性概述,提出了一个二维分类框架,将协议分为上下文导向型和代理间通信型,并进一步细分为通用型和特定领域型。上下文导向型协议主要解决AI代理与外部工具或数据源之间的交互问题,分为MCP和agents.json。代理间通信协议专注于代理之间的协作和通信,分为ANP、A2A、AITP、AConP、AComP、Agora、LMOS、Agent Protocol、LOKA、PXP、CrowdES和SPPs。文章还通过一个北京到纽约的五天旅行计划用例,比较分析了MCP、A2A、ANP和Agora四种协议。

怜星夜思:

1、在实际应用中,如何选择最适合的AI Agent协议?除了文章中提到的因素,还有哪些因素需要考虑?
2、文章提到了多种Agent间通信协议,它们在设计理念和适用场景上有什么根本区别?未来Agent协议的发展趋势是什么?
3、在旅行计划案例中,Agora协议通过自然语言理解生成标准化协议,这种方式有哪些优势和局限性?如何提高自然语言理解的准确率和效率?

原文内容

源:PaperAgent
本文共2000字,建议阅读5分钟
本文对现有的LLM AI Agent通信协议进行了系统性的概述。


对现有的LLM AI Agent通信协议进行了系统性的概述,并将其分为四大类,以帮助用户和开发者为特定应用场景选择最适合的协议。



一、AI Agent协议的发展


AI Agent协议的定义:代理协议是标准化框架,定义了代理之间以及代理与外部系统之间结构化通信的规则、格式和程序。与传统交互机制(如API、GUI或XML)相比,协议在效率、操作范围、标准化和AI原生性方面具有显著优势。



  • 代理协议的作用:


    • 互操作性:允许不同架构的异构代理系统无缝协作。

    • 标准化交互:确保代理能够轻松集成和扩展其功能,通过纳入新工具、API或服务。

    • 安全性和治理:提供内置机制以管理代理行为,确保在明确定义的安全操作参数内运行。

    • 降低开发复杂性:通过抽象化交互逻辑,减少代理开发的复杂性,使开发者能够专注于增强核心代理功能。

    • 促进集体智能:通过标准化通信渠道共享见解和协调行动,使分布式代理系统能够实现单一架构无法实现的结果。


二、AI Agent协议分类框架


提出了一个二维分类框架,将协议分为上下文导向型(Context-Oriented Protocols)和代理间通信型(Inter-Agent Protocols),并进一步细分为通用型(General-Purpose)和特定领域型(Domain-Specific)。



1、上下文导向型协议


面向上下文的协议主要解决AI代理与外部工具或数据源之间的交互问题,帮助代理获取必要的上下文信息以完成任务。这类协议进一步分为:


  • 1.1 General-Purpose Protocols


    • MCP(Model Context Protocol):由Anthropic提出,是一个通用的上下文获取协议,允许AI代理通过标准化的方式与外部资源(如数据、工具和服务)进行交互。它采用客户端-服务器架构,将工具调用与LLM响应解耦,提高了数据安全性和隐私性。

  • 1.2 Domain-Specific Protocols


    • agents.json:由WildCardAI提出,是一个基于OpenAPI标准的开源机器可读合同格式,专门用于将传统API与AI代理桥接,支持网站声明AI兼容接口、认证方案和多步工作流。


2、Agent间通信协议


面向代理间交互的协议专注于代理之间的协作和通信,以解决更复杂的任务。


  • 2.1 General-Purpose Protocols


    • ANP(Agent Network Protocol):由开源社区开发,旨在实现不同代理之间的互操作性,构建一个开放、安全、高效的协作网络。它支持跨域代理通信,采用去中心化身份认证机制。

    • A2A(Agent2Agent Protocol):由Google提出,专注于企业内部代理之间的复杂问题解决和协作,支持异步工作流和多模态交互。

    • AITP(Agent Interaction & Transaction Protocol):由NEAR基金会提出,支持代理之间的安全通信、协商和价值交换,特别适用于跨信任边界的交互。

    • AConP(Agent Connect Protocol):由Cisco提出,定义了调用和配置代理的标准接口。

    • AComP(Agent Communication Protocol):由Al and Data提出,旨在标准化代理之间的通信,促进自动化和协作。

    • Agora:由牛津大学提出,是一个元协议,允许代理根据上下文采用不同的通信协议。

  • 2.2 Domain-Specific Protocols


    • LMOS(Language Model Operating System):由Eclipse基金会提出,旨在构建一个互联网代理生态系统,支持代理的发现、交互和互操作性。

    • Agent Protocol:由AI Engineer Foundation提出,定义了控制台与AI代理之间的通信标准。

    • LOKA:由CMU提出,是一个去中心化的框架,用于建立知识型代理之间的信任和伦理协调。

    • PXP(Predict and eXplain Protocol):由BITS Pilani提出,专注于人机交互中的双向可解释性。

    • CrowdES:由GIST.KR提出,用于机器人代理之间的交互,模拟真实的人群动态。

    • SPPs(Spatial Population Protocols):由利物浦大学提出,用于解决匿名机器人之间的分布式定位问题。



三、案例分析


通过一个具体的用例——计划从北京到纽约的五天旅行——来比较和分析四种不同的AI代理协议:MCP、A2A、ANP和Agora:



1.  MCP: 单个代理调用所有工具


适用于任务定义明确且外部服务接口稳定的场景,但不适用于动态环境。


  • 工作流程:


    1. 用户向MCP Travel Client提出旅行计划请求。

    2. MCP Travel Client直接调用Flight Server、Hotel Server和Weather Server,分别获取航班、酒店和天气信息。

    3. 各服务返回信息后,MCP Travel Client聚合所有响应,生成完整的旅行计划。


2. A2A: 企业内部的复杂协作


适合企业内部多个专业代理直接通信的场景,依赖于稳定的内部基础设施和高效的代理间数据交换。


  • 工作流程:


    1. 用户向A2A Travel Planner提出旅行计划请求。

    2. A2A Travel Planner将任务分配给各个专业代理(如Flight Agent、Hotel Agent、Weather Agent)。

    3. 各代理直接相互通信,获取所需信息(例如Flight Agent直接从Weather Agent获取天气信息)。

    4. 各代理将结果返回给A2A Travel Planner,由其汇总最终结果。


3. ANP: 跨领域代理协议


适合跨组织协作的场景,需要清晰的协议和安全机制。


  • 工作流程:


    1. 用户向ANP Travel Planner提出旅行计划请求。

    2. ANP Travel Planner将任务分配给不同组织的代理(如Flight Agent、Hotel Agent、Weather Agent)。

    3. 各代理通过跨组织协议进行交互(例如Flight Agent与Weather Agent跨组织交互)。

    4. 各代理将结果返回给ANP Travel Planner,由其汇总最终结果。


4. Agora: 自然语言到协议生成


专注于用户交互,将自然语言转换为结构化协议,适合需要高效用户交互的场景。


  • 工作流程:


    1. 用户提出自然语言请求(如“规划从北京到纽约的五天旅行”)。

    2. Agora通过自然语言理解模块解析用户请求,提取关键信息(如出发地、目的地、持续时间、预算)。

    3. 协议生成模块将这些信息转换为标准化协议(如Flight Protocol、Hotel Protocol、Weather Protocol)。

    4. 协议分发模块将协议分发给相应的专业代理(如Flight Agent、Hotel Agent、Weather Agent)。

    5. 各代理根据协议响应,返回结果。


https://arxiv.org/pdf/2504.16736
A Survey of AI Agent Protocols

辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

这些协议的设计理念各不相同,有的侧重于企业内部协作,有的则放眼于跨组织互操作。A2A像是企业内部的“局域网”,追求效率;ANP则像是互联网,更注重开放和安全。未来,Agent协议可能会更加注重智能化,能够根据场景自动选择最佳通信方式,就像Agora协议那样。

从设计理念上看,A2A更强调企业内部的效率和安全性,因此可能采用更严格的访问控制和加密机制。ANP则更侧重于开放性和互操作性,因此需要解决跨组织信任和身份验证的问题。AITP则进一步关注价值交换,需要引入经济学和博弈论的考量。Agent协议的未来发展趋势我认为有以下几点:1. 更加标准化:形成统一的Agent通信标准,降低集成成本。2. 更加智能化:Agent能够根据上下文自动选择合适的协议,甚至动态创建新的协议。3. 更加安全:加强对Agent行为的监控和管理,防止恶意Agent攻击。4. 更加注重隐私保护:采用差分隐私等技术,保护用户数据安全。

选择AI Agent协议,不能只看技术参数,还得看“门当户对”。如果你的Agent要对接的都是“高富帅”级别的API,那自然得选个“西装革履”的协议;如果对接的是一堆“草根”API,那可能agents.json这种“T恤短裤”更实用。当然,最关键的是,别选那种“皇帝的新装”,看着高大上,实际根本没人用。

选协议这事儿,得看应用场景。文章里说的挺好,但我觉得还得加上一点:团队的技术栈。如果团队对RESTful API很熟,那agents.json可能上手更快。另外,长期维护成本也得考虑,选个社区活跃的,以后有问题也好找人问。

这些协议的区别,就像是不同国家的语言。A2A是“官方语言”,适合内部沟通;ANP是“世界语”,大家都勉强能懂;Agora是“AI同声传译”,能自动把你的话说成对方能理解的语言。未来的趋势?我觉得会是“脑电波交流”,Agent之间根本不用说话,直接心灵感应,想想就刺激!

协议选择确实要结合实际需求。除了文章中提到的互操作性、安全性等因素,我认为还需要考虑以下几点:1. 协议的成熟度:选择经过验证的、有实际应用案例的协议,可以降低风险。2. 性能:不同的协议在通信效率上可能存在差异,需要根据应用对实时性的要求进行选择。3. 与现有系统的兼容性:如果AI Agent需要与遗留系统集成,协议的兼容性至关重要。4. 法律合规性:部分行业对数据传输和处理有严格的法律要求,需要选择符合相关规定的协议。

Agora就像一个“翻译”,把你的“人话”翻译成Agent能懂的“机器话”。优势是省事,不用你学“机器话”;局限是“翻译”水平有限,可能get不到你的真意。提高“翻译”水平?简单!多喂它点“鸡汤文”,让它更懂人心!开玩笑,其实就是多训练,让它更懂用户意图。

Agora的优势在于其对用户友好性,降低了用户使用AI Agent的门槛。然而,其局限性在于自然语言理解的准确率和鲁棒性。为了提高自然语言理解的准确率,可以尝试以下方法:1. 采用预训练语言模型(如BERT、GPT等),并针对特定领域进行微调。2. 引入知识图谱,提高对领域知识的理解能力。3. 采用多模态输入,结合语音、图像等信息,辅助理解。4. 引入主动学习机制,让Agent能够主动向用户提问,澄清歧义。为了提高效率,可以采用以下方法:1. 模型压缩和量化,降低模型大小和计算复杂度。2. 采用分布式计算,并行处理自然语言理解任务。3. 采用缓存机制,避免重复计算。

Agora这玩意的优势在于方便用户,不用懂那些复杂的协议细节。但局限性也很明显,自然语言理解这事儿本身就很难,稍微说错点,可能就理解歪了。要提高准确率,得用更强大的模型,还得有大量的数据训练。至于效率,可能得靠硬件升级了,毕竟算力是瓶颈。