AgentConductor:动态多智能体协作,Token成本降68%,编码准确率显著提升

AgentConductor通过动态调整多智能体协作方式,显著降低AI编程的Token成本高达68%,同时提升编码准确率。多智能体系统正在学会组织自己!

原文标题:告别昂贵账单,Token直降68%,多智能体动态协作编程来了

原文作者:机器之心

冷月清谈:

上海交通大学i-WiN团队提出AgentConductor框架,通过强化学习训练的3B参数指挥智能体,动态调整多智能体协作方式,以适应不同难度的编程任务。该框架能根据任务难度生成YAML交互拓扑图,并在代码运行失败时进行拓扑结构的端到端重新生成。实验表明,AgentConductor在提升编码准确率的同时,显著降低了Token成本。该研究表明,高效的AI编程团队需要面向任务、可随执行反馈动态演化的协作结构,而非僵化的工作流。

怜星夜思:

1、AgentConductor通过强化学习训练指挥智能体来优化多智能体协作,这个思路很有意思。除了编程领域,这种动态调整协作结构的模式还能应用在哪些场景?
2、AgentConductor使用了YAML来表示智能体之间的交互拓扑结构,这种方式有什么特别的优势?相比于传统的矩阵或者自然语言描述,YAML的优势体现在哪些方面?
3、文章提到AgentConductor在困难任务上会自动扩展节点数量,但传统方法往往保持固定密度。那么,节点数量是不是越多越好?AgentConductor是如何平衡节点数量和Token成本的?

原文内容


本文的主要作者来自上海交通大学自动化与感知学院 i-WiN 中心团队,团队负责人是上海交通大学讲席教授关新平。本文的通讯作者为 i-WiN 中心陈彩莲教授和关新平教授,指导老师还包括中心的许齐敏副研究员、徐磊和张延洲助理研究员。本文的第一作者为上海交通大学博士生王思宇,研究方向涉及多模态大模型、CAD 生成、多智能体、Agentic RL 等。


在当下 Vibe Coding 火热的背景下,软件开发正迅速从 “人写代码” 转向 “人指挥智能体写代码”。以 Claude Code、OpenClaw 为代表的系统,让智能体能够自主完成编码、调试乃至完整任务流程。然而,面对系统级开发或赛级算等复杂问题,单一模型的能力边界依然明显,多智能体协作逐渐成为主流范式


但现有方法大多仍停留在两种典型路径。一类如 Claude Code 的 Agent Teams,通过并行调用多个模型来提升能力上限,但也带来了极高的 Token 成本;另一类则以当下热门的 OpenClaw 为代表,通过技能组合与流程编排实现多智能体管理,在工程上更可控。


然而,这类方法的协作结构大多仍依赖预定义规则或静态流程,本质上解决的是 “如何组织调用”,而非 “如何根据任务动态调整协作方式”。这就像不论修自行车还是造火箭,都派同一个十人专家组开三天会,导致智能体冗余通讯与大量的 Token 消耗,最终给用户带来了极高的自主编程成本


上海交通大学 i-WiN 团队最新提出多智能体框架 AgentConductor,通过引入一个经过强化学习训练后的 3B 参数指挥智能体,从根本上解决了这个问题。它会先评估任务难度,并生成一张以 YAML 表示的交互拓扑图:简单任务使用轻量团队,复杂任务则使用更复杂的交互图,实现能力与成本的自适应匹配。 


图 1.(a) 拓扑结构的 YAML 表示与实际图结构的映射;(b) AgentConductor 拓扑生成与演化过程展示


更关键的是,AgentConductor 并非一次性规划:当生成代码运行失败时,指挥智能体会根据环境反馈的错误信息,结合记忆中的历史轨迹,对拓扑进行端到端重新生成,从而探索新的协作形式。实验结果表明,该方法在显著提升编码准确率(+14.6%)的同时,将 Token 成本降低了 68%。这说明真正高效的 AI 编程团队需要的是一种面向任务、可随执行反馈动态演化的协作结构,而非僵化的一刀切工作流。相关论文已经公开,代码将于近期开源。



  • 论文名称:AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

  • 论文链接:https://arxiv.org/abs/2602.17100


社区影响力


图 2 展示了 AgentConductor 工作在国际 AI 社区 (X, 前身 Twitter) 引发的广泛关注与认可。这项工作被知名 AI 分享博主 DAIR.AI 当日置顶宣传并评为 2026 年 2 月 23 日–3 月 1 日 Top AI Papers,并获得新锐 AI 科技博主 Rohan Paul 对 i-WiN 团队和论文的高度评价。


图 2.AgentConductor 得到 DAIR.AI 与 Rohan Paul 等账号推荐


核心特色与方法介绍


1. 基于 YAML 的新型多智能体交互图结构


相比传统多智能体拓扑,我们在表示形式与交互机制两个层面进行了设计与优化。


1.1 表示形式


传统方法多采用连接矩阵等数学形式来描述交互图,不仅可读性差,也难以直接编辑与校验,更无法由大模型端到端生成;近期工作尝试使用自然语言描述,但存在拓扑不严格、难以结构化约束等问题。我们使用 YAML 结构化表示交互图 (图 1 (a)),使其既具备可读性,又支持程序化校验与约束,并可由 LLM 直接生成。这种形式在设计上与当前流行的 Skill 配置文件具有一致性,便于理解与落地。


图 3. 本文交互拓扑结构与传统方法的对比


1.2 交互形式


如图 3 所示,传统链式、树状拓扑分别限制并行性、通信范围或连接灵活性,而全连接结构又过于复杂。我们融合多种拓扑优势,支持层内并行和跨层通讯且每个智能体可任意链接之前的历史节点,在提升表达能力的同时避免不必要的通信开销


2. 训练范式


2.1 SFT + GRPO 的两阶段训练范式


AgentConductor 采用两阶段训练策略,只训练一个指挥智能体:


监督微调(SFT):基于 GPT-4o 生成的 4,500 个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验;


基于 GRPO 的多轮端到端 Agentic 强化学习训练:将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹 (Trajectory) 来用于智能体的强化学习训练,基于 GRPO 算法优化模型的拓扑生成策略以最大化复合奖励,最终实现低 Token 成本的高质量代码生成。


图 4. AgentConductor 的总体框架


2.2 拓扑密度评估函数


为实现任务自适应,我们将问题分成三档难度,并根据从 Token 成本到拓扑密度的形式化映射,提出了拓扑密度评估函数并作为奖励函数一部分。综合刻画节点数、边密度与图深度对通信成本的影响。


我们在论文中证明,多智能体系统的平均通信成本可形式化为:



其中 d 为图深度, m 为提示词最大长度。相比之下,传统方法大多简单的通过矩阵的秩来衡量交互密度,丢失了多智能体交互的数学含义


实验结果展示


我们在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(HumanEval, MBPP)上评估 AgentConductor(基于 Qwen-2.5-3B-Instruct):


表 1. AgentConductor 的 pass@1 准确率对比


表 2. AgentConductor 在性能、成本及平均拓扑密度方面的比较结果


表 1 说明,AgentConductor 以仅 3B 参数量,在 APPS 上显著超越最强基线,同时减少了最多 68% 的 completion token 消耗,并实现最高拓扑稀疏度。更重要的是,系统展现出细粒度难度适配能力:在 easy 任务上使用极简拓扑(平均 3–4 节点),在 hard 任务上自动扩展至 8–10 节点,而多数基线无论难度均维持固定密度。(* 更多结果详见论文)


结语:多智能体系统正在学会组织自己


去,多智能体系统常被视为“堆人力”的暴力解法:越多AI越好。但AgentConductor 证明,智能协作的关键不在于数量,更在于结构的适应性。它标志着多智能体研究从“静态工作流”迈向“动态生态系统”。 AgentConductor 不仅是一项工程优化,更代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程。 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架我们实现了准确率与效率的协同提升



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


楼上说的项目管理靠谱!我补充一个,其实在应急响应领域也很有潜力。比如地震、火灾等突发事件,需要快速组织救援力量,但现场情况瞬息万变。如果能有一个“指挥智能体”根据现场反馈动态调整救援队伍的部署和协作,就能大大提高救援效率,减少伤亡。

YAML最大的优势就是可读性强,方便人来理解和修改。相比于密密麻麻的矩阵,YAML结构清晰,一目了然。而且YAML天然支持层级结构,可以很方便地描述复杂的拓扑关系。

我来个脑洞大开的!AgentConductor的思路,是不是可以用来优化交通调度?根据实时路况、车辆密度等信息,动态调整红绿灯时长、甚至改变车辆行驶路线。这样不仅能缓解交通拥堵,还能减少能源消耗,简直一举多得!

我觉得除了可读性和易解析性,YAML的另一个优势是方便进行结构化约束。比如,你可以通过YAML Schema来定义拓扑结构的规则,确保生成的拓扑结构是合法的。这对于保证系统的稳定性和可靠性很有帮助。

我理解AgentConductor使用了一个拓扑密度评估函数作为奖励函数的一部分,这个函数综合考虑了节点数、边密度和图深度对通信成本的影响。这样,它就能在强化学习过程中,自动找到一个节点数量和Token成本之间的最佳平衡点。