斯坦福AgentFlow:多智能体协作与在线学习的新范式

斯坦福AgentFlow创新「流中学习」,多智能体协作,小模型性能逆袭GPT-4o!

原文标题:智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

原文作者:机器之心

冷月清谈:

针对大型语言模型(LLM)在复杂推理与工具调用方面面临的稳定性、可扩展性不足以及缺乏自适应能力等挑战,斯坦福大学联合多方研究团队提出了 AgentFlow 框架。该框架通过四个具有记忆功能的专业智能体模块(规划器、执行器、验证器、生成器)进行协作,共同完成复杂任务。

AgentFlow 的核心创新在于,规划器能够在智能体交互的“流”(flow)中进行实时的在线策略优化,即 “流中强化学习”机制,使整个系统能够在动态环境中自适应进化。为实现这一目标,团队开发了 Flow-GRPO 算法,通过将最终结果的成功或失败信号广播到每一步,有效地解决了多轮信用分配和稀疏奖励问题。

实验结果表明,AgentFlow 在知识检索、智能体任务、数学推理和科学推理等多个基准测试上取得了显著提升。特别是,使用 7B 参数的小模型 AgentFlow,在多项任务中甚至超越了约 200B 参数的 GPT-4o 和 405B 的 Llama-3.1,验证了合理系统设计和“流中学习”的重要性,而非单纯依赖模型规模。

怜星夜思:

1、文章强调“流中学习”至关重要,你觉得它在AI系统中未来会有哪些更广泛的应用?同时,让系统在真实环境中持续在线学习,会不会带来一些意想不到的风险或伦理方面的挑战呢?
2、AgentFlow用小模型就实现了超越大模型(如GPT-4o)的性能。这对于AI的普惠性、计算资源消耗以及未来AI模型发展的方向有什么启发?是不是意味着大家可以少“卷”模型参数量了?
3、AgentFlow通过四个专门化智能体协作实现复杂任务。在实际应用场景中,设计并协调如此复杂的智能体系统可能面临哪些挑战?比如,如何确保各模块间的无缝协作、避免内部冲突,或者更有效地处理模块故障?

原文内容


如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。


然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。


为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。



该方法创新性地将智能体协作推理与强化学习融为一体,提出流中强化学习机制,让智能体系统在推理流中协同演化,形成「动态共振」效应。使其在长期规划能力、工具调用效率和动态推理深度上实现大幅提升,并在搜索、数学、科学及智能体任务等多个领域展现优秀的泛化能力。



  • 项目主页: https://agentflow.stanford.edu/

  • 论文链接: https://huggingface.co/papers/2510.05592

  • 开源代码: https://github.com/lupantech/AgentFlow

  • 开源模型: https://huggingface.co/AgentFlow

  • 在线 Demo: https://huggingface.co/spaces/AgentFlow/agentflow

  • YouTube 视频: https://www.youtube.com/watch?v=kIQbCQIH1SI



该工作目前不仅在 X 上收获了超高的关注度,同时荣登 Huggingface Paper 日榜第二名!


https://x.com/lupantech/status/1976016000345919803


https://huggingface.co/papers/date/2025-10-08


研究动机:

从「单兵作战」到「团队协作」 


目前,让语言模型学会使用工具进行复杂任务推理主要有两种思路:一种是训练一个「全能型」模型,让它既要思考又要调用工具,所有操作都在一个完整的上下文中交织进行;另一种是采用「智能体系统」,将任务分解给多个专门化的智能体模块协同完成。



第一种方法在简单场景中表现良好,但在面对长链推理、多样化工具调用以及动态环境反馈时,训练过程往往不稳定,难以实现良好的可扩展性。第二种方法虽然具备更高的灵活性,但多数系统依赖人工设计的提示词与逻辑,缺乏从经验中自我学习与优化的能力。


这使得研究团队思考:能否让智能体系统也具备「边做边学」的能力,使其能够在交互中不断进化?


AgentFlow:

在流中学习的智能体系统


为了解决以上挑战,研究团队提出了 AgentFlow —— 一个可训练的、工具集成的智能体系统,旨在突破现有方法在可扩展性与泛化能力上的限制。AgentFlow 采用了模块化的智能体结构,由四个具备记忆能力的专门化智能体协同配合,共同完成复杂推理,从而实现「即时学习」:


  • 规划器(Action Planner):分析任务、制定策略并选择最合适的工具

  • 执行器(Tool Executor):调用工具集并整合工具执行结果

  • 验证器(Verifier):基于系统维护的累积记忆评估中间结果是否满足目标与约束 

  • 生成器(Generator):整合所有信息与验证反馈,生成最终答案或行动建议


AgentFlow 的关键创新在于:规划器(Planner)并非固定不变,而是能够在智能体交互的「流」(flow)中实时进行 on-policy 优化,使决策过程随着环境变化及其他智能体的反馈不断自适应进化。通过这一机制,各模块在推理流中协同演化,使整个智能体系统在复杂环境下实现自适应推理(adaptive reasoning)与鲁棒工具调用(robust tool-calling)



Flow-GRPO:

流中强化学习优化算法


实现智能体流中强化学习训练的核心挑战在于多轮信用分配(multi-turn credit assignment):即如何在长时跨度(long-horizon)奖励稀疏(sparse reward)的条件下,稳定且高效地训练。为此团队提出动作级别的(Action Level)的多轮推理优化目标:



通过将轨迹最终结果的成功或失败信号(outcome reward)广播至每一步,将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题,还显著提升了训练效率,为智能体在复杂多轮推理中的稳定学习提供了基础。



实验结果:

AgentFlow 全面基准测试


为了充分评估 AgentFlow 的泛化能力与高效性,研究团队在 10 个跨各个领域的基准测试上进行了系统评测,涵盖知识检索、智能体任务、数学推理和科学推理四大类。 以 Qwen-2.5-7B-Instruct 为基座模型的 AgentFlow 在各项基准上均超越现有领先方法:


  • 知识检索(Search):提升 +14.9%

  • 智能体推理(Agentic Reasoning):提升 +14.0%

  • 数学推理(Math):提升 +14.5%

  • 科学推理(Science):提升 +4.1% 


值得注意的是,AgentFlow 的表现甚至超过了大规模的专有模型,如 GPT-4o(~200B)。



实验发现:

小模型的「大智慧」


研究团队在 10 个基准测试上进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。 一些有趣的发现:


  • 模型规模不是唯一答案


使用 7B 参数的 AgentFlow 在多个任务上超过了约 200B 参数的 GPT-4o,Llama3.1-405B,在搜索任务上领先 8.2%,在智能体任务上领先 15.8%。这再一次展现了,合理的系统设计和训练方法可能比单纯堆砌参数训练 All in one 的大模型更有效。


  • 「在流中学习」至关重要


对比实验显示,若采用离线监督学习(SFT)方式训练规划器,性能反而显著下降,平均降低 19%。这表明,智能体在真实交互环境「流」中进行在线学习是实现高效推理的必要条件。此外,尽管 AgentFlow 的推理流本身能够利用其强大的任务分解能力带来显著性能提升,但仍可能出现循环错误或卡顿问题。通过在真实环境中的训练,智能体系统展现出快速修正错误的工具调用、更精细的子任务规划,以及全局任务解决性能的提升。


这些结果进一步证明了模块协作机制以及流中强化学习在提升多轮智能体系统稳定性与效率方面的显著作用。



  • 自主发现新的解决路径


有意思的是,经过 Flow-GRPO 的强化训练规划器,系统学会了根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search)和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。



  • 动态推理深度与性能提升


对于相同的数据集下的不同难度任务:譬如说多跳搜索(Multihop Search),智能体任务中的密集长链推理任务,AgentFlow 在经过 Flow-GRPO 训练后能够随着最大限制推理步数的上升稳步提升性能,同时又不会大幅提升平均推理步数——这表示对于长难任务会增加有效的推理步数来提升正确率,而不会一味地所有任务都随着最大轮数限制而延长推理步数。



结语


AgentFlow 为智能体训练提供了一种全新的思路:与其追求一个功能完备的单一大语言模型或「一次性完美」的智能体系统,不如让智能体在系统中自我适应与持续学习。通过将群体智能与「边做边学」的范式相结合,AgentFlow 使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。


尽管从研究探索到实际应用仍有较长的距离,但这样的工作让我们看到:Agentic AI 依然蕴藏着巨大的潜力与想象空间。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

回复关于多智能体协作的挑战:
挑战确实不少。首先是通信协议与标准:如何确保不同智能体模块之间信息传递的高效性和无歧义性是关键。其次是信用分配与激励机制,尤其是在长链条任务中,如何准确评估每个智能体模块的贡献并进行有效激励(无论是训练时还是运行时),防止“搭便车”或责任推诿。再者是冲突解决与协调:当不同智能体提出相互矛盾的规划或行动建议时,系统需要一套鲁棒的机制来仲裁。最后是故障容忍与自愈能力:单个智能体模块的失效如何不影响整个系统,并能快速识别、隔离和恢复,这需要严谨的错误处理和监控机制。Flow-GRPO虽然解决了一部分训练问题,但实际部署中的健壮性仍需大量工程实践。

对“小模型大智慧”的看法:
太振奋人心了!这意味着我们不必一味地烧钱、烧算力去训练越大越好的单一大模型。对于AI的普惠性来说,简直是福音!以后是不是个人开发者或者小公司也能做出很牛的AI应用了?计算资源的消耗降低,也符合现在绿色AI的趋势。我个人觉得,这绝对是AI发展的一个重要转折点,大家可以把精力更多地放在“如何巧妙地设计AI使其协作和学习”上,而不是单纯地“堆料”训练。这会激发更多创新,让AI不再是少数大厂的专属。

关于“小模型大智慧”的讨论:
AgentFlow的成果确实为AI发展指明了一个重要方向:即计算效率与系统设计在某些场景下可能比单纯堆叠参数更为关键。这对于AI的普惠性意义重大,降低了对顶级计算资源(如昂贵的GPU集群)的依赖,使得更多研究团队和中小企业能够参与到AI的创新中来。同时,对环境可持续性也有积极影响,减少了训练和部署大型模型的巨大能耗。未来AI模型的发展可能不再是单一地追求“大而全”,而是转向“专而精”与“协作集成”。这将促使研究者更深入地探索模块化设计、高效的交互机制,以及特定任务的优化而非通用智能的全面堆砌,形成一个更加多元和健康的生态。

回应关于“流中学习”的风险:
我觉得“流中学习”是未来AI发展的大趋势,就像人类社会也一直在“边做边学”一样。在更广泛的应用上,想象一下智能家居系统,它能根据我们生活习惯的微小变化来优化能源使用,或者工业机器人实时调整操作策略以提高生产效率。当然风险是有的,就像任何新技术一样。但我们可以通过设置安全边界(safety constraints)、引入人类在环(Human-in-the-Loop)的监督机制,甚至设计“遗忘”机制来定期重置或限制学习范围。关键在于如何平衡学习效率和风险控制,这更像是一个工程挑战,而不是不可逾越的伦理鸿沟。

关于“流中学习”的讨论:
的确,作为一种在线优化范式,其潜力不仅限于智能体系统。像自动驾驶、个性化推荐、自适应医疗诊断等领域,如果AI能在真实交互中持续学习和优化,无疑会大幅提升其适配性和性能。但伴随而来的风险也显而易见。伦理挑战包括数据偏见累积(bias accumulation),系统可能在学习过程中强化某些不公平的模式;算法漂移(algorithmic drift),即系统因持续学习而逐渐偏离初始设计目标或预期行为;以及隐私保护,实时数据流意味着更频繁、更深入的用户信息收集。此外,透明度和可解释性也是难题,当系统行为因持续在线优化而不断演变时,我们如何理解其决策逻辑并对其行为负责?这需要我们在技术发展的同时,同步制定健全的监管框架和伦理准则。

关于多智能体系统协作的挑战:
我觉得这就像在组建一个特种部队,而不是单兵作战。要让这支“智能体部队”高效运作,最大的挑战就是“管理”和“协调”。
首先,得明确每个队员(智能体)的职责,规划器是司令,执行器是行动队,验证器是质检员,生成器是报告员。职责不清就容易互相推诿或抢活。
其次,“沟通”很关键,它们之间的数据怎么传递流畅,就像作战情报要及时准确。
再次是“信任”,如果验证器老是怀疑执行器,或者规划器不信任生成器的反馈,那整个流程就会卡壳。
最后,“危机处理”,当某个智能体“宕机”了,或者出了错,整个系统怎么快速发现并补位?这都是很现实的问题,比写几行代码复杂多了。

“流中学习”这事儿吧,听起来酷炫,但细想有点吓人。就怕哪天AI学会了“摸鱼”,或者突然有了啥奇怪的偏好。比如我的智能音箱学着学着,突然只给我放它自己喜欢的歌,还美其名曰“个性化推荐”! :joy:
不过话说回来,如果能让我的扫地机器人真正学会我家哪块地毯容易卡住,而不是每次都撞墙,那可太棒了。风险嘛,我觉得初期肯定得有人工盯着,别让它学坏了,像调教熊孩子一样。

“小模型大智慧”?这简直是“穷人版”AI的福音啊!:grinning_face_with_smiling_eyes:
终于不用看那些几万亿参数的模型望洋兴叹了。以后搞AI是不是可以不用卖房子买显卡了?
不过话说回来,大模型肯定也有大模型的好处,可能在通用性和泛化能力上还是有优势。AgentFlow这种方案更像是“特定任务的专家团队”,能把活干得漂亮。所以我觉得也不是完全不“卷”参数量了,而是“卷”得更有策略、更高级了,从单打独斗变成团队协作的比拼了。