大模型时代,Agent workflow 还有没有用?

探讨强推理模型下 Agent workflow 的未来,强调 LLM 的推理能力是关键,新一代 Agent 需具备自主规划、执行和反思的能力。

原文标题:强推理模型下,Agent workflow 仍有必要吗?

原文作者:机器之心

冷月清谈:

本文探讨了在强推理模型背景下,Agent workflow 的必要性。文章指出,传统 Agent workflow 依赖预先编排的提示词和工具路径,扩展性受限,难以处理复杂的、需要长期规划的任务。而新一代的动态 Agent,能够自主规划、执行和反思,具备更强的适应性和灵活性。文章还对比了 Anthropic 定义的两类智能体,强调了 LLM 本身的推理能力对于构建自主 Agent 的重要性,并展望了下一代 Agent 基座模型的发展趋势。

怜星夜思:

1、文章里提到了Workflow和动态Agent,你觉得在实际应用中,哪种架构更适合解决特定问题?
2、文章中说LLM的推理能力是Agent的核心,那么除了推理能力之外,你认为Agent还需要具备哪些关键能力才能真正实现“自主独立”?
3、文章提到了Claude Sonnet 3.7和DeepSeek 新版 V3,你觉得什么样的模型才有可能成为下一代Agent的基座模型?

原文内容

机器之心PRO · 会员通讯 Week 13

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1. 强推理模型下,Agent workflow 仍有必要吗?

为什么说大模型本身才是构建 AI 智能体的关键?Anthropic 定义的两类智能体之间核心的区别是什么?更被看好的动态 Agents 的工作流是什么样的?为什么说 AI 智能体的基础模型的推理和编码能力很重要?哪些大模型更有可能成为下一代 Agent 的基座模型?...

2. 从「拼能力」到「拼盈利」,AI 视频生成赛道的格局已经变了?

视频生成赛道开始比拼盈利能力了?赛道变化的转折点在哪?国内外厂商如何收费?各家模型靠什么让用户付费?未来的视频生成模型要补足哪些能力?...


...本期完整版通讯含 2 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 8 项,国外方面 7 项。
本期通讯总计 18643 字,可免费试读至 9% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  强推理模型下,Agent workflow 仍有必要吗?

日期:3 月 28 日

Agent workflow 已经过时了吗?下一代 Agent 关键要靠模型本身的能力?

近期,Alexander Doria 发布的一篇博客文章引发关注。Alexander Doria 在文章中提到,「未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)」。同时,Alexander 以 Manus、OpenAI 的 DeepResearch 等智能体应用/功能为例做了区分。

1、Alexander 认为 Manus 是基于「预先编排好的提示词与工具路径」构成的工作流智能体,但在处理需要长期规划、多步骤推理的复杂任务中扩展能力不佳;OpenAI 的 DeepResearch 则是一种全新的研究型语言模型(Research Language Model),能够更加自主的执行任务。

2、Alexander 认为市面上大多数所谓的智能体公司,目前做的根本不是智能体,而是「工作流」(workflows),使用预先定义好的代码路径,串联 LLM 与其他工具。而未来真正的突破,必须是直接从模型层面入手,重新设计 AI 系统。[1-1]

Workflows、Agents,新旧两代 Agent 有何不同?

1、在 Anthropic 的一篇博客文章中,基于架构区别将智能体划分为两类:一类称为 Workflow(工作流),即通过预定义代码路径协调 LLM 和工具的系统;一类是动态 Agent,即 LLM 动态指导自身流程和工具使用、掌控完成任务方式的系统。[1-2]

2、这两类智能体之间的核心区别在于,Workflow 通过使用预先定义好的代码路径,串联 LLM 与其他工具来完成任务,但无法有效扩展,不适用于需要长期规划、多步骤推理的任务;动态 Agent 则是能够独立规划和操作,且具备「自我调整」的能力,自主掌控任务执行的全过程,包括动态规划搜索策略、主动调整工具使用等,而不再依靠外部提示或工作流驱动。

3、传统的 Workflow 是目前常见的智能体产品使用的架构,常见的工作流模式包括:

① 提示链:将任务分解为一系列步骤,每个 LLM 调用处理前一个的输出,适用于可分解为固定子任务的情况,以延迟换取更高准确性。

② 路由:对输入进行分类并引导至专门后续任务,适用于存在可单独处理的不同类别的情况,避免一种输入的优化损害其他输入的性能。

③ 并行化:包括分段和投票两种方式,适用于可并行化子任务以提高速度,或需要多种视角、尝试以获得更有信心结果的情况。

④ 协调者-工作者:中心 LLM 动态分解任务并分配给工作者 LLM,适用于无法预测子任务的复杂任务,具有更高的灵活性。

⑤ 评估器-优化器:一个 LLM 调用生成响应,另一个提供评估和反馈,形成循环,适用于有明确评估标准且迭代细化有价值的场景。

4、相比于传统的 Workflow,动态 Agent 则更适用于需要处理复杂、动态任务的场景,适用于难以或无法预测所需步骤数量的开放式问题,且无法硬编码固定路径。

① 动态 Agent 的工作流程大致为:「规划-使用工具-反思」的循环,当使用者输入一个查询后,Agent 会先进行「规划」(Make a plan),接着「使用工具执行任务」(Execute actions with tools),再对结果进行「反思」(Reflect on results)。如结果不理想,Agent 会重新规划、再次执行,具备「自我调整」的能力。

② 以目前各家都在推出的 DeepSearch 功能为例,DeepSearch 在搜索过程中加入「推理」,通过多次搜索和推理的过程,最终得出更准确的答案。DeepSearch 的工作原理是不断地进行「搜索 → 推理 → 搜索 → 推理…」的循环,直到找到最合适的答案,或者达到 Token 限制为止。

5、一个动态 Agent 的基本构成包括 LLM(大型语言模型)、记忆、工具、提示词。其中,LLM 部分负责推理与决策,包括规划和反思两个能力。能够实现「自主独立」的 Agent,需要具备规划、执行和反思的能力,因此 LLM 本身的推理能力是核心关键。

Claude Sonnet 3.7、DeepSeek 新版 V3...谁更是更合适做下一代 Agents 的基座模型?

我认为下一代Agent的基座模型,一定是开源的。只有开源才能让更多的人参与进来,共同完善和改进模型,避免一家独大。

我觉得除了推理能力,安全性和可控性也很重要。毕竟Agent要处理各种敏感信息,如果模型本身存在漏洞或者偏见,可能会带来严重的后果。

我觉得长文本处理能力也不能忽视。Agent需要处理大量的文本信息,才能更好地理解用户的需求和任务目标。如果模型只能处理短文本,那就很难胜任复杂的工作。

我觉得除了推理能力,Agent还需要强大的信息整合能力。现在信息爆炸,Agent需要能从海量数据中提取有用信息,并将其转化为知识,才能做出更好的决策。

同感!我觉得情商也很重要。Agent如果要和人类协作,就需要理解人类的情感,并做出相应的反应。一个冷冰冰的Agent,很难赢得人类的信任。

其实两个架构可以结合起来用。对于那些可以分解成固定步骤的任务,用Workflow提高效率;对于那些需要创造性和灵活性的环节,用动态Agent来发挥。混合架构可能是更实用的选择。

自主性也很重要。Agent需要能够在没有人工干预的情况下,独立完成任务,而不是像一个提线木偶一样,完全依赖人类的指令。当然,自主性也需要有边界,避免Agent做出危害人类的事情。

从工程角度来看,Workflow更容易实现和维护,毕竟是预先定义好的流程。但动态Agent的潜力更大,想象空间也更广阔,可以不断学习和进化,适应未知的挑战。所以,我更看好动态Agent的未来。

我觉得这取决于问题的复杂程度。Workflow更适合处理那些步骤固定、容易预测的任务,就像工厂里的流水线一样。动态Agent更擅长解决开放性的、需要灵活应变的难题,比如科研探索或者复杂问题的诊断。