AI Agent设计理念深度剖析:从流程到智能体的融合之路

AI Agent设计面临流程与智能体两大核心范式。文章深入探讨融合之道,通过动态规划、工具自适应和记忆机制,构建更强大智能体。

原文标题:一篇关于AI Agent设计理念的深度思考

原文作者:数据派THU

冷月清谈:

本文深度探讨了AI Agent的两种主流设计范式:侧重程序化、可控性强的流程智能化(如Coze),以及强调自主探索、高认知的智能体智能化(如DeerFlow)。流程智能化沿袭传统软件工程思想,通过预设流程图驱动任务,优势在于复用、测试与治理;而智能体智能化则赋予单个Agent更强的感知、推理和决策能力,擅长处理不确定性和创造性任务。

文章指出,为应对复杂任务,需要将两者融合,核心在于构建混合智能架构,从单一路径演进为动态有向无环图(DAG)的任务执行模式。这一融合的关键在于优化三大模块:Plan & Reflection,通过动态DAG规划和实时反思,提升Agent应对复杂问题的能力,并强调Query Rewrite的前置重要性;Tool Use,从简单的Prompt调用走向RL自适应学习,使Agent能更灵活高效地利用工具;以及至关重要的Memory机制,特别是上下文工程,确保Agent能够有效写入、选取、压缩和隔离信息,实现从“即时反应”到“持续进化”。文章最后展望了Agent在智能浏览器、ChatBot、自动化工作流等领域的应用新形态,预示着一个智能体驱动的未来。

怜星夜思:

1、文章提到了两种Agent设计范式,流程智能化和智能体智能化。现实中,我们该怎么判断一个具体的业务场景更适合哪种范式,或者说,在什么情况下应该优先考虑融合它们?有没有一些判断标准或者案例可以分享下?
2、智能体智能化强调Agent的自主探索和决策能力,这听起来很强大,但也让人有点担心。如果Agent在面对真实世界的一些复杂、高风险决策时,比如医疗、金融领域,它的自主调整能力会不会带来不可控的风险?我们怎么在追求自主性的同时,确保安全和伦理可控?
3、文章最后展望了Agent驱动的应用新形态。AI Agent会越来越聪明,并且能够完成很多以前需要人工介入的流程。那么,对于传统的软件开发者来说,未来他们的主要工作会变成什么样?是更侧重于Agent的设计、调优,还是会有新的角色出现?

原文内容

图片
本文约5300字,建议阅读5分钟
“RAG是面向LLM的搜广推,Memory是面向Agent的数据飞轮”


如何实现Agent,业界出现了两种截然不同的技术流派:流程智能化(coze like)智能体智能化(DeerFlow like)
前者以软件工程的流程编排为核心,通过明确的流程图来驱动大模型完成任务
后者则致力于让单个智能体具备更强的认知与决策能力,以自主探索的方式完成复杂任务
两种路线分别代表了当前大模型应用中执行结构感知能力的两极探索
也反映了对智能的不同理解:精密可控的流水线 OR 认知驱动的专家?
后文将对比分析这两种设计范式,并探讨Agent在Plan & Reflection、Tool Use、Memory三个方面的将两种范式融合的核心设计

流程智能化:可控的艺术

流程智能化的方法可以看作传统软件工程思想在智能时代的延续。
在遥远的BERT时代之前,程序员构建应用时往往先画原型图、流程图,然后按图中每个节点逐步实现功能。
有了大模型(如BERT、GPT系列)之后,我们依然可以将模型视作流程图中的节点(或者功能函数),通过编排这些节点让应用变得更加智能。
Agent 被嵌入在预先设计好的确定性流程中运作,各步骤、分支在开发时就已经规划完毕,模型仅负责完成相应节点所需的子任务。
这种范式的特点是强调整体流程的确定性和可控性。每个组件执行特定功能,数据按固定顺序从一个节点流向下一个节点,如同流水线清晰可预测
即使部分节点内部使用了自生成模型,有不确定性(例如调用LLM生成文本),整个系统仍由事先定义的流程来主导和约束,信息单向流动且步骤固定。
优势:流程智能化使智能应用更易于复用、测试和治理因为每一步都是显式定义的,开发者可以对单个节点进行单元测试,对整条链路做集成测试,从而在部署前就发现并修复问题。
实现特点:流程型 Agent 通常具有结构化的任务表示可监控的状态演化整个任务被拆解成若干节点,每个节点职责单一,由上一节点输出驱动下一节点输入。这样的设计带来了若干好处:
  • 明确的执行依赖关系:开发者事先定义好节点之间的先后次序和依赖关系,Agent 严格按照既定依赖执行,不会跳步骤或乱序执行
  • 可预测的状态转换:由于节点转换是确定性的,给定相同输入状态,每次都会产生相同输出,便于调试和验证
  • 支持中断和恢复:流程引擎可以记录每个节点的执行状态,支持出错时暂停流程、修复后从特定节点继续执行,增强健壮性
  • 完整的执行历史追踪系统能够日志化每一步操作,形成完整的执行轨迹,方便审计和回溯
典型的产品形态如Coze,提供了可视化拖拽节点的界面来编排Agent流程。开发者只需通过拖拉模块并配置参数,就能将大模型能力集成到复杂业务流程中
这种“所见即所得”的流水线搭建方式极大降低了构建智能应用的门槛,让传统软件工程师也能直观地参与 Agent 应用开发
目标很明确:如何以最佳方式编排流程,打造一条精密可控的智能流水线,让每个大模型节点相互配合,完成预定任务
智能体智能化:自主的探索
与流程导向的方法相对,智能体智能化路线试图让单个 Agent 尽可能聪明和自主,以类似人类专家的方式解决问题
这种方法弱化了人工预定义的流程,转而追求让Agent有更强的感知、推理和决策能力,使其在接到用户任务时自行规划、执行并交付结果。可以把这种智能体想象成实习生/研究生,一句话即可调用
智能体智能化依赖于 LLM 强大的上下文理解和生成能力,通过精巧的Prompt Engineering 提供复杂指令,让 Agent 能够进行深度思考、多轮对话、调用工具以及长期记忆等操作,从而提升感知和行动的智能水平
优势:智能体智能化适合解决充满不确定性和创造力的任务(画不出流程图)
比如我做了一个Deep Research,可以接收一个开放性的研究问题,自动去检索资料、多轮阅读和总结,然后产出结构完整的研究报告
在这个过程中,Agent 基于逐步累积的知识做决策,会根据当前掌握的信息动态调整接下来的行动计划,并且在人机协作下不断迭代改进结果。这种灵活性和自适应性是预定义流程难以实现的,也是智能体智能化路线的迷人之处
这种方法本质上是以人为尺度去实现智能:让AI像人一样具备随任务推进而累积知识、调整策略的能力
实现特点:认知驱动的Agent通常以状态驱动的方式运作,即 Agent 能持续感知环境和自身状态的变化,并将其纳入决策考虑,基于上下文来智能决策。具体来说:
  • 全局视野:Agent在执行过程中可以看到完整的对话或操作历史,将前文结果纳入后续推理,使决策建立在整体上下文之上
  • 逐步优化:随着Agent获取更多信息或反馈,其决策会不断优化。例如它可能先提出一个初步方案,然后根据工具执行结果或用户反馈进行反思(reflection),再改进方案,逐步逼近正确答案
  • 动态调整策略:不像固定流程一成不变,Agent可以根据当前情况实时改变策略,比如在某一步发现信息不足就自主增加检索步骤,或在路线行不通时尝试另一方案。这种自适应规划提高了处理复杂任务的成功率
  • 人机协作反馈:智能体可以将人类反馈融入决策回路,比如当用户提示某方向不对时,Agent 调整思路重新尝试。这相当于让Agent从反馈中学习,持续改进自身行为
典型的产品就是DeerFlow目标:模型即产品。如何提高模型的感知能力、决策能力,使之成为这个领域的专家。
这两种设计的背后,其实是对“智能”本质的不同理解:精密可控的流水线 OR 认知驱动的专家。
融合之道:构建混合智能架构
无论采用哪种设计理念,Agent 的终极目标都是高质量完成任务。
在任务类型上,Agent 更善于处理P类问题(可控、确定性强),而非 NP 类问题(解空间巨大、不可控)。
因此,业界大多数方案都会选择线性递进的执行逻辑:先规划出一个稳定的路径,然后按部就班逐步执行,不在运行时动态修改步骤,从而保证任务完成率接近 100%(字节的 deer-flow)。
但这种直线型跑道(没有分支和循环)也有明显局限:它虽然稳定,却难以充分发挥Agent的潜力,往往无法深入处理那些需要探索、分支和多角度整合的复杂问题。
因此,一个引人关注的设计方向是:赋予 Agent 在规划阶段生成含分支与合流的任务执行图,而非单一路径。让 Agent 的计划不止一条直线,而是一个有分支决策点和并行执行的DAG(有向无环图)
这样的设计允许Agent针对复杂问题进行发散-收敛式的探索:先在不同方向上尝试(分支),再将有用的信息汇总整合(合流),从而全面覆盖问题空间。
比如RAG的多路召回,每路检索作为一条支线,最后在汇总节点合并。
挑战在于:动态规划多分支流程会显著增加系统复杂度和不确定性,需要Agent具备更强的决策能力来权衡选择。
Baidu搜索团队提出了“AI Search Paradigm”:设计由四个LLM智能体(Master、Planner、Executor、Writer)构成的模块化架构,由 Planner 根据查询动态生成任务有向图(包含子任务节点和依赖边)https://arxiv.org/pdf/2506.17188
这个 Planner 会综合用户查询和可用工具集,在一次推理中产出完整的任务图,包括需要调用哪些工具、执行哪些子任务以及先后顺序
这样的 DAG 计划将多步推理外化为结构化的任务图,不仅减少了单轮Prompt中需要容纳的信息量,还支持层级并行执行全流程可追溯
有了这种图结构作为蓝图,系统就能够在执行过程中监控每个分支的进展,并在必要时进行reflection
综上所述,为了既保证任务成功率又不牺牲智能体的探索能力,我们需要在架构上融合确定性流程和自主Agent探索
我将围绕规划与反思(Plan & Reflection)工具使用(Tool Use)记忆机制(Memory)三个关键模块展开,介绍如何在设计中实现这一融合,让 Agent 即能按照稳定路线执行,又能在复杂情境下自主调整,真正发挥出大模型的潜力
合的蓝图:从“单一路径”到“动态DAG”
“不是多此一举,是保证流程可控与可解释”
这里将Plan & Reflection作为融合的核心引擎。
Plan根据任务需求产出两份工件
  • Exec DAG(可执行图,给调度器/执行器跑的json):节点的拓扑顺序图(并行/合流策略)+降级/兜底策略模型/工具集降级+容错机制OpenManus Agent 的自我感知和处理方案)
  • Task Plan(可读蓝图,给人/反思模块看的markdown/yaml):子任务划分+理由+完成条件(作为 Reflection 的锚点)
  • 前置工作:Query Rewrite(强烈建议)
    • 原因:用户输入千奇百怪,一定要做语义消歧、指代消解、意图澄清来规范输入。
    • 方法:利用相关上下文(会话记忆、用户画像)+ 小模型(AC自动机实体匹配),产出结构化query(用于后续稀疏检索)与多样候选(用户交互确认)。
    • 经验:所有大模型相关问题都可以转化为搜索问题,而所有的搜索问题都可以通过Query Rewrite来解决。
Reflection:遇到阻塞低置信度(LLM As A Judge)跳回整体规划节点,修正 DAG/Task Plan,而不是在某个局部节点死磕
融合的双手:让Agent学会使用工具
“会说话的只是ChatBot,会调工具做事的才叫Agent”
这里将Tool Use作为融合的执行能力。
从Prompt调用到RL自适应学习
“Agent的瓶颈,不在于工具多少,而在能否自适应地使用它们。”
25年年初MCP开始流行,我们开始尝试能不能通过MCP接入各种第三方工具,扩展自家LLM能力范围。
方案调研,发现传统的调prompt+推理模型的方式极难扩展、覆盖所有场景。
因为Agent在执行DAG过程中,总会出现各种“意外”,比如请求异常、当前任务执行结果超出预期,防不胜防,开发成本巨大。
所以尝试用RL的方法,构思一种Agent自适应学习工具使用策略:通过与环境反复交互、尝试调用工具并根据结果反馈进行优化,从而更好地使用工具以及如何调整调用参数。
最简单的思路是用RLVR把一堆真实的 MCP Server 直接接进 RL 环境中联合训练,发现在部署、注册层面遇到了很多问题,直接放弃。
后来借鉴Kimi K2的经验:模型在预训练中已经知道工具怎么用了,我们只需要把这个能力激发出来。
尝试设计精妙的workflow,让模型把一段长长的任务,改写成探索、思考、工具调用、接受反馈、错误充实、输出等各种形式的交互轨迹。
这样让模型自己合成已有核心高频Tool的调用类数据,训练后效果不错。
总结难点:
1.数据。训练数据难易分布、质量,SFT冷启动数据获取
2.训练。奖励函数的设置,需要注重端到端的结果奖励并且保证训练稳定收敛,保证过程和结果的一致性,适当鼓励模型的创造性
3.工程落地。数据蒸馏小模型+多size模型组合+拆分端到端任务
融合的大脑:上下文工程与记忆
Context Enginnering
“多数Agent的失败,不是模型能力失败,是调度失败”
“Context is All You Need”
相关阅读:
1.《Agent 架构综述:从 Prompt 到 Context》
2.《Context Engineering,一篇就够了。》
3. https://zhuanlan.zhihu.com/p/1947787094299746426
agentic system效果不及预期时,根源往往可以归结为两个方面:
  1. 模型能力局限: 基模自身的能力不足,需要对模型本身进行优化
  2. 上下文缺失/退化: 模型没有收到生成这次回复所需的合适上下文
通常情况下(现在基础模型的智能已经超过一个阈值),输出不及预期的原因更多指向后者。
即我们没有实现有效的上下文机制,导致系统解决问题时缺失了一些关键信息或者过量而退化,陷入本不应该有的幻觉。
可以把Agentic System视为一种新型操作系统,LLM就像CPU,而上下文窗口(Context Window) 就像 RAM(同样是容量有限,管理 CPU 所需要的内存)。
上下文工程则是这个操作系统中的内存管理器。它的职责不是简单地把数据塞满 RAM(上下文窗口),而是通过复杂的调度算法,决定在每一个“时钟周期”,哪些数据应该被加载、哪些应该被换出,从而保证整个系统的流畅运行和最终结果的准确性。
主要有写入(Write)、选取(Select)、压缩(Compress)和隔离(Isolate)四类操作。
写入、选取:缓存+记忆系统 
相关阅读:https://www.anthropic.com/engineering/multi-agent-research-system
压缩:处理单条信息流的内容提升其内在的信息密度。
从逻辑角度看,任何不可逆的压缩都带有风险。所以建议把文件系统当作"终极上下文",做到永不丢失
相关阅读:https://zhuanlan.zhihu.com/p/1947787094299746426
隔离:处理多条信息流,管理系统的复杂性,同时也能起到广义的压缩作用
相较于前三个在信息流内部进行优化的原则,隔离是一种在系统架构层面进行的上下文管理策略
在多智能体系统中,子智能体扮演了“智能过滤器”的角色。它们在各自的领域内隔离且并行工作,为主智能体压缩大量原始信息,提高了主智能体看到的上下文中的信息密度
Anthropic 提到过一个很有意思的观点:The essence of search is compression: distilling insights from a vast corpus.” 翻译过来便是:”搜索即压缩,从庞大的语料库中提取洞见“
所以可以把这里的子智能体都理解为Search Agent来实现
相关阅读:解构多智能体系统,一篇就够了。
记忆机制(Memory)
“RAG是面向LLM的搜广推,Memory是面向Agent的数据飞轮”
Memory是让Agent从“即时反应”走向“持续进化”的关键机制从功能的角度,它可分为如下几大类:
  • 检索记忆:用RAG来检索外部知识,有助于减少知识冲突
  • 通用记忆:pre/post-train存储通用知识,提供基础认知
  • 规则记忆:用RL、prompt的方式,规范输出,比如以cot、json格式输出
  • 短期记忆:通常用redis/抽取式摘要+向量化来存,保持当前会话内的立即响应能力 
  • 长期记忆:在与用户长期交互过程中,对会话内容做摘要来存储用户画像(偏好、习惯、身份)
未来展望:Agent驱动的应用新形态
Agent驱动的应用形态
AI 浏览器:比如新版Edge、360浏览器
发展方向:从“搜索+问答”过渡到沉浸式信息导航,结合网页理解、可视化总结、交互式探索
相关解读:
1. 《浏览器,又“性感”了?》
2. https://zhuanlan.zhihu.com/p/702096989
3. https://zhuanlan.zhihu.com/p/1935636464965759478
ChatBot:ChatGPT、Claude
发展方向:不仅是文本对话,而是更炫酷的交互体验——输出形式从Markdown文本拓展到前端代码、交互式界面、多模态内容
Workflow Automation:Data Agent(会议记录、文档总结、数据分析)
发展方向:赋能企业工作流程降本增效、解放人力
Personal AssistantSiri、小米小爱
发展方向:从泛化助手到极度个性化的私人助理,通过长期记忆累积用户画像,具备偏好感知、上下文无缝衔接和主动提醒能力
Domain-specific AgentAI IDE(cursor、Trae)、Research Agent(Deep Research)、Law/Medical Agent
发展方向:向有价值的领域深挖,做懂行的“智能合伙人”
心血之作,期待赐教,欢迎在评论区留言讨论。


编辑:黄继彦




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


这个问题很实际!我觉得可以从任务的结构化程度、不确定性、以及对解释性和可控性的要求这几个维度来评估。结构化高、确定性强、强调可控和审计的场景(如财务报表处理、标准化的客户服务),流程智能化更优。而那些高度依赖上下文理解、需要动态调整策略、解决开放式问题的场景(如市场趋势分析、创意内容生成),智能体智能化的优势更明显。融合则适用于那些既有明确主线流程,又包含非结构化探索和决策子任务的复杂业务,比如多路召回后的智能决策,需要以流程为骨架,用智能体填充血肉。

我理解的这两种范式,一个像高速公路,有固定的车道和出口,效率高但不能随意变道;另一个像越野车,路径不固定,但能应对复杂地形。判断用哪个,我觉得就像你出门要干啥:如果你只是通勤上班,走高速肯定快;如果你要去野外探险寻宝,那必须开越野车。什么时候融合?就是你上班路上想顺便去趟山里的秘密基地,那你就得先走高速,再换越野车,对吧?比如一个智能客服,常规问题走流程肯定快,但遇到用户情绪爆发或者跑偏了,就得让智能体介入,灵活安抚或引导,这不就是完美融合嘛!

我觉得就是“道高一尺魔高一丈”呗。AI虽然能完成很多基础流程,但它还是得有人给它“喂饭”,教它“规矩”。所以开发者的重心会从“具体实现”转变为“抽象管理”。比如,怎么设计更高效的上下文管理系统,怎么训练模型更好地利用工具,怎么在大规模Agent协作中进行调度和协调。写代码依然会存在,但更多是写工具、写框架、写控制Agent的Agent。可能未来大家都在写“Prompt工程”,而不是具体的业务逻辑代码了,是不是有点酷?

哈哈哈,我觉得未来开发者可能就变成了“AI按摩师”了!Agent心情不好、逻辑混乱、跑偏了,咱们就得给它做个“Prompt SPA”,重新调教调教。再不然,就是“AI动物园管理员”,管着一群稀奇古怪、各有特长的Agent,确保它们不打架,各司其职,偶尔还得给它们“加餐”新工具。说不定哪天我们就是给AI写“性格设定”的!总之,从“码农”变“驯AI师”的路上,肯定充满挑战和乐子!

哈哈,这问题让我想起了玩剧本杀,流程智能化就像主持人把每个环节都给你定死了,一步一步来,基本不会出错但也没啥惊喜。智能体智能化就是你扮演的侦探完全放飞自我,自己找线索,想怎么玩怎么玩,可能破案也可能把剧情彻底搅乱。融合?那大概就是有个智能主持人,虽然给你划定了大方向,但允许你在某些关键节点自由发挥,甚至可以回溯重来,这样玩起来才更刺激,对吧?

说实话,我觉得目前要完全放手让AI Agent在高风险领域自主决策,还是有点太早了。电影里那些AI失控的剧情不是空穴来风。医疗、金融这些都是人命关天、财产可能巨损的地方。我觉得短期内,AI更多是充当辅助角色,提供决策建议,最终拍板的还是得是人。自主性可以给,但必须是可随时叫停、有明确责任归属的自主。不然出了问题谁来背锅?谁来负责?这部分是需要更多探讨的。

在面对医疗、金融等高风险领域时,Agent的自主性并非无限放任,而需建立在“受限自治”的框架下。关键在于构建多层防护机制:一是明确的伦理准则与安全边界,通过Prompt Engineering、RLHF等技术将其内化到Agent行为中;二是引入“人类在环”(Human-in-the-Loop)机制,尤其在关键决策点,强制人机协作或人工审核;三是强化Agent决策的可解释性和可追溯性,确保其决策过程透明且能被审计;四是模拟环境中的严格测试与风险评估,不断迭代优化Agent行为。这是一个系统工程,需要技术、伦理和法律等多方协同。

对于“AI Agent会越来越聪明”这个问题,我认为传统的CRUD(增删改查)工作肯定会受冲击,但开发者并不会失业,而是职责会转向更高层次。他们将成为“Agent架构师”或“智能体教练”,专注于设计复杂的Agent系统、调优Prompt工程、构建高质量的RAG和Memory系统、以及开发能让Agent使用的各种“工具”(Tool Use)。此外,数据科学家和AI伦理专员的角色会越来越重要,确保Agent的行为符合预期并避免偏见。未来是与AI协作的时代,开发者需要提升自己的AI素养和系统级设计能力。