ReAct Agent:让AI像人一样思考和行动

本文介绍了 ReAct Agent,一种模仿人类思考与行动模式的AI智能体。它通过观察、思考、行动的循环,灵活应对复杂任务,能根据实际情况调整策略。

原文标题:AI Agent系列|什么是 ReAct Agent?

原文作者:阿里云开发者

冷月清谈:

本文深入解析了 ReAct Agent 的核心原理及其在实际应用中的价值。ReAct Agent 模仿人类解决问题的模式,通过观察环境、推理思考和执行行动的循环迭代,灵活应对复杂任务。与传统编程的固定流程不同,ReAct 能够根据实时环境信息动态调整策略,具有更强的适应性和处理不确定问题的能力。文章详细介绍了 ReAct 的关键要素,包括历史上下文、环境信息、语言模型、工具/动作以及观察结果,并通过实例和伪代码演示了其工作流程。在处理多变和复杂的任务时,ReAct 展现出明显的优势,但同时也存在行为不可预测的潜在问题。最后,文章也给出了一个 Func-Agent 框架Lynxe 的代码链接,供大家学习。

怜星夜思:

1、ReAct Agent 这种边想边做的方式,在哪些场景下会比传统的固定流程更有优势?除了文中提到的处理 API 错误、数据格式不对等情况,还有其他的例子吗?
2、文章中提到 ReAct Agent 有时候可能会“犯傻”,行为不那么可预测。你认为应该如何提高 ReAct Agent 的稳定性和可靠性?
3、文章中给出的伪代码只是一个 round 的执行流程,实际的 ReAct 流程可能更加复杂。你认为在实际应用中,ReAct Agent 还需要考虑哪些因素?

原文内容

阿里妹导读


本系列文章基于 Lynxe 作者沈询的实战经验,深入浅出解析 ReAct Agent 的核心原理与工程价值,帮助开发者快速掌握从“写流程”到“造智能体”的关键跃迁。

关于这个系列

作为 Lynxe(原JManus)的作者,我花费了很多课余时间来完善这个Func-Agent框架,也因此对于什么是ReAct Based Agent 有了更深一些的理解。

所以想把这些内容总结出来,是因为这个项目本身核心目的就是探索Agent的前沿最佳实践,目前已经有所小成,Lynxe能解决我自己面对的80%以上的问题了,所以我觉得值得把我实验下来有效的东西写出来,方便大家快速入门。

你可以访问 Lynxe(菱科斯)阅读详细源码来学习agent的一些最佳实践。这是一个非常完善的产品级的 Func-Agent框架。

https://github.com/spring-ai-alibaba/Lynxe

系列计划

  • 什么是 ReAct Agent? (本篇)

  • 深入了解智能体工作流核心:Agent vs 传统编程 vs Workflow 的本质区别

  • 深入解析Function Calling、MCP和Skills的本质差异与最佳实践

  • 上下文管理的一些实践

  • 并行执行的最佳实践与我走过的弯路


    核心思想:观察-思考-行动

    ReAct 这个名字听起来挺高大上,其实拆开看就明白了:Reasoning(推理)+ Acting(行动)。说白了,就是让 AI 一边想一边做,而不是想完了再做。

    ReAct Agent 的工作方式其实挺像人类解决问题的过程。它不是一次性把整个流程都规划好,而是在有一个整体目标的前提下,走一步看一步。具体来说,它会先观察当前的情况,然后思考下一步该做什么,接着执行这个动作,再观察结果,根据结果决定下一步。这个过程会一直循环,直到任务完成。

    打个比方,传统的方式就像你出门前把整个路线都查好,然后严格按照路线走。而 ReAct 更像是你出门后,走一段路,看看周围环境,再决定下一步往哪走。比如你要去一个没去过的咖啡店,传统方式是你提前查好所有路线,ReAct 则是你走到路口,看看路牌,再决定左转还是右转,边走边找。

    实际例子

    再举个更具体的例子。假设你要让 AI 帮你查"北京今天天气怎么样,适合穿什么衣服"。用 ReAct 的方式,AI 会这样工作:

    1.观察看到用户的问题,历史上下文为空

    2.思考"我需要知道北京今天的天气"(思考是可选输出,就跟人的思考是内化发生的一样)

    3.行动调用天气查询工具,查询 "北京今天天气"

    4.观察获取到天气数据:温度 25°C,晴天,湿度 60%,风速 3m/s

    5.思考"现在我知道天气了,需要查询穿衣建议知识库来获取具体的穿衣建议"(思考是可选输出)

    6.行动调用穿衣建议知识库查询工具,查询 "25度晴天适合穿什么衣服"

    7.观察获取到穿衣建议:25度晴天建议穿短袖 T 恤或薄长袖,可以带一件薄外套以防早晚温差,建议戴帽子和涂防晒霜

    8.思考"我已经获取了天气和穿衣建议,应该将这些信息写入文件保存"(思考是可选输出)

    9.行动调用 writeToFile 工具,将完整建议写入文件

    10.观察建议已写入到文件 weather_suggestion.md

    整个过程是观察-思考-行动-再观察的循环,而不是一开始就把所有步骤都定死。每一步都会根据当前的历史上下文和环境信息,动态决定下一步该做什么。

    为什么需要 ReAct?

    你可能会问,为什么要这么麻烦?直接写个固定流程不就行了吗?问题在于,很多现实任务其实没那么简单。你可能会遇到各种意外情况,比如 API 返回错误、数据格式不对、或者需要根据中间结果调整策略。ReAct 的优势就在于它能根据实际情况灵活应对,而不是遇到意外就卡住。

    当然,这种灵活性也带来了一些代价,比如行为可能不那么可预测,有时候 AI 可能会"犯傻"。但总的来说,在处理复杂、不确定的任务时,ReAct 这种边想边做的方式还是很有优势的。

    ReAct 是怎么实现的?

    关键要素

    ReAct 的实现其实离不开几个关键要素:

    1. 历史上下文(History)ReAct 会维护一个对话历史,记录之前所有的思考、行动和观察。这样 LLM 在做决策时,可以参考之前发生了什么,避免重复操作或者走错路。

    2. 观察当前环境信息(Current Environment Information)这是 Agent 在当前时刻接收到的外部信息,比如用户的输入、系统的状态、或者其他需要处理的数据。这些信息会作为 LLM 推理的输入,帮助决定下一步该做什么。

    3. 语言模型(LLM Thinking)这是 ReAct 的"大脑",负责推理和决策。每次需要思考下一步该做什么时,LLM 会根据当前的历史上下文、环境信息和观察结果,生成下一步的行动计划。(后续表格里这个think是隐藏的,最终表现形式就是toolcall

    4. 工具/动作(toolcall)这是 ReAct 的"手脚",用来执行具体的操作。比如搜索、查询 API、读写文件等等。每个工具都有明确的输入输出,Agent 可以调用这些工具来完成实际工作。

    5. 观察结果(toolcall结果)每次执行动作后,都会得到一个观察结果。这个结果会被反馈给 LLM,作为下一轮推理的依据。观察结果可能包括成功的数据、错误信息、或者需要进一步处理的内容。

    执行流程示例

    下面用一个完整的例子,看看 ReAct 是怎么一步步解决问题的。假设任务是:"帮我查一下北京今天天气怎么样,适合穿什么衣服。"

    轮次

    历史上下文

    当前环境信息

    当前轮次提示词

    行动(toolcall)

    观察结果(toolcall结果)

    Round 1

    已知

    当前历史上下文&{历史上下文}

    当前环境信息&{当前环境信息}

    用户目标"帮我查一下北京今天天气怎么样,适合穿什么衣服。"

    做出下一步的决策 .

    你必须最少使用一个工具来实现该决策

    天气查询工具调用:查询 "北京今天天气"

    天气查询工具返回:获取到天气数据:温度 25°C,晴天,湿度 60%,风速 3m/s

    Round 2

    已获取北京天气数据(25°C,晴天,湿度 60%,风速 3m/s)

    天气工具:无额外环境信息

    同上,提示词不会变化

    穿衣建议知识库查询工具调用:查询 "25度晴天适合穿什么衣服"

    穿衣建议知识库查询工具返回:25度晴天建议穿短袖 T 恤或薄长袖,可以带一件薄外套以防早晚温差,建议戴帽子和涂防晒霜

    Round 3

    天气数据(25°C,晴天,湿度 60%,风速 3m/s);已获取穿衣建议:25度晴天建议穿短袖 T 恤或薄长袖,可以带一件薄外套以防早晚温差,建议戴帽子和涂防晒霜

    天气工具:无额外环境信息、穿衣知识库工具:无额外环境信息

    同上,提示词不会变化

    writeToFile工具调用:内容为"北京今天天气:25°C,晴天,湿度 60%。建议穿短袖 T 恤或薄长袖,可以带一件薄外套以防早晚温差,建议戴帽子和涂防晒霜"

    writeToFile工具返回:建议已写入到文件 weather_suggestion.md

    从这里我们也可能看到,核心其实就是

    已知:

    当前历史上下文&{历史上下文}

    当前环境信息&{当前环境信息}

    用户目标"帮我查一下北京今天天气怎么样,适合穿什么衣服。"

    做出下一步的决策:

    你必须最少使用一个工具来实现该决策。

    最终输出建议已经写入到文件 weather_suggestion.md,你可以通过打开这个文件来看到具体建议。

    从这个例子可以看出,ReAct 不是一开始就知道所有步骤,而是根据每轮的观察结果,动态决定下一步该做什么。如果 Round 1 搜索失败了,它可能会尝试其他搜索关键词,或者换一个策略。这种灵活性正是 ReAct 的核心优势。

    伪代码

    下面是一个 round 的执行流程伪代码,展示了核心的执行逻辑:

    函数 执行一个轮次(用户目标, 历史上下文):
        // 1. 获取当前环境信息
        当前环境信息 = 获取当前环境信息()
        
        // 2. 构建提示词(替换占位符)
        提示词模板 = "已知:\n当前历史上下文:${历史上下文}\n当前环境信息:${当前环境信息}\n用户目标:\"${用户目标}\"\n\n做出下一步的决策\n\n你必须最少使用一个工具来实现该决策"
        完整提示词 = 替换占位符(提示词模板, {
            历史上下文: 历史上下文,
            当前环境信息: 当前环境信息,
            用户目标: 用户目标
        })
        
        // 3. 调用 LLM 进行推理(思考过程隐藏,直接输出 toolcall)
        工具调用结果 = 调用语言模型(完整提示词, 历史上下文)
        
        // 4. 解析工具调用
        工具名称 = 解析工具名称(工具调用结果)
        工具参数 = 解析工具参数(工具调用结果)
        
        // 5. 执行工具调用
        观察结果 = 执行工具(工具名称, 工具参数)
        
        // 6. 更新历史上下文
        新历史上下文 = 追加到历史上下文(历史上下文, {
            行动: 工具调用结果,
            观察结果: 观察结果
        })
        
        // 7. 返回结果
        返回 {
            观察结果: 观察结果,
            新历史上下文: 新历史上下文
        }
    结束函数
    

    // 主循环
    函数 执行ReAct流程(用户目标):
        历史上下文 = 空
        当前轮次 = 1
        最大轮次 = 10
        
        当 当前轮次 <= 最大轮次 且 未完成任务:
            结果 = 执行一个轮次(用户目标, 历史上下文)
            历史上下文 = 结果.新历史上下文
            
            如果 判断任务已完成(结果.观察结果):
                中断循环
            
            当前轮次 = 当前轮次 + 1
        结束循环
        
        返回 历史上下文
    结束函数

    欢迎关注系列下一篇文章:《AI Agent系列|深入了解智能体工作流核心:Agent vs 传统编程 vs Workflow 的本质区别

    我觉得还得考虑“用户体验”。Agent 解决问题的效率如何?是否容易理解和使用?如果用户觉得 Agent 太慢或者太笨,即使它再强大,也不会有人用。

    除了技术因素,还需要考虑伦理和社会影响。例如,如果 ReAct Agent 被用于决策贷款申请,需要确保其不会因为种族、性别等因素产生歧视。此外,还需要考虑 Agent 的透明度和可解释性,让用户了解其决策过程。

    抖个机灵,我觉得ReAct Agent在“甩锅”方面可能更有优势(手动狗头)。遇到问题,它可以根据环境和历史记录,把责任推给不同的“工具”或者“外部因素”,而固定流程就只能自己背锅了 (逃

    我认为优势在于探索性任务。例如,新药研发,AI Agent 需要不断实验、分析数据、调整实验方案。每一步的结果都会影响下一步的决策,这种trial-and-error 的过程与 ReAct 的模式非常契合。

    再比如,自动化代码调试。Agent 可以根据错误信息,尝试不同的修复方案,并根据结果判断是否有效。这种迭代式的调试过程可以大大提高效率。

    提高 ReAct Agent 稳定性和可靠性的关键在于提升其推理能力和知识储备。

    1. 强化学习与人类反馈结合:通过强化学习,让 Agent 在特定环境中不断试错,学习最优策略。同时,引入人类反馈,纠正 Agent 的错误行为,提升其判断力。
    2. 构建高质量的知识图谱:为 Agent 提供丰富的背景知识,使其能够更好地理解环境信息,做出更合理的决策。
    3. 增加约束条件:在 Agent 的行动空间中增加一些约束,避免其做出过于离谱或者不符合常识的行为。

    我认为可以从以下几个方面入手:

    1. 更完善的错误处理机制:当工具调用失败或者返回异常结果时,Agent 应该能够检测到错误,并采取相应的补救措施,而不是直接崩溃。
    2. 更好的上下文管理:Agent 需要更准确地理解历史上下文,避免重复操作或者遗漏关键信息。可以使用更先进的 memory network 来实现。
    3. 更强的自我监控能力:Agent 应该能够监控自己的行为,判断是否偏离了目标。如果发现偏差,及时进行自我纠正。

    我觉得在需要持续学习和适应的场景下,ReAct Agent 优势明显。例如,在金融交易领域,市场变化迅速,ReAct Agent 可以根据实时数据和历史交易记录,动态调整投资策略,抓住市场机会。相较之下,固定流程可能难以适应这种高波动环境。

    另外,在客户服务领域,用户的问题千奇百怪,ReAct Agent 可以通过理解用户意图,调用不同的工具和知识库,提供个性化的解决方案。这种灵活性是传统客服机器人难以企及的。

    实际应用中,ReAct Agent 需要考虑的因素很多,我认为比较重要的有:

    1. 工具的选择和管理:根据不同的任务需求,选择合适的工具,并对工具进行统一管理和维护。工具的质量直接影响 Agent 的性能。
    2. 成本控制:频繁调用 LLM 和各种工具会产生较高的成本。需要采取一些措施来降低成本,例如,缓存结果、优化 Prompt、减少不必要的工具调用。
    3. 安全性:Agent 可能会访问敏感数据或者执行危险操作。需要采取必要的安全措施,防止数据泄露或者恶意攻击。

    可以考虑给 Agent 加个“安全模式”,当它检测到自己要“犯傻”的时候,自动切换到预定义的安全策略,避免造成严重后果。就像自动驾驶汽车一样,当系统出现故障时,会自动减速停车。