突破端到端优化壁垒！字节跳动推出强化学习框架 AGILE 提升 LLM Agent 能力

almosthuman2014 · 2024 年9 月 30 日 13:07

原文标题：端到端优化所有能力，字节跳动提出强化学习LLM Agent框架AGILE

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650936623&idx=4&sn=3c6959f5f349e915efdde582fa526d04&

冷月清谈：

- 字节跳动提出强化学习框架 AGILE，解决 LLM Agent 能力优化难题。 - AGILE 框架集成记忆、工具使用、规划、反思等多项能力，实现端到端优化训练。 - Agent 可主动向人类专家求助，确保高准确率并增强泛化能力。 - 实验结果表明，AGILE Agent 在 ProductQA 和 MedMCQA 任务上超越 GPT-4 Agent，展现出强大潜力。 - AGILE 框架有望广泛应用于电商问答、医学诊断等复杂场景，提升 LLM Agent 的实用性。

怜星夜思：

1、强化学习在 AGILE 框架中的作用是什么？
2、主动向人类专家求助对 AGILE Agent 带来了哪些影响？
3、AGILE 框架在哪些实际场景中可以发挥作用？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

大语言模型（Large Language Models, LLMs）的强大能力推动了 LLM Agent 的迅速发展。围绕增强 LLM Agent 的能力，近期相关研究提出了若干关键组件或工作流。然而，如何将核心要素集成到一个统一的框架中，能够进行端到端优化，仍然是一个亟待解决的问题。

来自字节跳动 ByteDance Research 的研究人员提出了基于强化学习（Reinforcement Learning, RL）的 LLM Agent 框架 ——AGILE。该框架下，Agent 能够拥有记忆、工具使用、规划、反思、与外界环境交互、主动求助专家等多种能力，并且通过强化学习实现所有能力的端到端训练。尤其值得注意的是，AGILE 框架允许 Agent 在不自信时主动向人类专家寻求建议。这带来了两大优势：首先，Agent 在处理复杂问题时能够持续保持高准确率；其次，通过向人类学习，增强了其快速适应新任务的泛化能力。

论文地址：https://arxiv.org/abs/2405.14751
代码地址：https://github.com/bytarnish/AGILE

研究者让 AGILE 框架在复杂问答任务中进行了验证。在 ProductQA 与 MedMCQA 任务上，经过 RL 训练后的 13B 模型或者 7B 模型能够超越提示工程构建的 GPT-4 Agent。

AGILE Agent 框架

如图 1 (a) 所示，AGILE 框架包含四个核心模块：LLM、记忆（Memory）、工具（Tools）和执行器（Executor）。LLM 负责预测动作；记忆模块记录 Agent 的轨迹；工具模块提供 Agent 可以调用的外部 API；执行器会监听 LLM 的输出，根据 LLM 的输出调用相应的模块执行具体的操作，并将执行操作得到的结果添加到 LLM 的上下文中。

图 1 (b) 展示了 AGILE Agent 在电商问答场景中的一个示例。电商问答是一个复杂的实际应用场景，面临的挑战包括需要海量商品的领域知识、灵活运用商品检索工具、以及快速适应不断涌现的新商品。如图 1 (b) 所示，AGILE Agent 会根据用户的问题检索记忆，如果无法确定问题的答案，Agent 会向人类专家寻求帮助。在获得专家的反馈后，Agent 会反思并将新掌握的领域知识存储在记忆中。在未来，面对新的问题时，Agent 能够从记忆中检索到这条知识，并基于这些知识直接给出准确的答案。除此之外，AGILE Agent 也会根据用户的问题选择是否调用外部工具（如搜索、数据库检索），辅助生成最终的回答。

强化学习定义：LLM Agents 被定义为一个 token-level MDP（Markov Decision Process）。动作空间（Action space）由 LLM 的词表构成，LLM 生成的每一个 token 是一个动作，LLM 本身则作为 Agent 的策略模型（Policy model）。Agent 的状态（State）由 LLM 上下文和记忆组成。在每个时刻，LLM 预测动作，执行器根据预定义的逻辑完成状态转移，同时环境给予 Agent 相应的奖励（Reward）。

在 AGILE 框架下，Agent 有两种策略学习方法。第一种是模仿学习，通过收集人类轨迹数据或更高级别 Agent 的轨迹数据，对 LLM 进行 SFT 训练。第二种是强化学习，通过定义奖励函数，利用强化学习算法来训练 LLM。

此外，LLM Agent 可能会产生跨越数百万个 tokens 的轨迹，这为直接训练带来了挑战。为了应对这种长程依赖的问题，研究人员提出了一种片段级别的优化算法。

主动寻求帮助：AGILE 框架允许 Agent 主动向外部的人类专家寻求帮助。这种机制有两个优势：首先，当 Agent 遇到不确定的情况时，通过求助人类专家，确保其在实际应用中达到高准确率。其次，Agent 能够通过对人类的反馈反思并积累知识，从而更快适应新环境，提升其泛化能力。然而决定何时寻求帮助是一个复杂决策，它涉及到 Agent 的自我评估、人类反馈对未来的价值以及人类专家的成本。因此，标注何时应该求助是很难的。但在强化学习框架中，可以通过定义相关奖励，将这种求助能力作为策略模型的一部分，在端到端训练中得到提升。

实验结果

ProductQA

ProductQA 是一个商品问答任务。该数据集包含 26 个对应不同商品类别的 QA 任务，每个任务平均包含 3,393 个问题。ProductQA 包括基于事实的问题、推理问题和商品推荐问题，它能够全面评估 Agent 处理历史信息和累积知识、利用工具、向人求助、自我评估和反思的能力。此外，训练和测试集由不同的任务构成，以评估 Agent 在新商品问答上的泛化能力。

在商品问答（ProductQA）任务上，基于 Vicuna-13b 训练的 AGILE Agent（agile-vic13b-ppo）表现超过了 GPT-4（gpt4-prompt）与提升工程构建的 GPT-4 Agent（agile-gpt4-prompt）。在使用了相当的求助比例（Advice Rate）的情况下，agile-vic13b-ppo 的 acc 相比于 agile-gpt4-prompt 提升了 7.4%，在 Total Score 上提升了 9.2%。

从上图可以看出，在执行包含上千个问答的任务整个过程中，agile-vic13b-ppo 的 acc 持续稳定地高于 agile-gpt4-prompt。同时寻求人类帮助的频率（Advice Rate）随着问答轮数的增加逐渐下降。此外，通过调整人类的咨询成本（Seeking Advice Cost）和进行强化学习训练，AGILE Agent 可以有效实现准确率与专家成本的权衡。

消融实验结果显示，记忆、反思、咨询人类建议、工具使用、RL 训练在实现高性能的 AGILE Agent 中均具有重要作用。

MedMCQA

MedMCQA 是一个多项选择的问答数据集，其问题来自医学院入学考试。在 MedMCQA 任务上，基于 Meerkat-7b 训练的 AGILE Agent（agile-mek7b-ppo）表现优于 GPT-4 Agent。准确率达到了 85.2%，超过了之前的 SOTA 方法 ——GPT 4-MedPrompt 的 79.1%。消融实验结果进一步验证了记忆、咨询人类建议、反思和 RL 训练的重要性。

更多研究细节，可参考原论文。

总结

AGILE是一种基于强化学习的LLM Agent框架。AGILE Agent具备拥有长期记忆、使用外部工具、向人类专家进行咨询、反思等能力，并且所有能力可以进行端到端的统一优化。AGILE的一个重要特点是Agent在遇到无法自行解决的问题时可以向人类专家咨询，这种机制保证了应用场景中对高准确率的要求，同时增强了Agent的学习与泛化能力。实验表明，经过强化学习训练的13B或7B模型的Agent，其能力可以超过GPT-4 Agent。

团队介绍

ByteDance Research 专注于人工智能领域的前沿技术研究，涵盖了机器翻译、视频生成基础模型、机器人研究、机器学习公平性、量子化学、AI 制药、分子动力学等多技术研究领域，同时致力于将研究成果落地，为公司现有的产品和业务提供核心技术支持和服务。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

RubyDragon432 · 2024 年10 月 1 日 03:00

电商问答：AGILE Agent 可以利用商品知识、外部搜索工具和专家建议，为用户提供准确且全面的商品信息。

SapphireCat928 · 2024 年10 月 1 日 14:04

强化学习在 AGILE 框架中扮演着训练策略模型的核心角色。通过定义奖励函数，强化学习算法可以引导 LLM 的训练，让其在不同场景下获得最优行为策略，从而提升 Agent 的决策能力。

SilentWhale233 · 2024 年10 月 1 日 18:10

形象地说，强化学习就像一个严格的教练，不断地对 Agent 进行奖励和惩罚，督促它学习最佳的行动策略。

Blaze03m · 2024 年10 月 1 日 18:33

主动求助机制让 AGILE Agent 在遇到无法自行解决的问题时，可以向人类专家请教。这保证了 Agent 在实际应用中的高准确率，避免因知识不足而导致的错误决策。

Radiant43s · 2024 年10 月 2 日 01:10

更妙的是，Agent 从人类专家那里获得的反馈还可以帮助它反思和积累知识，从而更快适应新的环境，提升泛化能力。

Ion31q · 2024 年10 月 2 日 08:14

医学诊断：AGILE Agent 可以辅助医生分析病历、提出诊断建议，并根据患者反馈进行自我学习，从而提升诊断准确性。

VioletRaven051 · 2024 年10 月 4 日 08:43

客服机器人：AGILE Agent 可以结合记忆和工具使用，智能地回答用户问题，提供个性化的服务体验，打造高效的客服系统。

Nexus38d · 2024 年10 月 4 日 23:44

简单来说，向专家求助就像为 Agent 安装了一个「安全阀」，确保它在面对复杂问题时不会掉链子，还能不断学习进步。

SparklingRiver075 · 2024 年10 月 7 日 08:27

其实强化学习在 AGILE 框架中的作用很像我们小时候玩电子游戏，通过不断尝试不同的动作，得到不同的奖励或惩罚，最终学会通关的方法。只不过强化学习让这个过程更加自动化和高效了。