华为新加坡提出InstructRAG:利用检索增强生成提升LLM任务规划能力

华为提出InstructRAG框架,利用检索增强生成解决LLM任务规划的可扩展性和可迁移性难题,性能提升高达19.2%,抗噪声能力强,并能快速适应新任务。

原文标题:SIGIR 2025 | 解决扩展和迁移难题,华为新加坡提出InstructRAG,提升高达19%

原文作者:机器之心

冷月清谈:

华为新加坡团队提出了InstructRAG框架,旨在解决大语言模型在任务规划中面临的可扩展性和可迁移性难题。该框架通过结合指令图、强化学习智能体(RL-Agent)和元学习智能体(ML-Agent),实现了更高效的任务规划。InstructRAG利用指令图组织历史指令路径,RL-Agent通过强化学习扩展指令图覆盖范围,ML-Agent则通过元学习提升任务泛化能力。实验结果表明,InstructRAG在多项复杂任务中表现优异,性能提升高达19.2%,并且展现出强大的抗噪声能力和少样本学习能力。

InstructRAG框架的核心在于其三个组成部分之间的协同工作。指令图作为知识库,存储和组织过去的指令路径;RL-Agent负责在指令图中探索和选择合适的指令路径;ML-Agent则负责从候选路径中选择最相关的路径,并为LLM生成提示。这种多智能体协同的方式,使得InstructRAG能够更有效地解决复杂任务,并快速适应新任务。

研究团队通过在四个广泛使用的数据集上进行实验,验证了InstructRAG的有效性。实验结果表明,InstructRAG在未见过任务、跨数据集泛化、已见过任务和抗噪声能力等方面均表现出色。此外,消融实验和少样本学习实验也进一步验证了InstructRAG框架中各个组件的重要性。

总而言之,InstructRAG为大语言模型在任务规划中的应用提供了一种新的思路,通过检索增强生成的方式,提高了模型的可扩展性和可迁移性,为未来AI基础软件的发展提供了有力的支持。

怜星夜思:

1、InstructRAG框架中,指令图是如何构建和维护的?如果指令图中存在错误的指令或者过时的信息,会对整个框架的性能产生什么影响?
2、InstructRAG框架中,RL-Agent和ML-Agent是如何协同工作的?如果两个Agent之间出现冲突或者不一致的情况,应该如何解决?
3、InstructRAG在抗噪声能力方面表现出色,那么在实际应用中,如何进一步提高其鲁棒性,以应对更加复杂和多变的环境?

原文内容


大语言模型(LLM)已成为规划复杂任务的强大工具。虽然现有方法通常依赖于 “思考 - 行动 - 观察”(TAO)过程,但这些方法受限于 LLM 固有的知识局限性。检索增强生成 (RAG) 则利用外部数据库,将 LLM 生成与检索到的信息相结合。而将 RAG 应用于实际任务规划仍然面临着两个方面的挑战:


1. 可扩展性:通过遍历现有指令并将其组合成新的序列来扩展指令图的范围的能力,帮助 LLM 完成没有预定义路径的任务。

2. 可迁移性:开发能够快速适应新任务的技术,使模型能够从有限的示例中有效地学习。


针对大模型任务规划中的可扩展性与可迁移性挑战,华为2012中央软件院新加坡团队王政博士主导提出了InstructRAG方案,通过多智能体协同的元强化学习架构,实现了:1)基于强化学习的指令图拓扑扩展;2)元学习驱动的少样本任务迁移。在跨领域的复杂任务测试中(包括多跳推理、具身决策、在线购物和科学问答),相较现有最优方法取得19.2%的性能提升,并在50%噪声干扰下仅表现出11.1%的性能衰减,展现出较强的复杂场景适用性。



  • 论文标题:InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning

  • 论文链接:https://arxiv.org/abs/2504.13032


InstructRAG 框架主要包含三个主要组件:


1. Instruction Graph:用于组织过去指令路径的图;

2. RL-Agent:通过强化学习扩展图覆盖范围的智能体;

3. ML-Agent:使用元学习提升任务泛化能力的智能体。



核心思路


指令图(Instruction Graph)


有向图 G (V, E) 组织过去的指令路径(正确动作的序列)。节点(V)表示图中指令集 I,对相似的指令进行聚类。边 (E)表示任务集 T,记录路径中涉及的任务和相关问题。该图是通过迭代插入来自过去成功路径的指令来构建的,使用近似最近邻 (AKNN) 搜索和阈值确定是否创建新节点或添加到现有节点。指令的组合能够创造出解决以前未曾见过的问题的新途径。


强化学习智能体(RL-Agent)


在指令图中选择节点的过程可以被看作马尔可夫决策过程(MDP),作者使用强化学习 (Reinforcement Learning) 训练的智能体,遍历指令图并识别给定任务的候选指令路径,可有效探索指令图的可扩展性。


1. 状态(state): 输入问题与各种图元素之间的余弦相似度。

2. 行动(action):将当前节点包含在路径中或排除它。

3. 奖励(reward):端到端性能指标(例如 F1 Score)。

4. 策略学习(policy learning):该智能体使用策略梯度方法进行优化,并使用历史数据进行热启动以加速训练。这种方法可以通过找到最优指令路径来实现有效的检索增强。


元学习智能体(ML-Agent)


ML-Agent 是使用元学习(Meta Learning)训练的智能体,用来增强可迁移性。它会从 RL-Agent 提供的候选路径中选择最相关的路径并为 LLM 生成提示。其模型架构包括:1. 共享自注意力层的问题编码器和路径编码器,2. 从 Transformer 激活中获取的特征表示。


ML-Agent 的训练包含着两个阶段:


1. 预训练:优化问题路径对齐(QPA)和问题路径匹配(QPM)两个任务。

2. 微调:端到端优化规划的性能。


这种方法允许模型通过仅使用几个示例进行更新来推广到新任务,从而增强检索增强生成的多智能体协作。


InstructRAG 整体框架


1. 训练阶段:使用来自可见训练任务的 support set 和 query set 协作迭代训练 RL-Agent 和 ML-Agent。

2. 少量样本学习阶段:使用来自支持集的少量样本示例,智能体的参数可以快速适应未见过的任务。

3. 测试阶段:使用未知任务上的 query set 来评估模型适应的有效性。


这个整体框架通过 RL-Agent 增强可扩展性,通过 ML-Agent 增强可迁移性。


实验结果


本文的实验在四个广泛使用的数据集上进行:


  • HotpotQA:多跳推理任务;

  • ALFWorld:模拟环境中的具体任务;

  • Webshop:网上购物网页导航任务;

  • ScienceWorld:基础科学推理任务。


使用了 GLM-4,GPT-4o mini 和 DeepSeek-V2 三个 LLM,baseline 包括 ReAct,WKM,Reflexion,GenGround 和 RAP。


评估指标分别为 HotPotQA 的 F1 Score,ALFWorld 的 Success Rate 以及 WebShop 和 ScienceWorld 的 Reward Score。


1. 对未见过任务的表现:



InstructRAG 在三个 LLM 上指标明显优于所有 baseline,相较于最佳 baseline RAP,分别在 HotpotQA,ALFWorld 和 Webshop 上提升了 19.2%,9.3% 和 6.1%。


2. 跨数据集泛化:



通过将训练好的模型从 HotpotQA 应用于 ScienceWorld 数据集中的全新任务,InstructRAG 也表现出了强大的泛化能力。


3. 对已见过任务的表现:



实验结果表明 InstructRAG 在可见的训练任务上的表现优于 RAP。


4. 抗噪声能力:



即使噪声率为 50%,InstructRAG 的性能仅下降了 11.1%,而 RAP 的性能下降了 27.2%。这表明 InstructRAG 具有强大的抗噪声能力。


5. 在 HotpotQA 上验证可扩展性和可迁移性的消融实验:



缺少了任何一个组件,InstructRAG 在 HotpotQA 上的 F1 score 都会有所下降,这表明每个组件的存在都对其性能有重大贡献。


6. 少样本学习的影响:



如图中 (a)-(b) 所示,任务比例从 0.2 变化到 1.0,随着任务数量增加,有效性保持稳定,这表明在不同任务之间具有较强的迁移性。由于包含了额外的训练数据,运行时间随着任务的增加而增加。此外,对于每个任务,样本比例从 0.2 变化到 1.0。如图中 (c) 和 (d) 所示,有效性改善,并在约 0.8 的样本比例处收敛,而随着更多样本用于训练,运行时间也在增加。


总结


综上,该工作提出了一种系统化的方法,利用 RAG 进行任务规划,解决了可扩展性和可迁移性的问题。InstructRAG 集成了指令图,RL-Agent 和 ML-Agent,优化端到端任务规划性能。在四个数据集上进行的大量实验表明,InstructRAG 的性能卓越,与现有的方法相比,提升高达 19.2%。该框架展现出卓越的抗噪鲁棒性,并能够使用少量样本快速适应新任务。未来的工作将集中于进一步增强 InstructRAG 的泛化能力。


团队介绍


该工作由华为新加坡中央软件院团队独立完成,团队以深耕 AI 基础软件作为目标,聚焦大模型基础软件技术创新研究,包括 RAG、AI Agent、多模态等前沿基础技术研究和能力构建,致力于构建基于强大算力和大模型的应用技术,以推动 AI 基础软件的发展。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

感觉RL-Agent像个探险家,负责探索各种可能的指令路径,而ML-Agent更像个决策者,负责从RL-Agent提供的路径中选择最优的。如果两个Agent之间出现冲突,比如RL-Agent找到的路径ML-Agent认为不好,那可能需要一个仲裁机制来平衡两者的意见。不知道论文里有没有提到这方面的内容?

提高鲁棒性,我认为可以从以下几个方面入手:1. 增加训练数据的多样性,模拟各种可能的噪声情况;2. 引入对抗训练的思想,让模型学会在对抗性噪声下也能保持性能;3. 结合外部知识库,对错误的指令进行纠正或者过滤。这些方法可能需要结合实际应用场景进行调整。

根据论文描述,RL-Agent负责探索指令图的可扩展性,找到候选指令路径,而ML-Agent负责增强可迁移性,从RL-Agent提供的候选路径中选择最相关的路径并生成提示。如果两个Agent之间出现冲突,可能需要调整它们的训练目标或者引入一些约束条件,以保证它们能够协同工作。具体如何解决冲突,可能需要根据实际情况进行调整。

这个问题很有意思!指令图的构建方式感觉有点像知识图谱,但是如何保证指令的正确性和时效性确实是个挑战。如果指令图里有错的指令,那RL-Agent学到的路径肯定也会出问题,相当于从一开始就错了。另外,感觉指令图会随着时间推移越来越大,维护成本也会增加,不知道有没有什么好的方法去优化。

InstructRAG本身已经具备一定的抗噪声能力,但要进一步提升鲁棒性,可以考虑以下策略:一是引入更先进的噪声检测和过滤机制,例如利用异常检测算法识别指令图中的可疑节点;二是优化RL-Agent的奖励函数,鼓励其选择更稳健的路径;三是探索自适应的RAG策略,根据噪声水平动态调整检索和生成过程。此外,持续的实战测试和反馈也很重要,可以帮助我们发现潜在的脆弱点。

RL-Agent和ML-Agent的协同可以理解为“探索-利用”的平衡。RL-Agent负责更广阔的探索,寻找潜在的有效路径;ML-Agent则专注于利用已有知识,选择最合适的路径。如果两者出现冲突,可能是因为RL-Agent探索的路径质量不高,或者ML-Agent的判断标准过于保守。解决冲突的思路可以是动态调整RL-Agent的探索策略,或者优化ML-Agent的评估模型,使其更加灵活和准确。

指令图的构建,根据论文描述,是通过迭代插入来自过去成功路径的指令来构建的,所以如果一开始就有错误的指令,可能会导致后续的路径都受到影响。而且,随着时间的推移,指令图可能会变得非常庞大,维护的成本也会增加。一个可能的解决方案是定期清理和更新指令图,但是这个过程需要仔细设计,以避免删除有用的信息。

抗噪声能力强确实是个亮点!不过现实场景的噪声可能比实验环境更复杂。我觉得可以考虑引入一些数据增强技术,比如对输入的问题进行扰动,或者在指令图中加入一些假的指令,让模型学会识别和忽略这些噪声。另外,还可以尝试使用更鲁棒的损失函数,来提高模型的泛化能力。

从理论上讲,指令图的构建初期如果引入错误指令,确实会造成误差累积。但InstructRAG框架或许有内置的纠错机制,比如RL-Agent可以通过负反馈来逐步淘汰错误的指令路径。另外,指令图的维护可以借鉴知识图谱的成熟方案,例如引入置信度评估、定期更新等机制。不过,这部分在论文中没有详细说明,期待未来能有更深入的研究。