LaMMA-P:大模型驱动的多机器人长时任务规划框架,成功率与效率显著提升

ICRA 2025 最新研究 LaMMA-P 融合大模型与 PDDL 规划器,显著提升多机器人长时任务成功率(+105%)和效率(+36%),为异构机器人协同提供新方案。

原文标题:ICRA 2025|通用多机器人长时任务规划框架破解任务分配难题,成功率+105%、效率+36%

原文作者:机器之心

冷月清谈:

UC Riverside 与 Penn State University 联合团队在 ICRA 2025 上发布 LaMMA-P 框架,该框架创新性地融合了大型语言模型(LLM)与 PDDL 规划器,旨在解决异构多机器人系统中长时任务的自动分解与分配难题。LaMMA-P 通过 LLM 理解人类指令并转化为高层任务描述,再由 PDDL 规划器进行严谨的子任务搜索和规划,实现了学习式推理和启发式搜索的优势互补。该框架采用模块化设计,具有强大的泛化能力,能够灵活适应不同机器人技能和任务类型。在全新基准数据集 MAT-THOR 上的实验结果表明,LaMMA-P 相比现有最先进方法 SMART-LLM,任务成功率提高 105%,执行效率提升 36%,为多机器人协同完成复杂任务提供了新的解决方案。研究团队还开源了代码和数据集,为多机器人协同领域的技术发展做出了贡献。

怜星夜思:

1、LaMMA-P 框架中,大语言模型和 PDDL 规划器分别扮演了什么角色?它们的结合如何提升了整体性能?
2、LaMMA-P 在 MAT-THOR 数据集上的实验结果非常亮眼,成功率和效率都大幅提升。你认为这些提升主要得益于哪些方面的创新设计?
3、LaMMA-P 框架在家庭服务机器人领域展现出巨大潜力,你认为它在其他哪些领域也有应用前景?未来可能的发展方向是什么?

原文内容

2025 年 5 月,美国加州大学河滨分校 (UC Riverside) 与宾夕法尼亚州立大学 (Penn State University) 联合团队在机器人领域顶级会议 ICRA 2025 上发布最新研究成果 LaMMA-P(Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner)。


LaMMA-P 首次将大型语言模型与 PDDL 规划器深度融合,解决了异构多机器人系统中长时任务的自动分解与分配难题,大幅提升多机器人协同规划的智能水平。该技术在全新基准数据集上经过大量模拟实验验证,相比现有最先进方法 SMART-LLM,任务成功率提高 105%,执行效率提升 36%,在复杂长程任务规划上取得了突破性进展,为异构多机器人协同完成复杂任务提供了全新解决方案。


  • 论文标题: LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner

  • 论文链接: https://arxiv.org/abs/2409.20560 

  • 项目主页: https://lamma-p.github.io

  • 代码开源: https://github.com/tasl-lab/LaMMA-P


技术亮点:语言模型与经典规划算法融合,支撑通用异构多机器人长时协同任务


面对复杂长时任务和异构多机器人系统,LaMMA-P 首创性地将大语言模型的语义理解能力与 PDDL 规划器的严谨性结合,不仅解决了传统方法在任务分解和资源分配上的瓶颈,还显著提升了任务成功率与执行效率。通过全面开源的代码与 MAT-THOR 基准数据集,LaMMA-P 为多机器人协同规划开辟了新的技术路径:


  1. 大模型驱动的 PDDL 规划框架:提出将大型语言模型 (Large Language Model, LLM) 的强大任务理解和推理能力与经典规划领域定义语言 (Planning Domain Definition Language, PDDL) 规划器相结合的新框架。利用 LLM 将人类指令转化为高层任务描述,再由 PDDL 规划器进行严谨的子任务搜索和规划,实现对长时复杂任务的自动分解与分配。该方法融合了学习式推理与启发式搜索的优势,既能理解复杂自然语言指令,又能提供可靠高效的规划方案。

  2. 模块化设计与强泛化能力:LaMMA-P 采用模块化架构,将大型语言模型、PDDL 规划系统与仿真环境无缝集成。通过模块间清晰的接口,系统可根据不同机器人技能灵活分解任务并高效分配子任务。该框架支持任意数量的机器人参与,同一套算法无需修改即可扩展到更多机器人协作场景,体现出优异的泛化能力。在不同家庭任务、不同机器人组合下,LaMMA-P 都能产出有效的协同计划,表现出对任务种类和团队规模的强适应性。

  3. 新基准数据集与性能超越:构建了全新的多智能体长时任务模拟基准 MAT-THOR,基于 AI2-THOR 仿真环境设计家庭场景下的复杂协同任务(包含简单复合任务和高复杂任务两种级别)。该数据集为多机器人长程任务规划提供了标准评测平台。实验结果显示,LaMMA-P 在 MAT-THOR 基准上取得了当前最优成绩:相较于最新的大模型多机器人规划方案 SMART-LLM,LaMMA-P 的任务完成成功率提高了 105%,效率提升了 36%,在长时任务的成功执行率和执行速度两方面均大幅领先现有方法。


一.研究背景


随着多机器人系统在搜救、仓储、家庭服务等场景中日益普及,让多台异构机器人协同执行复杂任务成为机器人领域的重要课题。在现实应用中,长时任务通常需要被分解为一系列关联的子任务,并合理分配给具备不同能力的机器人个体协同完成。例如家庭助理机器人需要合作完成 “整理房间” 这样的复杂指令,其中包含搬运物品、清洁、整理等多个步骤。然而,长时任务的自动分解与多机器人分工极具挑战:如何让机器人队伍理解人类的高层意图,将其细化为可执行的子任务清单,并根据每台机器人的能力进行最佳分配,是当前智能体协作面临的难点。


传统的多机器人任务规划方法往往依赖预先定义的规则或启发式算法,在任务规模和复杂度较小时尚能奏效,但面对具有长时间跨度、复杂依赖关系的任务时往往力不从心。这类方法缺乏对自然语言指令语义的深入理解,难以及时调整规划来应对动态环境和任务变化。此外,基于大型语言模型的机器人任务规划虽然在单机器人的简单任务上取得了一定进展,但在多机器人协同的长程任务上依然存在成功率低、效率差、难以泛化等问题。为了解决上述瓶颈,研究人员开始探索将新兴的大语言模型与经典人工智能规划技术相结合,试图兼顾两者优势来提升多机器人系统的自主协同能力。LaMMA-P 正是在这样的背景下应运而生。


二.研究方法

大型语言模型和启发式搜索规划器共同驱动的多机器人规划框架


面对异构多机器人长时任务规划难题,LaMMA-P 提出了融合大型语言模型与 PDDL 规划的创新框架。首先,系统利用大语言模型强大的推理与文本解析能力来理解复杂的自然语言指令,从中抽取高层任务目标和约束,并生成初步的任务分解方案。接着,LaMMA-P 将任务分解结果转换为形式化的 PDDL 表述,由经典规划器执行全局搜索与最优子任务规划,找出满足约束的最优执行序列和分配方案。在这个过程中,大语言模型负责语义理解和高层决策,PDDL 规划器保证了规划结果的严谨性和完备性。通过人机指令理解和形式规划求解的结合,LaMMA-P 实现了对长时任务既能清楚理解又能精确计算。


整个框架采用模块化设计,包括指令解析模块、任务规划模块、执行仿真模块等。指令解析模块由预训练的大型语言模型实现,输出任务结构图和初步分配建议;任务规划模块基于 PDDL,通过迭代深化搜索得到任务分配的具体行动序列;执行模块在仿真环境中验证并反馈执行结果用于可能的调整。各模块解耦的设计使得增加机器人数量或更改任务类型时无需更改框架主体逻辑,只需调整相应的任务描述和机器人能力配置,体现出高度的灵活性和通用性。


三.实验结果

性能全面超越现有方案


研究团队构建了 MAT-THOR 数据集来评估 LaMMA-P 的有效性。MAT-THOR 基准涵盖了在家庭场景下多机器人协作完成长时任务的多种情况,包括简单的顺序任务和复杂的并行任务,模拟真实家庭环境中的多样挑战。实验在不同数量机器人(包括 2 台及更多)和不同任务复杂度组合下进行,并将 LaMMA-P 与当前最新的多机器人任务规划方法 SMART-LLM 进行了对比。实验从性能对比模块消融可视化分析三个方面系统展示了 LaMMA-P 的优势。


1. 性能对比


LaMMA-P 在任务成功率、效率以及机器人利用率等多个核心指标上均大幅领先当前最优方法 SMART-LLM (GPT-4o)


关键发现:


  • 长时任务成功率提升显著:在 Compound 任务中,成功率提升至 93%(领先 23%)。Complex 任务中,成功率提升至 77%(领先 57%)。在 Vague Command 任务中,成功率达到 45%,而现有方法完全失败。

  • 效率与机器人利用率全面提升:执行效率(Eff)在三类任务中分别提升 26% ~ 48%。机器人利用率(RU)在 Complex 任务中提升 22%,显著优化多机器人协作调度。执行动作可行性(Exe)达到 100%,保证任务分配后每一步都能顺利完成。

  • 复杂任务中优势更加突出:随着任务复杂度增加,LaMMA-P 优势愈发明显,表现出卓越的泛化和推理能力。Vague Command 场景中唯一能够成功完成任务的方法,展现强大的自然语言理解和模糊指令解析能力。


2. 模块消融分析


通过消融不同模块,验证了 LaMMA-P 各模块对整体性能的关键贡献:


关键发现:


  • Precondition Identifier (P) 模块显著提升规划成功率:移除 P 模块后,Compound 任务成功率下降 14%,Complex 任务下降 9%。P 模块帮助模型更好解析先决条件,提高子任务合理性和计划成功率。

  • PDDL Validator (V) 和 Problem Generator (G) 提高执行可靠性:去除 V 和 G 后,Complex 任务执行率下降至 87%(相比完整系统的 100%)。V 模块确保生成的 PDDL 问题格式正确,有效避免因不合规计划导致的失败。

  • 完整模块组合带来最优性能:包含全部模块的 LaMMA-P 实现最佳效果,Compound 任务成功率高达 93%,Complex 任务成功率达 77%。整体效率(Eff)提升最明显,表明完整系统能够优化任务分解、资源调度与计划执行的全流程。


3. 可视化分析


通过 AI2-THOR 仿真环境可视化展示,直观体现 LaMMA-P 优化的任务规划效果:


关键发现:


  • 并行与顺序任务合理调度:在 Compound 任务中,多个机器人基于自身能力并行执行不同子任务,提高整体任务完成速度。通过智能顺序安排,避免因场景拥堵或任务冲突导致的执行延迟。

  • 复杂依赖关系下的精准协作:在 Complex 任务中,机器人能够合理等待必要条件满足(如等待抽屉被打开),体现对任务先后约束的精准把控。有效减少无效等待和重复移动,提高机器人整体利用率。


四.总结与展望

多机器人协同规划新范式


LaMMA-P 的提出为多机器人长时任务协同规划提供了全新的思路:它成功地将大模型的智能推理与经典 PDDL 规划有机结合,弥补了各自的短板,显著提升了复杂任务的自动化程度和执行可靠性。这一成果标志着异构多机器人自主协作迈出了关键一步。在未来工作中,研究团队计划进一步探索端到端的优化(例如使语言模型与规划器联结形成可微分闭环),以及引入多模态感知信息(如视觉、语音)来丰富指令理解,不断提升系统在真实环境中的适应性和鲁棒性。随着代码、数据集和交互式演示的开源发布,更多研究者和开发者可以基于 LaMMA-P 框架进行拓展创新,加速多机器人协同领域的技术演进。可以预见,LaMMA-P 所代表的 “大模型驱动规划” 新范式有望在未来走出实验室,应用到智能制造、家庭服务等众多场景,推动多机器人系统朝着更加高效、智能的方向发展。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我理解的是,大模型负责“what to do”,PDDL 负责“how to do”。大模型理解任务目标,PDDL 负责找到实现目标的具体步骤。一个提供方向,一个保证执行的可靠性。

除了家庭服务机器人,我觉得在智能制造、仓储物流、搜救等领域都有很大的应用前景。比如在智能制造中,可以利用 LaMMA-P 框架实现多机器人协同装配、物料搬运等任务;在搜救领域,可以利用多机器人协同搜索、定位遇险者等。未来发展方向应该是更加注重端到端的优化,以及引入多模态感知信息,提升系统在真实环境中的适应性和鲁棒性。

从技术角度分析,LaMMA-P 的提升主要体现在以下几个方面:1) LLM 强大的语义理解能力,能够准确解析复杂的自然语言指令,避免了歧义和误解;2) PDDL 规划器的全局搜索能力,能够找到最优的任务执行序列和资源分配方案;3) 模块化架构的设计,使得系统可以灵活地适应不同的任务和机器人组合,具有良好的泛化能力;4) MAT-THOR 数据集的高质量和多样性,为模型的训练和评估提供了可靠的基准。

我觉得主要得益于两点:一是大语言模型的引入,让机器人更好地理解人类指令;二是 PDDL 规划器的结合,让任务规划更加严谨和高效。此外,模块化的设计也功不可没,使得系统具有很强的灵活性和可扩展性,可以适应不同的任务和机器人组合。

我认为 LaMMA-P 的应用前景非常广阔。除了文章提到的领域,还可以应用于:1) 医疗领域,例如多机器人协同手术;2) 农业领域,例如多机器人协同采摘、播种;3) 建筑领域,例如多机器人协同建造。未来的发展方向可以考虑:1) 引入强化学习,使机器人能够自主学习和优化任务规划策略;2) 结合计算机视觉、语音识别等技术,提升机器人对环境的感知能力;3) 研究更加高效的 PDDL 规划算法,提高任务规划的效率。

我觉得在太空探索领域也能大展身手!比如在月球或火星上,多个机器人可以协同完成科考任务,想想就觉得很酷! 未来还可以把这个框架做得更通用,让各种类型的机器人都能够使用。

这个问题问得好!简单来说,大语言模型就像团队里的“大脑”,负责理解人类指令,进行任务分解,提供初步方案。而 PDDL 规划器则是“精算师”,负责将这些方案形式化,进行严谨的规划和优化,确保任务的每一步都合理可行。这种结合就像是“大脑”给方向,“精算师”来细化,优势互补,自然能提升整体性能啦!

个人感觉,大模型让机器人“听得懂人话”是关键,以前的机器人理解不了太复杂的指令,现在有了大模型,沟通效率高多了。再加上 PDDL 规划器的优化,执行起来肯定更快更准。

从学术角度讲,LLM 承担了高层语义理解和任务分解的功能,将自然语言指令转化为机器可执行的 PDDL 形式化描述。PDDL 规划器则负责在形式化空间中进行搜索,寻找最优的子任务序列和资源分配方案。这种结合解决了传统方法在处理复杂自然语言指令和长时任务规划方面的瓶颈,实现了从感知到行动的有效桥接。