CMU博士论文:突破模型局限,实现可靠的基于模型的机器人规划

CMU博士论文提出在模型不准确的情况下,通过学习模型局限性,结合多种知识形式,实现可靠的机器人规划。

原文标题:【CMU博士论文】在模型不准确的情况下实现可靠的基于模型的规划

原文作者:数据派THU

冷月清谈:

这篇CMU博士论文聚焦于在模型不准确的情况下,如何实现可靠的基于模型的规划,核心在于让机器人能够利用不同形式的知识(如物理模型、学习的动力学模型、无模型技能等)来操控物体,即使预测模型存在偏差,通过正确考虑模型的局限性,仍可以使其发挥作用。论文提出了通过学习模型与现实之间的差异来扩展机器人能力,着重介绍了模型前提条件的概念,即模型能够可靠表示现实世界动力学的状态-动作空间区域。论文还探讨了利用模型前提条件扩展机器人能力的算法,包括使用多种模型的规划方法、整合无模型技能以及动力学适应算法。最后,论文还提出了一种能够生成高效且可靠的动力学模型的算法,旨在为结合多种形式的知识进行决策提供基础。

怜星夜思:

1、文章提到即使模型不准确,只要能正确考虑其局限性,仍然是有用的。那么,在实际应用中,我们应该如何量化和利用这种“不准确性”?除了文中的模型前提条件,还有其他更有效的方法吗?
2、文章中提到了多种知识形式的融合,例如物理模型、学习的动力学模型以及无模型技能。在实际应用中,如何有效地整合这些不同来源的知识,避免知识之间的冲突或冗余?
3、论文提到主动学习模型前提条件可以提高任务可靠性。那么,在机器人进行主动学习时,如何平衡探索(探索未知区域)和利用(利用已知模型)之间的关系,避免机器人因探索而进入危险状态或损坏自身?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们主要通过基于模型的规划视角来解决利用知识进行决策的问题,即机器人使用预测模型来选择能够实现预期结果的动作。


本论文的目标是提供一个框架,用于结合多种互补工具,使机器人能够利用不同形式的知识来操控物体。我们考虑了多种类型的知识,例如基于物理的模型、学习到的动力学模型,以及从人类示范中学习的无模型技能。每种知识形式都带有其对世界的假设以及所需的资源。我们主要通过基于模型的规划视角来解决利用知识进行决策的问题,即机器人使用预测模型来选择能够实现预期结果的动作。

尽管预测模型被广泛用于任务和运动规划,但在许多情况下,其预测结果可能与现实世界的行为存在偏差,从而导致任务失败甚至损坏。尽管所有模型都存在局限性,但本论文认为,如果能够正确考虑模型的局限性,即使模型非常不准确,它们仍然是有用的。我们考虑了多种形式的模型不准确性,包括模型在表示能力上的结构性限制。

在此框架内,我们试图通过学习模型与现实之间的差异来扩展机器人的能力。具体来说,我们学习并使用状态-动作空间中的区域,称为模型前提条件,在这些区域中,模型能够可靠地表示现实世界的动力学。量化模型前提条件可以在获取新任务知识时高效地扩展能力。由于通过新数据(例如人类示范或在现实世界中尝试可能不安全的动作)获取知识的成本可能很高,因此效率至关重要。

通过使用预测准确性定义模型前提条件,我们表明,即使使用极少的数据,任务可靠性也可以显著提高。通过学习模型偏差估计器(MDE),我们可以将规划限制在模型准确的区域内,从而提高规划的可靠性。尽管模型前提条件的MDE公式可以从现有数据中学习,但我们提出了一种主动学习模型前提条件的方法(第2章)。

随后,论文介绍了利用模型前提条件扩展机器人能力的算法。其中一种方法支持使用多种形式不同且计算需求各异的模型进行规划,从而实现更高效的规划和可靠的执行,同时保留最优性的理论保证(第3章)。我们还解决了现有模型不足以解决问题的情况。首先,我们展示了一种将无模型技能整合到基于模型规划中的方法,且数据需求较低(第4章)。其次,我们提出了一种动力学适应算法,能够高效选择并更新学习到的动力学模型的数据,从而将能力扩展到更复杂的动力学场景(第5章)。

对量化和扩展机器人能力的探索引发了一个根本性问题:对于特定任务,可靠的规划和控制真正需要什么样的模型?针对这一问题,我们提出了一种算法,能够在给定规划问题的情况下生成高效且可靠的动力学模型(第6章)。本论文的目标是为结合多种形式的知识进行决策提供基础,指导设计能够利用不同工具解决任务的机器人系统。




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


这个问题问到了点子上!我觉得量化不准确性可以从两个方面入手:一是误差的统计特性,比如均值、方差,二是误差的来源分析,找到导致误差的关键因素。利用方面,除了模型前提条件,还可以考虑使用鲁棒优化,在规划过程中显式地考虑误差带来的不确定性,寻找在最坏情况下也能满足要求的解。甚至可以结合集成学习的思想,用多个模型预测结果的方差来衡量不确定性,方差大的区域就降低规划的置信度。

我觉得最重要的是找到不同知识形式之间的“共同点”。比如,物理模型描述的是系统的本质规律,学习的动力学模型描述的是系统的经验规律,无模型技能描述的是人的操作习惯。可以将这些规律都转化为某种统一的“行为模式”,然后通过某种方式将这些行为模式进行组合。这就有点像搭积木,不同的积木可以拼成不同的形状,但它们之间都是通过统一的连接方式进行组合的。

从工程实践的角度来看,我认为可以借鉴控制领域的一些方法。比如,滑模控制对模型精度要求不高,能够容忍一定程度的模型不确定性。或者使用自适应控制,在线估计模型参数,根据实际情况进行调整。另外,我觉得卡尔曼滤波也是一个思路,它能够融合模型预测和实际观测,不断修正对系统状态的估计。

避免机器人损坏自身,最简单粗暴的方法就是给机器人套个“保护罩”。当然,这个保护罩可以是物理上的,也可以是逻辑上的。物理上的保护罩可以防止机器人受到物理损伤,逻辑上的保护罩可以限制机器人的动作范围,避免机器人进入危险区域。此外,还可以使用“逆强化学习”,从人类的“安全驾驶”行为中学习安全约束,然后在主动学习过程中遵循这些约束。

这是一个非常关键的问题!我认为需要一个统一的框架来协调不同知识形式之间的关系。一方面,可以借鉴知识图谱的思想,将不同来源的知识表示成一个图结构,然后利用图算法进行推理和融合。另一方面,可以考虑使用贝叶斯网络,将不同知识形式作为不同的概率分布,然后利用贝叶斯公式进行更新和融合。此外,还可以设计一个“仲裁器”,根据当前的任务状态,动态地选择使用哪种知识形式,或者将多种知识形式进行加权组合。

探索与利用的平衡是强化学习中的经典问题。可以借鉴一些现有的探索策略,比如ε-贪婪策略、UCB算法、Thompson sampling等。此外,还可以使用风险敏感的强化学习方法,显式地考虑探索带来的风险,避免进入危险状态。更进一步,可以结合模仿学习,先从人类示范中学习一些安全的操作策略,然后再进行主动探索。

我觉得这个问题很有意思,让我想到了哲学上的“可知论”和“不可知论”。与其纠结于模型的准确性,不如换个角度,关注模型的“适用性”。就像盲人摸象,每个人摸到的部位不同,得到的结论也不一样,但把所有人的结论综合起来,就能大致了解整个大象的轮廓。所以,我觉得可以尝试构建一个“模型库”,每个模型负责描述系统的一部分特性,然后通过某种方式将这些模型整合起来,形成一个更完整的系统描述。

从工程实现的角度,我觉得可以借鉴软件工程中的“微服务”架构。将每种知识形式封装成一个独立的“服务”,服务之间通过API进行通信。这样可以降低不同知识形式之间的耦合度,方便进行维护和更新。同时,还可以使用“服务发现”机制,动态地注册和发现可用的知识服务。

我觉得可以借鉴自动驾驶中的“安全驾驶员”概念。在机器人进行主动学习时,始终有一个“安全模块”在后台监控,当机器人即将进入危险状态时,安全模块会立即介入,控制机器人执行安全操作。此外,还可以使用仿真环境进行预训练,在仿真环境中进行大量的探索,然后再将学习到的知识迁移到真实环境中。