基于PINN与强化学习的船舶自适应优化控制方法

提出一种基于PINN与强化学习的自适应优化控制方法,应用于自动船舶控制,提高控制性能与安全性。

原文标题:IEEE TII | 值得学习!一种基于PINN与强化学习的自适应优化控制方法,用于自动船舶控制

原文作者:数据派THU

冷月清谈:

本文介绍了一种基于物理信息神经网络(PINNs)与自适应动态规划(ADP)相结合的自适应优化控制方法,并将其应用于自动化水面船舶控制。该方法巧妙融合了系统物理规律和在线数据,解决了传统模型在线求解耗时和纯数据模型泛化性差的问题。通过将最优控制策略分解为可行稳定的初始控制律和自适应学习残差项,确保了学习过程的安全性。实验结果表明,在系统动力学未知的情况下,该方法相比纯物理模型和纯数据驱动方法,能够实现更优的跟踪控制性能,充分展现了物理信息与数据融合在提升不确定系统控制性能方面的关键作用。该研究为安全关键型系统的控制提供了一种高效、精准且安全的解决方案。

怜星夜思:

1、PINN方法在处理其他类型的复杂控制系统,例如飞行器或机器人,是否具有同样的优势?它的局限性可能在哪里?
2、文章中提到将最优控制策略分解为初始控制律和自适应学习残差项,这种分解策略的意义是什么?为什么可以保证学习过程的安全性?
3、文章中使用了Actor-Critic框架进行强化学习,这个框架在整个控制系统中扮演了什么角色?它与传统的强化学习方法相比有什么优势?

原文内容

图片
来源:学姐带你玩AI
本文约2500字,建议阅读5分钟
针对控制仿射系统构建了一套 PINNs 基自适应优化控制方法。


论文标题:Physics-Informed Neural Networks-Based Adaptive Optimized Control and Its Application to Automated Surface Vessels

论文地址: https://ieeexplore.ieee.org/document/11222862

创新点


  • 首次将 PINNs 与 ADP 深度结合,同时利用系统物理规律(微分方程 / 动力学模型)和在线数据实现连续自适应学习,解决了纯物理基模型在线求解耗时、纯数据基模型泛化性差且难以处理系统约束的问题,实现了模型效率、精度与复杂度的平衡。

  • 针对非线性仿射系统设计控制律分解结构,将最优控制策略拆分为可行稳定的初始控制律(基于障碍李雅普诺夫函数 BLF 和反步控制设计,保证安全约束)和自适应学习残差项(由神经网络逼近),确保学习过程中控制策略始终处于稳定可行域,解决了安全关键型系统(如自动化船舶)学习过程的安全性问题。


方法


本文以物理信息神经网络(PINNs)和自适应动态规划(ADP)为核心技术支撑,结合强化学习(RL)、障碍李雅普诺夫函数(BLF)、优化反步(OB)控制等方法,针对控制仿射系统构建了一套 PINNs 基自适应优化控制方法,并将其定制化应用于自动化水面船舶的二阶仿射动力学系统控制,整体研究围绕方法设计、理论分析、验证优化展开,具体采用的研究方法可整合为:先针对控制仿射系统构建包含数据拟合与物理残差的 PINNs 模型,利用自动微分特性将系统物理定律作为网络正则化项,通过融合数据均方误差和物理残差误差的损失函数训练模型,实现对系统动力学的精准逼近,同时结合 ADP 方法,借助 PINNs 的自动微分迭代逼近连续时间哈密顿 - 雅可比 - 贝尔曼(HJB)方程的解,搭建 Actor-Critic 框架下的 RL 学习设计;再通过非线性系统控制的分解设计思路,将最优控制策略拆分为基于 BLF 和 OB 控制设计的可行稳定初始控制律与神经网络逼近的自适应学习残差项,利用投影算子约束学习更新方向,保障控制的安全性与约束满足性;

基于物理信息神经网络的自适应优化控制方法控制框图



本图整体呈现了所提 PINNs 基自适应优化控制方法的闭环控制逻辑与各模块交互关系,以被控的船舶物理系统为核心,外部的扰动与不确定性作为系统输入干扰,先从物理系统中采集状态样本与控制输入样本,将其输入至融合物理规律的 PINNs 模型中,该模型结合自动微分特性,同时拟合数据误差与物理残差以精准逼近系统动力学,PINNs 模型的输出与物理定律共同为 Actor-Critic 强化学习框架提供支撑,其中 Critic 模块依据 HJB 方程相关设计完成价值函数与哈密顿量的估计、误差计算,Actor 模块则负责最优控制策略的迭代更新,二者通过时序差分误差等残差信号的反馈完成参数优化,同时整个学习过程融入了基于障碍李雅普诺夫函数的安全强化学习设计,保障控制策略始终处于稳定可行域,最终将优化后的控制输入作用于物理系统,形成 “样本采集 - PINNs 动力学建模 - 强化学习策略优化 - 控制输入反馈” 的完整自适应控制闭环,实现对含扰动和不确定性的自动化水面船舶系统的精准、安全且自适应的优化控制。

基于物理信息神经网络的自适应优化控制算法流程图



本图直观展现了所提 PINNs 基自适应优化控制算法的具体执行步骤与迭代逻辑,整体遵循参数初始化、分层迭代优化、PINNs 模型更新、控制策略迭代及收敛判定的核心流程,先完成算法关键参数、神经网络各权重的初始化设置,再针对船舶控制的两个子系统依次开展迭代优化,先对z1子系统的虚拟控制律进行计算与神经网络权重更新,直至满足哈密顿量误差收敛准则或达到最大迭代步数,再针对z2子系统,先校验约束误差信号,接着计算最优控制输入与相关拉格朗日乘子估计值,同步完成 PINNs 模型权重的更新训练与评价网络、控制策略网络的权重迭代优化,在每一步迭代中均通过投影算子约束更新方向以保证控制安全性,同时持续校验约束误差信号并计数迭代步数,完成一次控制回合后还会判定是否满足z2子系统的收敛条件,若未满足则重复上述迭代流程,直至达到收敛准则或最大迭代步数后将优化后的控制输入作用于实际系统,整个流程图清晰体现了算法分层优化、迭代更新、收敛判定与安全约束的设计要点,实现了算法从参数初始化到实际控制输出的全流程落地。

算法的流程图



本图直观呈现了经物理信息神经网络(PINNs)训练后模型输出值与系统真实值的对比情况,同时展示了 PINNs 模型计算得到的物理残差导数项与真实导数项的匹配度,图中主要包含船舶运动的纵荡、横荡、艏摇速度对应的 PINNs 模型输出,以及这些输出的时间导数项,将这些模型输出及导数项与系统实际运行的真实值在各数据点上进行一一对照,结果显示 PINNs 模型的输出曲线与真实值曲线高度贴合,物理残差导数项也与真实导数项保持良好的一致性,无明显偏差,直观验证了所构建的 PINNs 模型不仅能精准预测自动化水面船舶的动力学状态,还能通过自动微分准确计算出与物理规律相符的梯度项,充分证明了 PINNs 模型在数据拟合和物理规律逼近方面的双重高精度,为后续将该模型融入自适应优化控制框架奠定了可靠的模型基础。

实验



本表以自动化水面船舶M矩阵存在70%未知动力学的典型不确定场景为测试背景,选取ASRL和OB两大控制框架下的纯模型(Model)、纯数据(Data)、融合PINNs三种实现方式为对比对象,以 两个核心跟踪误差均值,以及 两个累积性能指标为评价维度,开展了控制性能的定量对比分析,结果显示所有方法的 指标数值一致,核心性能差异体现在跟踪误差与 上,其中所提的ASRL-PINNs方法在 (0.3838)和 (0.1623)上均取得了所有对比方法中的最小值,相比同框架下的ASRL-Model、ASRL-Data方法,有效降低了系统跟踪误差,而OB框架下的PINNs方法虽相比同框架的Model、Data方法也有误差优化,但整体性能弱于ASRL框架,同时OB-Data方法的 指标表现最差,该表通过定量数据直观且明确地验证了在高比例系统动力学未知的场景下,融合PINNs的控制方法相比纯物理模型、纯数据驱动的控制方法具备更优的跟踪控制性能,也证明了ASRL框架结合PINNs的方案在自动化船舶控制中的适配性与优越性,充分凸显了物理信息与数据融合对提升不确定系统控制性能的关键作用。

---END---

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


PINN的优势在于它能够同时利用物理模型和数据进行学习,这使得它在处理那些模型不够精确或者数据不充分的系统时特别有效。但是,PINN的性能高度依赖于物理模型的准确性。如果物理模型存在较大的误差,PINN的学习效果可能会受到限制。此外,对于高度非线性的系统,PINN可能需要更复杂的网络结构和更多的训练数据才能达到满意的效果。对于飞行器和机器人这类安全性要求极高的系统,如何保证PINN控制的稳定性也是一个重要的挑战。

分解策略的关键在于它将控制问题分解为两个部分:一个是基于模型的控制,保证系统的基本稳定性和安全性;另一个是基于数据的学习,用于优化系统的性能。通过BLF确保初始控制律的安全性,而自适应学习残差项则在保证安全的前提下,不断优化控制策略,这种方式可以有效避免学习过程中的不安全行为。同时,投影算子的使用也限制了学习更新的方向,进一步保障了控制的安全性。

这个分解策略我觉得很妙!相当于先用一个比较保守的控制策略保证基本安全,然后用神经网络学习的部分去优化性能。就像开车一样,先保证不撞车,再去考虑怎么开得更快更稳。BLF(障碍李雅普诺夫函数)在这里起到了安全边界的作用,保证学习过程不会越界。

Actor-Critic框架就像一个团队,Actor负责“行动”,也就是输出控制策略,Critic负责“评价”,也就是评估Actor的行动好不好。通过不断地行动和评价,Actor就能学习到最优的控制策略。相比传统的强化学习方法,Actor-Critic框架可以处理连续动作空间的问题,更适合控制这种需要精细调节的场景。

我觉得PINN在复杂控制系统里肯定有潜力。你想啊,飞行器和机器人也都是有物理模型的,PINN正好能把这些模型和实际数据结合起来,应该能提高控制的精度和鲁棒性。不过,如果系统太复杂,PINN的训练可能会很困难,需要大量的计算资源,而且调参也是个问题。没准还得考虑模型简化或者用其他的优化算法才行。

同意楼上的观点,PINN这玩意儿,物理模型就是它的骨架,数据就是它的血肉。骨架歪了,长出来的肉肯定也不正。而且,数据质量也很重要,脏数据进去,出来的结果肯定也干净不了。所以说,PINN虽然看起来很美,但用起来还是有很多坑的,得小心填。

Actor-Critic框架在系统中起到了策略优化的作用。Actor负责根据当前状态输出控制策略,而Critic则负责评估该策略的价值,并根据评估结果指导Actor进行策略更新。与传统的强化学习方法相比,Actor-Critic框架的优势在于它能够同时学习策略和价值函数,从而提高学习效率和稳定性。此外,Actor-Critic框架还能够处理连续动作空间的问题,这使得它更适合应用于复杂的控制系统。

可以把Actor想象成一个赛车手,Critic是他的教练。赛车手负责开车(输出控制策略),教练负责评价他开得好不好(评估策略价值),然后根据教练的指导,赛车手不断调整自己的驾驶方式(更新控制策略)。传统的强化学习方法就像只有一个赛车手,没有教练指导,只能自己摸索,效率肯定没有Actor-Critic框架高。