提出一种基于PINN与强化学习的自适应优化控制方法,应用于自动船舶控制,提高控制性能与安全性。
原文标题:IEEE TII | 值得学习!一种基于PINN与强化学习的自适应优化控制方法,用于自动船舶控制
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章中提到将最优控制策略分解为初始控制律和自适应学习残差项,这种分解策略的意义是什么?为什么可以保证学习过程的安全性?
3、文章中使用了Actor-Critic框架进行强化学习,这个框架在整个控制系统中扮演了什么角色?它与传统的强化学习方法相比有什么优势?
原文内容
来源:学姐带你玩AI本文约2500字,建议阅读5分钟针对控制仿射系统构建了一套 PINNs 基自适应优化控制方法。
论文标题:Physics-Informed Neural Networks-Based Adaptive Optimized Control and Its Application to Automated Surface Vessels
论文地址: https://ieeexplore.ieee.org/document/11222862
创新点
-
首次将 PINNs 与 ADP 深度结合,同时利用系统物理规律(微分方程 / 动力学模型)和在线数据实现连续自适应学习,解决了纯物理基模型在线求解耗时、纯数据基模型泛化性差且难以处理系统约束的问题,实现了模型效率、精度与复杂度的平衡。
-
针对非线性仿射系统设计控制律分解结构,将最优控制策略拆分为可行稳定的初始控制律(基于障碍李雅普诺夫函数 BLF 和反步控制设计,保证安全约束)和自适应学习残差项(由神经网络逼近),确保学习过程中控制策略始终处于稳定可行域,解决了安全关键型系统(如自动化船舶)学习过程的安全性问题。
方法
本文以物理信息神经网络(PINNs)和自适应动态规划(ADP)为核心技术支撑,结合强化学习(RL)、障碍李雅普诺夫函数(BLF)、优化反步(OB)控制等方法,针对控制仿射系统构建了一套 PINNs 基自适应优化控制方法,并将其定制化应用于自动化水面船舶的二阶仿射动力学系统控制,整体研究围绕方法设计、理论分析、验证优化展开,具体采用的研究方法可整合为:先针对控制仿射系统构建包含数据拟合与物理残差的 PINNs 模型,利用自动微分特性将系统物理定律作为网络正则化项,通过融合数据均方误差和物理残差误差的损失函数训练模型,实现对系统动力学的精准逼近,同时结合 ADP 方法,借助 PINNs 的自动微分迭代逼近连续时间哈密顿 - 雅可比 - 贝尔曼(HJB)方程的解,搭建 Actor-Critic 框架下的 RL 学习设计;再通过非线性系统控制的分解设计思路,将最优控制策略拆分为基于 BLF 和 OB 控制设计的可行稳定初始控制律与神经网络逼近的自适应学习残差项,利用投影算子约束学习更新方向,保障控制的安全性与约束满足性;
基于物理信息神经网络的自适应优化控制方法控制框图
本图整体呈现了所提 PINNs 基自适应优化控制方法的闭环控制逻辑与各模块交互关系,以被控的船舶物理系统为核心,外部的扰动与不确定性作为系统输入干扰,先从物理系统中采集状态样本与控制输入样本,将其输入至融合物理规律的 PINNs 模型中,该模型结合自动微分特性,同时拟合数据误差与物理残差以精准逼近系统动力学,PINNs 模型的输出与物理定律共同为 Actor-Critic 强化学习框架提供支撑,其中 Critic 模块依据 HJB 方程相关设计完成价值函数与哈密顿量的估计、误差计算,Actor 模块则负责最优控制策略的迭代更新,二者通过时序差分误差等残差信号的反馈完成参数优化,同时整个学习过程融入了基于障碍李雅普诺夫函数的安全强化学习设计,保障控制策略始终处于稳定可行域,最终将优化后的控制输入作用于物理系统,形成 “样本采集 - PINNs 动力学建模 - 强化学习策略优化 - 控制输入反馈” 的完整自适应控制闭环,实现对含扰动和不确定性的自动化水面船舶系统的精准、安全且自适应的优化控制。
基于物理信息神经网络的自适应优化控制算法流程图
本图直观展现了所提 PINNs 基自适应优化控制算法的具体执行步骤与迭代逻辑,整体遵循参数初始化、分层迭代优化、PINNs 模型更新、控制策略迭代及收敛判定的核心流程,先完成算法关键参数、神经网络各权重的初始化设置,再针对船舶控制的两个子系统依次开展迭代优化,先对z1子系统的虚拟控制律进行计算与神经网络权重更新,直至满足哈密顿量误差收敛准则或达到最大迭代步数,再针对z2子系统,先校验约束误差信号,接着计算最优控制输入与相关拉格朗日乘子估计值,同步完成 PINNs 模型权重的更新训练与评价网络、控制策略网络的权重迭代优化,在每一步迭代中均通过投影算子约束更新方向以保证控制安全性,同时持续校验约束误差信号并计数迭代步数,完成一次控制回合后还会判定是否满足z2子系统的收敛条件,若未满足则重复上述迭代流程,直至达到收敛准则或最大迭代步数后将优化后的控制输入作用于实际系统,整个流程图清晰体现了算法分层优化、迭代更新、收敛判定与安全约束的设计要点,实现了算法从参数初始化到实际控制输出的全流程落地。
算法的流程图
本图直观呈现了经物理信息神经网络(PINNs)训练后模型输出值与系统真实值的对比情况,同时展示了 PINNs 模型计算得到的物理残差导数项与真实导数项的匹配度,图中主要包含船舶运动的纵荡、横荡、艏摇速度对应的 PINNs 模型输出,以及这些输出的时间导数项,将这些模型输出及导数项与系统实际运行的真实值在各数据点上进行一一对照,结果显示 PINNs 模型的输出曲线与真实值曲线高度贴合,物理残差导数项也与真实导数项保持良好的一致性,无明显偏差,直观验证了所构建的 PINNs 模型不仅能精准预测自动化水面船舶的动力学状态,还能通过自动微分准确计算出与物理规律相符的梯度项,充分证明了 PINNs 模型在数据拟合和物理规律逼近方面的双重高精度,为后续将该模型融入自适应优化控制框架奠定了可靠的模型基础。
实验
本表以自动化水面船舶M矩阵存在70%未知动力学的典型不确定场景为测试背景,选取ASRL和OB两大控制框架下的纯模型(Model)、纯数据(Data)、融合PINNs三种实现方式为对比对象,以 、 两个核心跟踪误差均值,以及 、 两个累积性能指标为评价维度,开展了控制性能的定量对比分析,结果显示所有方法的 指标数值一致,核心性能差异体现在跟踪误差与 上,其中所提的ASRL-PINNs方法在 (0.3838)和 (0.1623)上均取得了所有对比方法中的最小值,相比同框架下的ASRL-Model、ASRL-Data方法,有效降低了系统跟踪误差,而OB框架下的PINNs方法虽相比同框架的Model、Data方法也有误差优化,但整体性能弱于ASRL框架,同时OB-Data方法的 和 指标表现最差,该表通过定量数据直观且明确地验证了在高比例系统动力学未知的场景下,融合PINNs的控制方法相比纯物理模型、纯数据驱动的控制方法具备更优的跟踪控制性能,也证明了ASRL框架结合PINNs的方案在自动化船舶控制中的适配性与优越性,充分凸显了物理信息与数据融合对提升不确定系统控制性能的关键作用。
---END---
编辑:文婧





