您所在位置：网站首页 > 研究报告 > 信息产业基于深度强化学习的驾驶仪参数快速整定方法

基于深度强化学习的驾驶仪参数快速整定方法

17页

卖家[上传人]：杨***

文档编号：475047207

上传时间：2024-05-02

文档格式：DOCX

文档大小：34.25KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

16 金贝

/ 17 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、基于深度强化学习的驾驶仪参数快速整定方法万齐天，卢宝刚，赵雅心，温求遒，*（1.北京理工大学宇航学院，北京 100081；2.北京航天长征飞行器研究所，北京 100076；3.中国运载火箭技术研究院，北京 100076）0 引言自动驾驶仪的主要任务为控制和稳定飞行器飞行，消除干扰引起的飞行器姿态变化，使飞行器按照期望的飞行轨迹或飞行姿态飞行1。作为一种经典的过载驾驶仪设计结构，三回路驾驶仪以其良好的性能在飞行器控制领域得到了广泛的应用。三回路驾驶仪的设计过程中需对二阶根自振频率的进行设计，文献2-5采用求解关于稳定裕度的非线性方程来得到合适的二阶根自振频率。然而，传统驾驶仪设计方法采用非全局剖面状态进行控制参数设计，导致其对全局约束和性能指标的考量不足。当飞行环境存在较大的不确定性时，会导致飞行器对标称轨迹跟踪制导方式的自主性和鲁棒性较差。近年来，深度强化学习方法的发展6-9为飞行器智能控制实现提供了新的可能。强化学习10-13是一种基于动态规划求解框架的无模型马尔可夫决策过程（Markov decision process，MDP）处理方法，通过智能体与环境的不断交互和迭代学习

2、，找到可以让智能体获取最大收益的最优策略。深度强化学习的弱模型特性和可迁移性相比于传统控制优化方法具有更广泛的适用性，在飞行器控制系统设计中有着良好的应用前景。目前，深度强化学习方法在智能控制领域已取得一定研究成果14-23。文献24利用反向传播神经网络算法作为值函数的逼近策略，对舵机动作池进行了离散处理并训练得到控制策略。文献25利用强化学习及自适应动态规划原理，设计了一种适用于微小型弹药的两回路驾驶仪，并建立了纵向通道控制模型。文献26提出了一种基于深度强化学习的智能比例-积分-微分（proportional-integral-differential，PID）控制器，实现了对过载指令的精确跟踪。但目前采用深度强化学习的控制设计方法存在训练参数维数过大、策略学习效率不高、算法不易收敛等问题，如何提升深度强化学习方法在飞行器驾驶仪领域的实用性成为了亟待解决的问题。本文提出一种基于深度强化学习的三回路驾驶仪参数自整定方法，采用近端策略优化算法，针对驾驶仪控制参数设计造成的训练速度慢、奖励函数收敛性不好等问题进行优化改进。通过解析法得到从三维控制变量转换为一维设计参量的关系式，对深度强化

3、学习训练数据的维度进行了简化，提高了算法的效率和奖励函数收敛性。本文内容安排如下：第1部分提出了以驾驶仪极点配置为核心的控制参数快速设计方法；第2部分构建了离线深度强化学习训练叠加在线多层感知器神经网络实时计算的智能控制架构；第3部分以典型再入飞行器为例，完成深度强化学习训练和神经网络部署，并进行了仿真验证。1 控制参数快速设计方法如图1所示，当前很多飞行器上采用了三回路驾驶仪结构，可采用极点配置法对其设计控制参数。各动力学参量定义可Reference27。图1 驾驶仪结构图Fig.1 Diagram of autopilot structure三回路驾驶仪主导极点为一负实根，由时间常数决定，直接决定了系统响应的主要特性。非主导极点由一对振荡根组成，并可由自振频率与阻尼表示。这两个参数中，阻尼决定了二阶系统振荡特性，为保证系统好的动态特性，通常设计中期望其值在0.7左右。而二阶根自振频率则往往很难提出绝对合理的设计约束。略去舵机、角速度陀螺、结构滤波器及过载计的动态特性，将系统在舵机所处位置断开，得到系统开环传递函数为待设计的控制变量有k g、i、k ac，可根据三回路驾驶仪设计经验对

4、设计参数进行简化。根据文献2推导可得驾驶仪设计参数k g，i，k ac的设计表达式为各动力学参量定义可Reference27，计算所需各变量值为由此可将驾驶仪控制变量k g、i、k ac的设计转化为设计参量、的设计。通常给定为0.7，由驾驶仪快速性确定，而在设计中很难确定。通过已有文献证明2，的变化对相位裕度P m和幅值裕度G m具有明显影响。可通过求解关于稳定裕度P m的非线性方程，使稳定裕度不断接近理想设计指标，最终完成自振频率的迭代求解。由此可得到将三维控制参数设计转化为一维设计参量设计的快速设计方法。2 基于深度强化学习的驾驶仪参数自整定方法以第1节推导的控制参数快速设计方法为基础，构建面向飞行器全飞行包络范围的近端策略优化（proximal policy optimization，PPO）离线训练方法，使得可以快速完成对设计参量在线调节的多层感知器（multi-layer perception，MLP）神经网络的训练。将训练完成的MLP神经网络进行在线部署，根据当前实际的飞行状态，由MLP神经网络实时计算得到设计参量，并直接调用快速设计方法中的极点配置解析计算方程，从而快速完

5、成控制参数的自适应调整。采用深度强化学习控制参数自整定的飞行器制导控制方案如图2所示。图2 基于深度强化学习方法的参数整定框架Fig.2 Parameter tuning framework based on deep reinforcement learning2.1 PPO算法PPO算法28为策略梯度类算法，其思路与信赖域区间策略优化（trust region policy optimization，TRPO）算法29一致，都是想在优化时采取尽可能大的步幅但又不能太大以至于产生崩坏。相比于TRPO算法，PPO算法实现起来更简单，泛化能力更强。该方法交替进行与环境的相互作用与数据采样过程，并利用随机梯度上升方法优化目标函数。相比于标准的策略梯度方法需对每个数据样本执行梯度更新，PPO算法提出一种允许小批量数据进行多周期更新的目标函数。PPO算法相比于其他算法鲁棒性更好，这与其使用的最大期望算法有关，保证了PPO算法每次更新策略总能让性能获得单调的提升。PPO算法对其超参数的变化不敏感，相比于其他深度强化学习算法，PPO算法的调参过程更加简便。策略梯度方法采用带有一个参数（通常用表示）

6、的函数来建模，直接对策略本身进行优化。策略优化的目标函数定义为式中：s为当前状态值；a为当前动作值；S为策略分布函数的状态空间；A为策略分布函数的动作空间；（s）为由决定的马尔可夫平稳分布；（as）为带参数的行为策略；Q（s，a）为服从策略的行为价值函数。通过计算目标函数的梯度J（），将参数向某个特定的方向移动，以使策略可以最大化最终收益。目标函数梯度表示为为了减小策略梯度的方差，可引入基线对行为价值函数（s，a）进行处理30，得到优势函数：式中：（s）为引入的基线。由于状态价值函数（s）由价值函数网络学习得到，与实际值之间存在偏差，尤其在训练初期偏差较大。可采用泛化优势估计（generalized advantage estimator，GAE）法31对优势函数进行估计，并通过调节参数来平衡方差与偏差。采用GAE方法的优势函数估计值为当执行强化学习异策略算法或同策略并行异步算法时，用于产生样本的行为策略与所优化的目标策略是不一致的。为了解决这种不一致性带来的误差，TRPO算法使用重要性权重（as）（as）对此误差进行修正。可得到目标函数为式中：old为梯度更新前的参数。为了保证新旧策

7、略间的差异不会太大，TRPO算法使用KL（Kullbck-Leible）散度来限制新旧策略分布之间的距离。因此，目标函数J（）优化时，需要满足如下限制：式中：为信赖域范围，用于限制两个策略分布之间的距离；DKL（old）为old与的KL散度。求解目标函数时，可将目标约束转换为目标函数的一部分，目标函数转换为无目标约束的TRPO算法目标函数为式中：为约束项系数。若在最大化JTRPO（）时不对old和之间的距离加以限制，将会因为过大的参数更新幅度以及过大的策略比值而使得更新过程不稳定。令旧策略分布函数和新策略分布函数之间的比值为PPO算法通过使用一个截断的替代目标函数来优化TRPO算法，将r（）限定在1附近的领域中，即1-，1，来施加这一约束。其中，为超参数。采用clip限制方法的目标函数为函数clip（r（），1-，1）将策略比值约束在1-，1范围内，可定义为式中：为某一小量。PPO算法的目标函数变为取原始值与截断值之间的较小值，这与TRPO算法尽可能最大化策略的更新幅度的理念不同，保证了策略迭代的稳定性。将PPO算法应用在Actor-Critic网络结构上时，目标函数在截断回报的基础上

8、增加关于值估计的误差项（V（s）-Vtarget）和熵正则项H（s，（）用以鼓励探索。可得PPO目标函数为式中：c1为误差项参数；c2为熵正则项参数。PPO算法流程32如下。步骤1初始化策略网络（s）的参数0，初始化价值网络的参数0。步骤2遵循当前策略，智能体与环境交互得到当前系统状态st，at，rt。步骤3使用优势估计函数方法计算优势值，并更新策略网络。其中，优势值计算公式为步骤4求解代理目标函数JPPO（）的梯度并更新参数，其中JPPO（）的表达式为步骤5求解目标函数JBL（）的梯度并更新价值网络参数，其中JBL（）的表达式为步骤6重复步骤2步骤5，直到训练集到达终止状态。2.2 深度强化学习离线训练方法在深度强化学习离线训练算法中，将驾驶仪参数自整定问题建模为一个强化学习问题，需要定义出强化学习算法的状态、动作、奖励。其中，动作的定义比较明晰，即为驾驶仪设计参量二阶根自振频率，而状态与奖励函数需进一步讨论。由于驾驶仪设计需根据特定飞行状态来进行设计，其中马赫数Ma、攻角会影响气动特性变化，飞行高度H、马赫数Ma会影响动压变化。由此，可设置强化学习的状态向量为H，Ma，T。对于特定

9、飞行任务，HHmin，Hmax，MaMamin，Mamax，min，max。Hmin表示飞行最小高度，Hmax表示飞行最大高度；Mamin表示飞行最小马赫数，Mamax表示飞行最大马赫数；min表示飞行最小攻角，max表示飞行最大攻角。为使深度强化学习所使用的神经网络训练更快并消除输入数据的量纲，通常可对神经网络的输入输出进行归一化处理，使其尽量接近标准正态分布。定义神经输出的动作属于（-1，1）范围，并对于状态向量进行如下处理：根据工程设计经验可取的范围为（0，max），其中max为最大自振频率，可得动作值的反归一化公式为采用频域稳定裕度中的相位裕度P m和幅值裕度G m作为影响强化学习交互奖励的因素，可设置奖励函数为式中：为累积奖励的折扣因子；Pmi为每一训练步长产生的相位裕度；Pm0为理想相位裕度；Gmi为每一训练步长产生的幅值裕度；Gm0为理想幅值裕度；k1为相位裕度对奖励值的影响权重，k2为幅值裕度对奖励值的影响权重。每一步长产生的相位裕度和幅值裕度可由Matlab相关函数计算得到。将状态空间、动作空间、奖励函数及智能体交互环境代入PPO算法框架中，可以得到基于PPO算法的驾驶仪参数自整定训练框架如图3所示。图3 基于PPO算法的参数自整定离线训练框架Fig.3 Parameter tuning training framework based on PPO algorithm图3中Actor网络选用具有256个隐藏神经元的MLP神经网络，Critic网络选用具有256个隐藏神经元的MLP神经网络；st、at、

《基于深度强化学习的驾驶仪参数快速整定方法》由会员杨***分享，可在线阅读，更多相关《基于深度强化学习的驾驶仪参数快速整定方法》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源