
基于Sarsa算法的无人直升机悬停控制.docx
6页基于Sarsa算法的无人直升机悬停控制摘要:无人直升机悬停控制,利用Sarsa增强学习算法设计将Sarsa增强学习算法与多层前馈神经网络 相结合,对控制器参数进行调整,实现对微小型无人直升机悬停控制性能的优化增强学习的值 函数逼近器采用N10-12-16结构的多层前馈神经网络,权值学习釆用直接梯度下降的近似梯度迭代算法,用 e-Greed策略进行行为选择0引言由于无人直升机系统的复杂性、不确定性和强耦合性,难以建立精确数学模型,因此无人直升机悬停控制 是国际上具有挑战性的课题故将增强学习算法应用于直升机悬停运动控制1微小型直升机悬停动力学模型该直升机是多输入/输出的非线性、时变、高度耦合系统,如图1设直升机为六自由度规则长方体刚体, 由刚体动力学得到直升机动力学模型:图I小型旋翼直升机实物模型52氏=m(u 4-w(? - vr) + mg sin &'LFy = + wp) + mg sin 0 cos &ZFz = 4- yp - uq) 4- mg cos cos呜=3+/(Zz + Z”)^My = lyq+pr{Iy-lt)$ = 7? 4-(7 sin ^tan 0 + r cos 0tan &&- q cos0-幵0 = gsin ^sec^4-r cos其中,G (p»中)为直升机俯仰、滚转和偏航角;(u, v, w)、(p, q, r)、(lx,ly,lz)分别为直 升机速度在体坐标中的分量、旋转角速度、轴转动惯量。
和工M为直升机受到的合力和合力矩悬停或低速前飞时,直升机系统可简化为对简单的线性模型,各通道的耦合较小设直升机处于理想的悬停状态,则其速度可近似趋于0,姿态角很小(假设sin (*) =*、cos (*) =1),模型简化为:5Z& = mu + mgd_ mg©》马=一 mg呜=lxp(2)(3)< EM” = lyq如=7$= p0 =0= ?0 + 厂合力及合力矩方程为:£耳=F和》弓=F嗣+ FyT2F严%另颯=+F咖力m +FyThT— M — F预 h” + F諒皿= M4- F詔m -其中:(Im,yM,hM)为主旋翼旋转中心在体坐标系中的坐标;(It,W,hT)为尾翼旋转中心在体坐标系 中的坐标变量中,主旋翼各参数用下标M表示,尾桨旋翼各参数用下标T表示将式(3)带入式(2), 即可得到直升机在悬停状态下的状态空间方程:X = (4)x=[u, V, w, p, q, r, cp, 9,中);控制变量u = [A,B,8o,8t]分别为前向和侧向周期变距、主旋翼和尾桨总距2增强学习控制器增强学习基于动物学习心理学的“试错法”原理,能在与环境的交互过程中根据评价性的反馈信号实现MDP的优化,可用于解决优化控制问题。
Sarsa算法基于模型,是一种策略TD (Temporal Difference)学习,算法中对MDP行为值函数的;迭代公式为:Q(st,at)=Q(sfrat) + + 矩(号叙,^+1) - Q(巧,aJ] (5)其中:(st,at)为MDP在时刻t的状态行为对;(st+1, at+1)为时刻t+1的状态行为对;r为时刻t的回报;5>0为学习因子并满足:< 00(6)?-0基于Sarsa的学习控制器,其值函数逼近器采用多层前馈神经网络,通常采用直接梯度下降的近似梯度迭 代公式:m =务[Q+1 + 迈6+1,勺+1)- ©(片,勺)][3(§(%勺)/3叫]其中:Wt为神经网络的输出层权值;为神经网络的值函数估计输出建立甚于Sarsa学习算法的增强学习控制器原理如下:采用结构为N 10-i2-i6多层前馈神经网络控制方案,网络输入为直升机系统的9个状态(因处于悬停状态,3个方向的速度假设为0)和环境的评价回报共40个变量:x=[u, v, w, p, q, r,
隐含层神经元的激活函数为Sigmoid函数,权值学习釆用带阻尼项的BP算法输出层釆用线性加权函数,权值学习采用式(7)算法针对神经网络16个输出,通过£-096(1选择策略行为设直升机悬停控 制的回报:stableother可确定各学习周期的性能优化指标丄其中,Y为折扣因子,选择接近1的常数,为此取0.99通过对性能指标J的优化,可保证系统状态或输 出要求,确保系统性能的优化3仿真与结论利用上述设计方法,针对直升机的悬停动力学模型俯仰和滚转2个状态的数值仿真因无人直升机在悬停 状态时,偏航角中,易确定,故只对直升机的俯仰角和滚转角(P进行控制设直升机的俯仰角8和滚转 角(P的初始姿态设为6学习因子设为0.2进行300个周期的学习,每个周期的最大时间步为1000步, 成功后俯仰角和滚转角稳定在0%10009008007004 600 亘500 订4000 50 100 150 200 250 300学习网期图3增强学习控制落性能指标变化曲线图4增强学习控制器作用下俯仰角变化曲线图5増强学习控制器作用下滚转角变化曲线图4、图5分别给出180个学习周期后俯仰角和滚转角的变化趋势从变化趋势可知,学习稳定后得到的 控制器,能很好控制直升机的俯仰角和滚转角在0。
附近很小的范围内变化解决了高维状态空间输入和输 出的问题,成功实现了微小型无人直升机悬停控制,具有一定的应用价值。












