
基于数据的q函数自适应动态规划方法.docx
1页基于数据的q函数自适应动态规划方法专利名称:基于数据的q函数自适应动态规划方法技术领域:本发明涉及智能控制技术领域,尤其涉及基于数据的Q函数自适应动态规划方法背景技术:在工业生产、航空航天、汽车工程等领域,被控对象能够在有限的资源下使用最小的资源来完成控制目标,即最优控制最优控制指的是找到一个最优控制策略能够使得性能指标函数达到最优性能指标函数是与系统的状态和所采用的控制策略有关,它能够反映该控制策略在当前以及以后时刻的控制效果针对离散系统性能指标函数可以用数学形式可以表示成如下式子:权利要求1.一种通过自适应动态规划优化系统控制策略的方法,其包括以下步骤: 步骤1,初始化任意一个稳定的控制策略作为当前控制策略; 步骤2,使用当前控制策略初始化控制器、评价器神经网络的权重; 步骤3,根据当前控制策略和当前时刻被控系统的状态,生成控制动作并施加到被控系统上,获得下一时刻的系统状态; 步骤4,根据前一时刻系统状态、相应控制动作和下一时刻的系统状态,调整控制器、评价器神经网络的权重,获得调整后的控制器和评价器神经网络权重; 步骤5,判断当前迭代周期是否已经结束,是则进入步骤6,否则将调整后的控制器神经网络权重对应的控制策略作为当前控制策略返回步骤3继续执行; 步骤6,判断最近两个迭代周期所产生的控制器、评价器神经网络权重是否有明显变化,是则将调整后的控制器神经网络对应的控制策略作为当前控制策略进入步骤2继续优化,否则输出当前控制器神经网络对应的控制策略作为最优的控制策略。
2.根据权利要求1所述的方法,其特征在于,该方法基于被控系统的系统状态和控制动作的性能指标函数,通过运行被控系统实时优化所述被控系统的控制策略3.根据权利要求1所述的方法,其特征在于,步骤4中调整评价器神经网络的权重的公式表示如下:4.如权利要求1所述的方法,其特征在于,步骤4中控制器神经网络的权重如下调整:5.如权利要求1所述的方法,其特征在于,所述控制策略和性能指标函数如下表示:Ui0(Xk) = Wu(0Tx¥ (Xk)6.如权利要求1所述的方法,其特征在于,通过所述控制器神经网络计算得到当前时刻要施加到被控系统上的控制动作,具体如下表示:7.如权利要求1所述的方法,其特征在于,步骤4中通过建立的Q函数迭代更新调整所述控制器、评价器神经网络的权重,所述Q函数如下表示:8.如权利要求1所述的方法,其特征在于,步骤5中通过判断是否达到参数调整的最大次数来判断当前迭代周期是否已经结束全文摘要本发明提出一种基于数据的Q函数自适应动态规划方法解决最优控制问题所述方法主要包括步骤1,初始化稳定的控制策略;步骤2,用已有的控制策略初始化控制器(actor)、评价器(critic)神经网络的权重;步骤3,根据当前控制策略和当前时刻系统状态,生成被控制系统的控制动作并施加到被控制对象上,观测下一时刻的系统状态;步骤4,调整控制器、评价器神经网络的权重;步骤5,判断当前迭代周期是否已经结束,是则进入步骤6,否则回到步骤3;步骤6,判断最近两个迭代周期产生的神经网络权重是否有明显变化,是则用新产生的控制器、评价器神经网络进入步骤2,否则输出最终的控制器神经网络控制器。









![2019版 人教版 高中语文 必修 上册《第一单元》大单元整体教学设计[2020课标]](http://img.jinchutou.com/static_www/Images/s.gif)


