当前位置:主页 > 科技论文 > 数学论文 >

基于经验回放Q-Learning的最优控制算法

发布时间:2018-03-07 03:04

  本文选题:控制策略 切入点:经验回放 出处:《计算机工程与设计》2017年05期  论文类型:期刊论文


【摘要】:针对实时系统的在线最优控制策略学计算开销高的缺点,提出基于经验回放和Q-Learning的最优控制算法。采用经验回放(experience replay,ER)对样本进行重复利用,弥补实时系统在线获取样本少的不足;通过Q-Learning算法并采用梯度下降方法对值函数参数向量进行更新;定义基于经验回放和Q-Learning的ER-Q-Learning算法,分析其计算复杂度。仿真结果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限时间内平衡更多时间步,具有最快的收敛速度。
[Abstract]:Learn the disadvantage of high computational overhead for the optimal control strategy of online real-time system, and put forward the optimum experience playback and Q-Learning control algorithm based on the experience replay (experience replay, ER) of the samples were reused for real-time online access to samples from less foot; through the Q-Learning algorithm and the gradient descent method to update value function parameter vector; definition of ER-Q-Learning algorithm based on Q-Learning and playback experience, analyze its computational complexity. Simulation results show that compared with Q-Learning algorithm, Sarsa algorithm and BLSPI algorithm ER-Q-Learning batch algorithm can balance the more time step in finite time, has the fastest convergence rate.

【作者单位】: 成都信息工程大学控制工程学院;
【基金】:国家自然科学基金项目(61502329)
【分类号】:O232;TP18

【相似文献】

相关期刊论文 前10条

1 苏开乐;关于D.W.Etherington的扩充产生算法的一个注记[J];计算机工程与科学;1998年04期

2 胡梦佑;陈钧量;;快速加权滑窗RLS格型算法[J];中山大学学报(自然科学版);1992年02期

3 裴炳南;吴显鼎;张明武;;MLMS算法的伪收敛现象[J];河南科学;1993年Z1期

4 张承慧;一种工业过程时变参数估计新算法——修正目标函数法[J];中国工程科学;2001年11期

5 金丕彦,芮勇;BP算法各种改进算法的研究及应用[J];南京航空航天大学学报;1994年S1期

6 王则柯;超越函数零点Kuhn算法收敛的一个充分条件[J];科学通报;1985年06期

7 周凤利,李绍滋,粱文林;一种改进型的BP算法[J];电气传动自动化;1997年01期

8 傅晓阳,周幼英;Euler族算法的一般收敛性[J];应用数学学报;1994年04期

9 粟华;谷良贤;龚春林;;求解黑箱优化问题的动态模式跟踪抽样算法[J];计算机集成制造系统;2013年07期

10 邹士新,杨坤德,马远良;几种优化算法在浅海匹配场反演中的性能比较[J];声学技术;2005年01期

相关博士学位论文 前4条

1 黄亚魁;几类优化问题的BB型算法研究[D];西安电子科技大学;2015年

2 易雯帆;非线性偏微分方程多解计算大范围收敛算法及其应用研究[D];湖南师范大学;2016年

3 鲍吉锋;平衡问题和优化问题若干算法的收敛性分析[D];浙江大学;2013年

4 张晓伟;全局优化的若干随机性算法[D];西安电子科技大学;2008年

相关硕士学位论文 前10条

1 马英钧;基于人工蜂群算法的约束优化问题研究[D];华中师范大学;2015年

2 张忠正;基于核心区域扩展的重叠社区发现算法研究[D];北京理工大学;2016年

3 王淑靖;非重叠社区发现中近邻传播算法的研究与应用[D];中国矿业大学;2016年

4 宋慧;预处理Householder-GMRES(m)算法研究[D];燕山大学;2013年

5 闫涛红;预处理加权GMRES(m)算法研究[D];燕山大学;2014年

6 张慧;E-变换GMRES(m)算法的研究与应用[D];燕山大学;2014年

7 杨艳;人工萤火虫优化算法在数值计算中的应用[D];广西民族大学;2011年

8 刘丙花;分裂可行问题及其拓展问题的算法研究[D];曲阜师范大学;2014年

9 孔维镇;不精确Newton-GMRES方法的全局算法[D];浙江大学;2012年

10 王平;基于凸优化的矩阵重建问题算法的研究[D];海南师范大学;2014年



本文编号:1577643

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/1577643.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6f9d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com