社科论文管理论文经济论文科技论文教育论文文艺论文医学论文外语论文硕博论文法律论文理工论文农业论文

当前位置：主页 > 科技论文 > 数学论文 >

基于经验回放Q-Learning的最优控制算法

发布时间：2018-03-07 03:04

本文选题：控制策略　切入点：经验回放　出处：《计算机工程与设计》2017年05期 　论文类型：期刊论文

【摘要】：针对实时系统的在线最优控制策略学计算开销高的缺点,提出基于经验回放和Q-Learning的最优控制算法。采用经验回放(experience replay,ER)对样本进行重复利用,弥补实时系统在线获取样本少的不足;通过Q-Learning算法并采用梯度下降方法对值函数参数向量进行更新;定义基于经验回放和Q-Learning的ER-Q-Learning算法,分析其计算复杂度。仿真结果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限时间内平衡更多时间步,具有最快的收敛速度。
[Abstract]:Learn the disadvantage of high computational overhead for the optimal control strategy of online real-time system, and put forward the optimum experience playback and Q-Learning control algorithm based on the experience replay (experience replay, ER) of the samples were reused for real-time online access to samples from less foot; through the Q-Learning algorithm and the gradient descent method to update value function parameter vector; definition of ER-Q-Learning algorithm based on Q-Learning and playback experience, analyze its computational complexity. Simulation results show that compared with Q-Learning algorithm, Sarsa algorithm and BLSPI algorithm ER-Q-Learning batch algorithm can balance the more time step in finite time, has the fastest convergence rate.

【作者单位】：成都信息工程大学控制工程学院;
【基金】：国家自然科学基金项目(61502329)
【分类号】：O232;TP18

【相似文献】

相关期刊论文前10条

1 苏开乐;关于D.W.Etherington的扩充产生算法的一个注记[J];计算机工程与科学;1998年04期

2 胡梦佑;陈钧量;;快速加权滑窗RLS格型算法[J];中山大学学报(自然科学版);1992年02期

3 裴炳南;吴显鼎;张明武;;MLMS算法的伪收敛现象[J];河南科学;1993年Z1期

4 张承慧;一种工业过程时变参数估计新算法——修正目标函数法[J];中国工程科学;2001年11期

5 金丕彦，芮勇;BP算法各种改进算法的研究及应用[J];南京航空航天大学学报;1994年S1期

6 王则柯;超越函数零点Kuhn算法收敛的一个充分条件[J];科学通报;1985年06期

7 周凤利,李绍滋,粱文林;一种改进型的BP算法[J];电气传动自动化;1997年01期

8 傅晓阳，周幼英;Euler族算法的一般收敛性[J];应用数学学报;1994年04期

9 粟华;谷良贤;龚春林;;求解黑箱优化问题的动态模式跟踪抽样算法[J];计算机集成制造系统;2013年07期

10 邹士新,杨坤德,马远良;几种优化算法在浅海匹配场反演中的性能比较[J];声学技术;2005年01期

相关博士学位论文前4条

1 黄亚魁;几类优化问题的BB型算法研究[D];西安电子科技大学;2015年

2 易雯帆;非线性偏微分方程多解计算大范围收敛算法及其应用研究[D];湖南师范大学;2016年

3 鲍吉锋;平衡问题和优化问题若干算法的收敛性分析[D];浙江大学;2013年

4 张晓伟;全局优化的若干随机性算法[D];西安电子科技大学;2008年

相关硕士学位论文前10条

1 马英钧;基于人工蜂群算法的约束优化问题研究[D];华中师范大学;2015年

2 张忠正;基于核心区域扩展的重叠社区发现算法研究[D];北京理工大学;2016年

3 王淑靖;非重叠社区发现中近邻传播算法的研究与应用[D];中国矿业大学;2016年

4 宋慧;预处理Householder-GMRES(m)算法研究[D];燕山大学;2013年

5 闫涛红;预处理加权GMRES(m)算法研究[D];燕山大学;2014年

6 张慧;E-变换GMRES(m)算法的研究与应用[D];燕山大学;2014年

7 杨艳;人工萤火虫优化算法在数值计算中的应用[D];广西民族大学;2011年

8 刘丙花;分裂可行问题及其拓展问题的算法研究[D];曲阜师范大学;2014年

9 孔维镇;不精确Newton-GMRES方法的全局算法[D];浙江大学;2012年

10 王平;基于凸优化的矩阵重建问题算法的研究[D];海南师范大学;2014年

，

本文编号：1577643

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/yysx/1577643.html

上一篇：几类带积分边界的分数阶微分方程的研究
下一篇：基于变量概率信息的因子分析监控方法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

最近更新

教材专著

·主编|副主编|备案副主编|编委|参编

热点文章

Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明：资料由用户e6f9d***提供，本站仅收录摘要或目录，作者需要删除请E-mail邮箱bigeng88@qq.com