当前位置:主页 > 科技论文 > 自动化论文 >

基于改进ELM的递归最小二乘时序差分强化学习算法及其应用

发布时间:2018-01-16 03:04

  本文关键词:基于改进ELM的递归最小二乘时序差分强化学习算法及其应用 出处:《化工学报》2017年03期  论文类型:期刊论文


  更多相关文章: 强化学习 激活函数 递归最小二乘算法 函数逼近 广义Hop-world问题


【摘要】:针对值函数逼近算法对精度及计算时间等要求,提出了一种基于改进极限学习机的递归最小二乘时序差分强化学习算法。首先,将递推方法引入到最小二乘时序差分强化学习算法中消去最小二乘中的矩阵求逆过程,形成递推最小二乘时序差分强化学习算法,减少算法的复杂度及其计算量。其次,考虑到LSTD(0)算法收敛速度慢,加入资格迹增加样本利用率提高收敛速度的算法,形成LSTD(λ)算法,以保证在经历过相同数量的轨迹后能收敛于真实值。同时,考虑到大部分强化学习问题的值函数是单调的,而传统ELM方法通常运用具有双侧抑制特性的Sigmoid激活函数,增大了计算成本,提出采用具有单侧抑制特性的Softplus激活函数代替传统Sigmoid函数,以减少计算量提高运算速度,使得该算法在提高精度的同时提高了计算速度。通过与传统基于径向基函数的最小二乘强化学习算法和基于极限学习机的最小二乘TD算法在广义Hop-world问题的对比实验,比较结果证明了所提出算法在满足精度的条件下有效提高了计算速度,甚至某些条件下精度比其他两种算法更高。
[Abstract]:According to the value of algorithm on the accuracy and computational time requirements of function approximation, and proposes an improved extreme learning machine differential sequential recursive least squares algorithm based on reinforcement learning. First, the recursive method is introduced into the least squares temporal difference reinforcement learning algorithm in the least squares matrix elimination in the inverse process, the formation of the recursive least squares temporal difference the reinforcement learning algorithm to reduce the complexity of the algorithm and computation. Secondly, considering the LSTD (0) the slow convergence of the algorithm, adding eligibility rate of increase to improve the convergence speed of the algorithm by using the sample, the formation of LSTD (lambda) algorithm, to ensure that experienced in the same number of trajectories can converge to the true value. At the same time. Taking into account the most intensive value function learning problem is monotone, while the traditional ELM method is usually used with bilateral inhibition of Sigmoid activation function, increases the computation cost, mining equipment Unilateral suppression Softplus activation function to replace the traditional Sigmoid function, to reduce the amount of computation and improve the speed, so that the algorithm can improve the accuracy and speed of calculation is improved. Compared with the traditional least squares based on radial basis function and reinforcement learning algorithm based on least square algorithm TD limit experiment machine learning in the generalized Hop-world problem. The comparison results show that the proposed algorithm can meet the precision in calculation speed under the condition improved, even under certain conditions with greater accuracy than the other two algorithms.

【作者单位】: 北京化工大学信息科学与技术学院;
【基金】:国家自然科学基金项目(61573051,61472021) 软件开发环境国家重点实验室开放课题(SKLSDE-2015KF-01) 中央高校基本科研业务费专项资金项目(PT1613-05)~~
【分类号】:TP181
【正文快照】: 引言强化学习是由Watkins等[1-3]提出的基于心理学的一种全新的机器学习算法,其主要思想是通过智能体与环境的交互与试错,以环境的反馈信号作为输入实现策略的优化。实现策略优化需要正确的策略评价和策略迭代技术,而如何正确地估计函数值是策略评价的一个中心问题。强化学习

【相似文献】

相关期刊论文 前10条

1 李春贵,刘永信,陈波;多步截断行动—评价强化学习算法[J];内蒙古大学学报(自然科学版);2005年02期

2 郑宇;罗四维;吕子昂;;基于模型的层次化强化学习算法[J];北京交通大学学报;2006年05期

3 周如益;高阳;;一种基于性能势的无折扣强化学习算法[J];广西师范大学学报(自然科学版);2006年04期

4 高阳;周如益;王皓;曹志新;;平均奖赏强化学习算法研究[J];计算机学报;2007年08期

5 何源;张文生;;基于核方法的强化学习算法[J];微计算机信息;2008年04期

6 杨旭东;刘全;李瑾;;一种基于资格迹的并行强化学习算法[J];苏州大学学报(自然科学版);2012年01期

7 刘梦婷;牟永敏;赵刚;欧阳腾飞;;基于强化学习算法的供应链管理订单策略研究[J];数据通信;2013年01期

8 王学宁,贺汉根,徐昕;求解部分可观测马氏决策过程的强化学习算法[J];控制与决策;2004年11期

9 李春贵;刘永信;王萌;;集成规划的行动-自适应评价强化学习算法[J];内蒙古大学学报(自然科学版);2008年03期

10 孟伟;韩学东;;并行强化学习算法及其应用研究[J];计算机工程与应用;2009年34期

相关会议论文 前2条

1 陈宗海;段家庆;任皴;罗杨宇;李成荣;;针对机器人觅食任务的强化学习算法及其仿真研究[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年

2 孟祥萍;苑全德;皮玉珍;;基于量子理论的多Agent系统强化学习研究[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年

相关博士学位论文 前3条

1 陈兴国;基于值函数估计的强化学习算法研究[D];南京大学;2013年

2 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年

3 李妼;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年

相关硕士学位论文 前10条

1 宋拴;结合演示数据的强化学习与排序算法研究[D];南京大学;2014年

2 马朋委;Q_learning强化学习算法的改进及应用研究[D];安徽理工大学;2016年

3 许志鹏;基于动作抽象的分层强化学习算法研究[D];苏州大学;2016年

4 房东阳;基于模糊强化学习的柔性结构控制方法研究[D];西安电子科技大学;2015年

5 张晓艳;连续时间分层强化学习算法[D];合肥工业大学;2010年

6 苏浩铭;基于模型知识的大空间强化学习算法的研究与实现[D];合肥工业大学;2008年

7 杨宛璐;基于性能势的改进平均奖赏强化学习算法研究[D];广东工业大学;2014年

8 宋超峰;基于平均型强化学习算法的动态调度方法的研究[D];天津大学;2006年

9 袁姣红;基于模型的动态分层强化学习算法研究[D];中南大学;2011年

10 褚建华;Q-learning强化学习算法改进及其应用研究[D];北京化工大学;2009年



本文编号:1431238

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1431238.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户977ad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com