当前位置:主页 > 科技论文 > 自动化论文 >

增量式双自然策略梯度的行动者评论家算法

发布时间:2018-08-13 19:02
【摘要】:针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解。为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法。为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较。实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点。
[Abstract]:In view of the fact that the continuous action space algorithm in reinforcement learning has not fully considered the selection method of optimal action and the knowledge of action space, an actor critic algorithm is proposed to improve the natural gradient. In this algorithm, the maximum expected return is used as the objective function, the upper and lower bounds of the action interval are weighted to obtain the optimal action, and then the weights of the upper and lower bounds of the action interval are approximated by a linear function approximator. The optimal action solution is converted to the solution of the dual strategy parameter vector. In order to speed up the learning rate of the upper and lower bound parameter vectors, the incremental Fisher information matrix and the qualification trace of the upper and lower bound weights of the action are designed, and the dual strategy gradient incremental natural action critic algorithm is defined. In order to prove the effectiveness of this algorithm, the algorithm is compared with other classical reinforcement learning algorithms in continuous action space in three classical test experiments of reinforcement learning. Experimental results show that the proposed algorithm has the advantages of fast convergence speed and good convergence stability.
【作者单位】: 苏州大学计算机科学与技术学院;软件新技术与产业化协同创新中心;吉林大学符号计算与知识工程教育部重点实验室;
【基金】:国家自然科学基金资助项目(No.61272005,No.61303108,No.61373094,No.61472262,No.61502323,No.61502329) 江苏省自然科学基金资助项目(No.BK2012616) 江苏省高校自然科学研究基金资助项目(No.13KJB520020) 吉林大学符号计算与知识工程教育部重点实验室基金资助项目(No.93K172014K04) 苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422,No.SYG201308)~~
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 王靖亚;;算法结构对其性能的影响研究[J];中国人民公安大学学报(自然科学版);2005年04期

2 Белый А.А.;к.Ф.-м.н.Бовбелъ Е.И.;к.т.н.Микулович В.И.;张至德;;快速付立叶变换的各种算法及其特性[J];现代雷达;1981年01期

3 何璞,张平;分裂基算法的讨论[J];现代电子技术;2003年18期

4 李玉峰;一种利用符号算法的自适应图象位移估计算法[J];电子学报;1991年04期

5 王威;胡斌;董鹏;杨超;;军械调运方案优化算法的设计与仿真[J];微计算机信息;2006年19期

6 宋杨;张玉清;;结构化比对算法研究及软件实现[J];中国科学院研究生院学报;2009年04期

7 鄢靖丰;;一种改进的人工蜂群算法及其应用研究[J];许昌学院学报;2013年02期

8 程渭吕;通信及信号处理用的新算法[J];上海航天;1985年01期

9 杨世达;易亚林;单志勇;李庆华;;蜜蜂进化型的类电磁机制算法[J];计算机工程与应用;2013年06期

10 郭福顺 ,高铁军;抽象数据型与一类表达式的化简[J];哈尔滨工业大学学报;1985年A3期

相关会议论文 前9条

1 刘明兰;王玲t ;曾春年;钟绍华;张俊;;双模自组织Fuzzy-Dahlin算法研究[A];1997中国控制与决策学术年会论文集[C];1997年

2 胡海清;;序列最小优化及其改进算法[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年

3 王春厚;许都;孙健;;一种降低误判率的BF快速匹配算法结构[A];2010年全国通信安全学术会议论文集[C];2010年

4 桑红燕;潘全科;任立群;;解决单机准时排序问题的差异进化算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

5 周川;张璐;陈庆伟;;基于神经网络PID的智能AQM新算法[A];第二十七届中国控制会议论文集[C];2008年

6 陈小林;赵建;王延杰;;多模实时跟踪算法研究[A];第七届全国信息获取与处理学术会议论文集[C];2009年

7 傅荟璇;王宇超;孙枫;;融合Kalman滤波的自适应带宽Mean Shift算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年

8 羌磊;肖田元;宋士吉;;多种群模式协同搜索贝叶斯优化算法[A];第25届中国控制会议论文集(中册)[C];2006年

9 阮秀凯;张志涌;;一种基于支持向量回归的盲恢复新算法[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年

相关博士学位论文 前10条

1 陈贵涛;基于CMAES杂交算法的钢筋混凝土框架结构优化设计研究[D];华南理工大学;2014年

2 杜新鹏;联合稀疏恢复新型算法及其应用研究[D];国防科学技术大学;2013年

3 李大威;基于集成学习的高分遥感图像玉米区高精度提取算法研究[D];中北大学;2017年

4 李向涛;进化算法研究及其在化学信息学中的应用[D];东北师范大学;2015年

5 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年

6 郑友莲;面向模糊车间调度问题的智能算法研究[D];武汉大学;2011年

7 高健;分布式环境的同顺序流水作业问题求解算法研究[D];大连海事大学;2013年

8 毕云龙;自适应声学回声抑制算法研究及其VLSI芯片设计[D];哈尔滨工业大学;2010年

9 赵立权;ICA算法及其在阵列信号处理中的应用研究[D];哈尔滨工程大学;2009年

10 邹德旋;启发式算法及其在工程优化中的应用[D];东北大学;2011年

相关硕士学位论文 前10条

1 和梦思;粒子群进化算法的改进及应用[D];深圳大学;2015年

2 王金明;基于AES和LSB算法的信息隐藏模块研究与设计[D];贵州大学;2015年

3 许峥;自适应PID算法在减水剂生产控制中的研究与实现[D];北京工业大学;2015年

4 贾宁宁;复杂网络中社团发现算法研究及应用[D];石家庄铁道大学;2015年

5 庞德艳;非光滑方程的算法及其应用[D];青岛大学;2015年

6 李倩;基于膜计算的黑洞聚类算法研究[D];西华大学;2015年

7 刘建;无线传感器网络链式路由算法[D];广西师范大学;2015年

8 杨葛;基于本体的程序代码资源算法结构关联研究[D];东华大学;2013年

9 褚夫飞;基于改进人工蜂群算法的分散式风功率预测方法研究[D];东北大学;2014年

10 王耀辉;蜂群算法应用研究[D];福州大学;2013年



本文编号:2181894

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2181894.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f8487***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com