当前位置:主页 > 科技论文 > 自动化论文 >

基于一般化斜投影的异策略时序差分学习算法

发布时间:2019-07-30 15:55
【摘要】:在强化学习的值函数线性估计问题中,时序差分不动点解和贝尔曼残差的方法都是对真实值函数的斜投影,然而这两种解经证明都不是最优解.通过对两种投影进行加权平均,提出了一种一般化的斜投影算子.基于此推导出两种残差时序差分学习算法,并给出了这两种算法在异策略下的收敛性证明.在著名的Baird的异策略反例实验上,与相关算法进行了对比,实验结果验证了所提算法的正确性和有效性.
【图文】:

基于一般化斜投影的异策略时序差分学习算法


L1Φ=D(I-wγP)Φ=DL2Φ其中L2=I-wγP,权重w是一个实数.显然,当w取0和1时,XR就等于XTD和XBR.由于TD和BR的方法各有优点(TD的方法收敛速度快,但无法保证收敛性,而BR的方法具有很好的收敛性,收敛的速度却很慢),所以通过将两者加权得到RTD的方法,能够综合TD和BR的优点,在收敛的速度和稳定性之间做一个权衡,因此本文中取w属于0到1之间的实数.图1几种方法投影的几何关系Fig.1Geometricrelationshipsbetweenseveralmethodsfromtheprojectionview图1描述了最佳投影方向和TD、BR的投影方向的关系,其中:ΠTD=ΠLT1XTD=ΠLT1DΦΠBR=ΠLT1XBR=ΠLT1DL1ΦΠR=ΠLT1XR=ΠLT1DL2ΦΠ=ΠLT1X*=ΠDΦ尽管采用了加权求和的方法,从几何角度来看,新的投影方向仍然不是与span(Φ)正交的,即最优投影方向,但是通过选取合适的权值w,新的投影点与最优投影点间的距离会更近,也就是说估计的值函数精确度更高.2目标函数和一般化投影的时序差分学习算法2.1RTD算法用加权求和的方法得出一般的XR=DL2Φ后,就可以得到目标函数:J(θ)=‖XTR(Vθ-TVθ)‖22=E[δ(φ-γwφ′)]TE[δ(φ-γw

基于一般化斜投影的异策略时序差分学习算法


第6期吴毓双等:基于一般化斜投影的异策略时序差分学习算法续图3图3权值w在不同参数值下的性能曲线Fig.3Performancecomparisonswithotheralgorithmsfordifferentweightvalues对取不同权值(-1~5)的RTD算法进行相同条件下的实验效果比对如图4.图4选取不同权值的RTD算法在相同实验下效果曲线图Fig.4Performancefiguresfordifferentweightvalues图4给出了不同权值的RTD算法的实验效果对比图.从该图中可以看出,w落在绝对收敛范围内时能稳定收敛,但速度一般,而落入相对收敛范围内时,算法能够保证较好收敛性和较快收敛速度,且当w取-0.5(灰色)和1.3(黄色)时,算法的效果最佳.5总结与展望本文从投影的角度出发,,对TD和BR的投影空间加权求和,将投影方向一般化,然后基于得到的一般化斜投影方向推导出两种异策略的残差时序差分学习算法,并给出了这两种算法在异策略下的收敛性证明.本文通过Baird的异策略反例实验,证实了本文提出的算法具有稳定的收敛性,同时分析了权值不同对算法性能的影响,并且在收敛速度上与相关算法进行了对比.后续工作将从以下几方面展开:(1)本文选取权值是通过人为设定的,而接下来将考虑利用自适应的方法选取最优权值;(2)理论分析权值w选取在相对收敛范围时能够很快收敛的原因;(3)用有限样本分析的方法分析算法的收敛性和性能界.参考文献[1]SuttonRS,SzepesváriC,
【作者单位】: 南京邮电大学贝尔英才学院;南京邮电大学计算机学院;南京大学计算机软件新技术国家重点实验室;
【基金】:国家自然科学基金(61403208) 南京大学计算机软件新技术国家重点实验室开放课题(KFKT2016B04) 南京邮电大学引进人才科研启动基金(NY214014)
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 任庆生,叶中行,曾进;进化算法的收敛速度[J];上海交通大学学报;1999年06期

2 齐洁;汪定伟;;极值优化算法综述[J];控制与决策;2007年10期

3 孙骞;张进;王宇翔;;蚁群算法优化策略综述[J];信息安全与技术;2014年02期

4 胡娟,王常青,韩伟,全智;蚁群算法及其实现方法研究[J];计算机仿真;2004年07期

5 李金汉;杜德生;;一种改进蚁群算法的仿真研究[J];自动化技术与应用;2008年02期

6 李修琳;鲁建厦;柴国钟;汤洪涛;;混合蜂群算法求解柔性作业车间调度问题[J];计算机集成制造系统;2011年07期

7 秦全德;程适;李丽;史玉回;;人工蜂群算法研究综述[J];智能系统学报;2014年02期

8 李豆豆;邵世煌;齐金鹏;;生存迁移算法[J];系统仿真学报;2008年08期

9 曹炬;贾红;李婷婷;;烟花爆炸优化算法[J];计算机工程与科学;2011年01期

10 刘晓勇;付辉;;一种快速AP聚类算法[J];山东大学学报(工学版);2011年04期

相关博士学位论文 前1条

1 王可心;大规模过程系统非线性优化的简约空间理论与算法研究[D];浙江大学;2008年

相关硕士学位论文 前10条

1 马英钧;基于人工蜂群算法的约束优化问题研究[D];华中师范大学;2015年

2 孙方亮;基于粒子群与中心引力的一种新混合算法及应用[D];西安电子科技大学;2014年

3 张德祥;基于改进蚁群算法的机器人三维路径规划研究[D];青岛科技大学;2015年

4 卢协平;联盟竞赛算法的研究与应用[D];福州大学;2014年

5 代水芹;基于种群分解的进化超多目标算法及其应用[D];广东工业大学;2016年

6 李倩;支持张量机的切平面算法研究[D];华南理工大学;2016年

7 姚洪曼;基于改进人工蜂群算法的模糊聚类研究[D];广西大学;2016年

8 丁亚英;基于局部搜索和二进制的改进人工蜂群算法[D];南京师范大学;2016年

9 杨杰;基于粒子群优化算法的不确定聚类技术研究[D];北方民族大学;2016年

10 周雨鹏;基于鸽群算法的函数优化问题求解[D];东北师范大学;2016年



本文编号:2520993

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2520993.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户597b1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com