当前位置:主页 > 科技论文 > 自动化论文 >

正则化快速最小二乘时域差分算法的研究

发布时间:2017-08-02 02:07

  本文关键词:正则化快速最小二乘时域差分算法的研究


  更多相关文章: 强化学习 策略评价 正则化 增量式最小二乘时域差分学习 极限学习机


【摘要】:策略评价与策略改进是强化学习中两大子问题,其中,策略评价问题也称为学习预测问题,为策略改进以求得最优策略提供基础。在众多策略评价算法之中,时域差分学习是强化学习中应用最普遍的方法,同时也为求解学习控制问题的方法提供强有力的基础。正则化是一种能够将先验知识加入目标函数之中,以克服值函数逼近器过拟合样本的有效方法。该方法通过对基函数进行选择,使得值函数逼近器产生稀疏解。因此,逼近器的结构得到简化、逼近器的泛化能力得到提升。增量式技术是一种能够在不影响样本利用率的前提下,显著降低策略评价算法的算法复杂度的方法。目前这两种方法在经典的时域差分算法中得到了应用,而对于最近出现的一些最小二乘时域差分算法中的研究仍有待完善。本课题在前人的研究基础上,针对最小二乘时域差分算法中的正则化问题和降低算法复杂度的问题展开进一步研究。首先,针对极限学习机作为值函数逼近器中由于随机初始化输入层参数引起的性能不稳定的问题,提出了一种基于正则化极限学习机的最小二乘时域差分算法。该方法能够有效的克服极限学习机随机初始化带来的影响,能够更好地逼近值函数真值。然后,针对带有梯度修正项的最小二乘时域差分算法中的l1正则化问题,提出了基于最小角度回归的带有梯度修正项的最小二乘时域差分算法。该算法能够得到策略评价问题的稀疏解,进行有效的基函数选择,避免过拟合现象的发生。最后,为了解决带有梯度修正项的最小二乘时域差分算法的计算复杂度高的问题,引入了增量式技术,并提出了带有梯度修正项的增量最小二乘时域差分算法。该算法将一阶算法的算法复杂度低和基于最小二乘技术的算法的样本利用率高的优点结合在一起,具有更好的解决实际问题的能力。
【关键词】:强化学习 策略评价 正则化 增量式最小二乘时域差分学习 极限学习机
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18
【目录】:
  • 摘要4-6
  • ABSTRACT6-13
  • 第一章 绪论13-19
  • 1.1 引言13-14
  • 1.2 前人研究成果14-17
  • 1.3 本论文研究的内容17-19
  • 第二章 策略评价基础理论与算法19-25
  • 2.1 引言19
  • 2.2 马尔可夫决策过程与多步学习预测问题19-21
  • 2.2.1 马尔可夫决策过程19-20
  • 2.2.2 策略和值函数20-21
  • 2.3 最小二乘时域差分算法21-23
  • 2.3.1 多步时域差分学习21-22
  • 2.3.2 多步最小二乘时域差分学习22-23
  • 2.4 本章小结23-25
  • 第三章 基于正则化极限学习机的量小二乘时域差分学习25-37
  • 3.1 引言25
  • 3.2 极限学习机的基础理论25-28
  • 3.2.1 极限学习机的原理及结构25-27
  • 3.2.2 极限学习机的改进27-28
  • 3.3 基于RELM-LSTD(λ)的策略评价28-36
  • 3.3.1 基于RELM-LSTD(λ)的策略评价算法28-30
  • 3.3.2 基于RELM-LSTD(λ)的学习预测仿真实验30-36
  • 3.4 本章小结36-37
  • 第四章 正则化量小二乘时域差分学习37-49
  • 4.1 引言37
  • 4.2 带有梯度修正项的最小二乘时域差分学习37-39
  • 4.3 基于LARS-TDC的策略评价39-46
  • 4.3.1 最小角度回归算法39-40
  • 4.3.2 基于LARS-TDC的策略评价算法40-42
  • 4.3.3 LARS-TDC的学习预测仿真42-46
  • 4.4 本章小结46-49
  • 第五章 增量最小二乘时域差分学习49-59
  • 5.1 引言49
  • 5.2 理论基础49-51
  • 5.3 基于iLSTDC的策略评价51-57
  • 5.3.1 基于iLSTDC的策略评价算法52-54
  • 5.3.2 iLSTDC的学习预测仿真54-57
  • 5.4 本章小结57-59
  • 第六章 总结与展望59-61
  • 6.1 总结59
  • 6.2 展望59-61
  • 参考文献61-67
  • 致谢67-69
  • 研究成果及发表的学术论文69-71
  • 导师和作者简介71-73
  • 附件73-74

【参考文献】

中国期刊全文数据库 前5条

1 De-Rong Liu;Hong-Liang Li;Ding Wang;;Feature Selection and Feature Learning for High-dimensional Batch Reinforcement Learning: A Survey[J];International Journal of Automation and Computing;2015年03期

2 朱美强;程玉虎;李明;王雪松;冯涣婷;;一类基于谱方法的强化学习混合迁移算法[J];自动化学报;2012年11期

3 程玉虎;冯涣婷;王雪松;;基于状态-动作图测地高斯基的策略迭代强化学习[J];自动化学报;2011年01期

4 徐昕;贺汉根;;基于变尺度编码CMAC的增强学习控制器及其应用[J];模式识别与人工智能;2002年03期

5 蒋国飞,吴沧浦;基于Q学习算法和BP神经网络的倒立摆控制[J];自动化学报;1998年05期



本文编号:607148

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/607148.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a4710***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com