基于泛函梯度的策略梯度方法的研究
[Abstract]:Reinforcement learning is one of the important research directions of machine learning, which aims to make agents improve their own strategies and maximize the accumulated reward by interacting with the environment. Most of the classical reinforcement learning methods are based on the value function, but the method based on the value function is difficult to deal with the task of continuous action, and has the phenomenon of "policy degradation". Therefore, the strategy-based search method has been developed significantly in recent years. Policy gradient method is one of the most important methods in policy search, which updates the strategy based on the policy parameter gradient. In the strategy gradient method, the strategy is usually represented by linear model, which results in the system being constrained by the limited representation ability of linear model. Functional gradient can be used to generate non-parametric models in supervised learning. The Boosting class method based on functional gradient has become one of the representative methods of supervised learning. However, there is little research on functional gradient in reinforcement learning. In this paper, the use of functional gradient method in strategic gradient method is studied. The main work is as follows: firstly, the combination of PolicyBoost, learning decision tree and other complex models based on functional gradient method is designed. It avoids the disadvantage of manual design of linear features in the past. Secondly, we prove the convergence of PolicyBoost under certain conditions. Aiming at the possible over-fitting phenomenon in theoretical analysis, the over-fitting problem is alleviated by introducing the baseline and constructing the sample pool. Finally, the experiments of classical task Mountain Car,Acrobot, and challenging helicopter hover control task in reinforcement learning show that the proposed algorithm is effective and stable.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 刘木;黄知超;钟奕;范兴明;杨升振;;一种改进的梯度方向角的圆检测方法[J];电子设计工程;2011年18期
2 高智;仲思东;;基于梯度方向角量化的匹配新算法[J];计算机工程;2007年22期
3 生海迪;段会川;孔超;;词袋模型中梯度方向离散精度阈值经验分析[J];计算机工程与设计;2014年09期
4 汪旭东;贾渊;;基于概率密度梯度方向的角点重定位技术[J];计算机应用;2010年02期
5 李立春,冯卫东,于起峰;根据边缘梯度方向的十字丝目标快速自动检测[J];光学技术;2004年03期
6 胡海鸥;祝建中;;一种边点梯度方向引导的光滑边段提取方法[J];计算机工程与应用;2011年16期
7 郭军;周晖;朱长仁;肖顺平;;基于梯度方向二进制模式的空间金字塔模型方法[J];国防科技大学学报;2014年02期
8 王健;王孝通;徐晓刚;李博;;基于梯度的随机Hough快速圆检测方法[J];计算机应用研究;2006年08期
9 裴沛;;基于边缘梯度方向的图像二值化方法[J];计算机与现代化;2013年05期
10 王静;蒋爱德;;基于投影函数和梯度方向的快速人眼定位方法[J];科技信息(学术研究);2007年25期
相关会议论文 前5条
1 赵淼;王珂;庄严;王伟;;基于梯度方向双边对称性的旋转人脸中心跟踪[A];2005年中国智能自动化会议论文集[C];2005年
2 王健;王孝通;徐晓刚;李博;;一种新的基于随机Hough变换的圆检测算法[A];第十二届全国图象图形学学术会议论文集[C];2005年
3 李士进;熊辉;陆建峰;杨静宇;;一种稳健的人脸检测方法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
4 金英俊;王铁军;;开孔梯度泡沫弹塑性性质的三维数值模拟[A];2009年度全国复合材料力学研讨会论文集[C];2009年
5 邓海峰;苗振江;;基于梯度直方图的行人检测算法的改进[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
相关博士学位论文 前2条
1 苏亚艺;基于房价梯度的城市居住功能疏解研究[D];中国农业大学;2015年
2 戚建强;离心—凝胶成型工艺制备气孔梯度陶瓷[D];中国建筑材料科学研究总院;2007年
相关硕士学位论文 前5条
1 李耀;复杂环境中的车牌定位算法研究[D];南京邮电大学;2015年
2 许丹;方差相关的策略梯度方法研究[D];苏州大学;2016年
3 侯鹏飞;基于泛函梯度的策略梯度方法的研究[D];南京大学;2017年
4 刘美霞;面向复杂脑神经纤维结构重建的处理方法研究[D];天津大学;2012年
5 杨小上;基于梯度方向特征的行人检测[D];东北师范大学;2012年
,本文编号:2468376
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2468376.html