当前位置:主页 > 科技论文 > 自动化论文 >

基于泛函梯度的策略梯度方法的研究

发布时间:2019-04-29 17:02
【摘要】:强化学习是机器学习的重要研究方向之一,旨在使智能体通过与环境交互,不断改进自身策略,最大化收到的累计奖赏。经典的强化学习方法多基于值函数,但是基于值函数的方法对于连续动作的任务难以处理,并且有"策略退化"现象。因此近些年来基于策略搜索的方法得到显著发展。策略梯度方法是策略搜索的一类重要方法,基于策略参数梯度来更新策略。在策略梯度方法中,策略往往使用线性模型表示,导致系统受到线性模型表示能力有限的约束。而泛函梯度在监督学习中能够用于产生非参模型,基于泛函梯度的Boosting类方法已成为监督学习代表性方法之一。然而泛函梯度在强化学习中研究较少。本文就泛函梯度在策略梯度方法中的使用开展研究,主要作出了以下工作:首先,设计了基于泛函梯度的策略梯度方法PolicyBoost,可学习决策树等复杂模型的组合,避免了以往需要手动设计线性特征的缺点。其次,本文证明了在一定条件下,PolicyBoost的收敛性。针对理论分析得到可能出现的过拟合现象,通过引入基线和构建采样池,缓解了过拟合的问题。最后,本文在强化学习中的经典任务Mountain Car、Acrobot、以及具有挑战性的直升机悬停控制任务的实验,验证了提出的算法效果优良并且稳定。
[Abstract]:Reinforcement learning is one of the important research directions of machine learning, which aims to make agents improve their own strategies and maximize the accumulated reward by interacting with the environment. Most of the classical reinforcement learning methods are based on the value function, but the method based on the value function is difficult to deal with the task of continuous action, and has the phenomenon of "policy degradation". Therefore, the strategy-based search method has been developed significantly in recent years. Policy gradient method is one of the most important methods in policy search, which updates the strategy based on the policy parameter gradient. In the strategy gradient method, the strategy is usually represented by linear model, which results in the system being constrained by the limited representation ability of linear model. Functional gradient can be used to generate non-parametric models in supervised learning. The Boosting class method based on functional gradient has become one of the representative methods of supervised learning. However, there is little research on functional gradient in reinforcement learning. In this paper, the use of functional gradient method in strategic gradient method is studied. The main work is as follows: firstly, the combination of PolicyBoost, learning decision tree and other complex models based on functional gradient method is designed. It avoids the disadvantage of manual design of linear features in the past. Secondly, we prove the convergence of PolicyBoost under certain conditions. Aiming at the possible over-fitting phenomenon in theoretical analysis, the over-fitting problem is alleviated by introducing the baseline and constructing the sample pool. Finally, the experiments of classical task Mountain Car,Acrobot, and challenging helicopter hover control task in reinforcement learning show that the proposed algorithm is effective and stable.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 刘木;黄知超;钟奕;范兴明;杨升振;;一种改进的梯度方向角的圆检测方法[J];电子设计工程;2011年18期

2 高智;仲思东;;基于梯度方向角量化的匹配新算法[J];计算机工程;2007年22期

3 生海迪;段会川;孔超;;词袋模型中梯度方向离散精度阈值经验分析[J];计算机工程与设计;2014年09期

4 汪旭东;贾渊;;基于概率密度梯度方向的角点重定位技术[J];计算机应用;2010年02期

5 李立春,冯卫东,于起峰;根据边缘梯度方向的十字丝目标快速自动检测[J];光学技术;2004年03期

6 胡海鸥;祝建中;;一种边点梯度方向引导的光滑边段提取方法[J];计算机工程与应用;2011年16期

7 郭军;周晖;朱长仁;肖顺平;;基于梯度方向二进制模式的空间金字塔模型方法[J];国防科技大学学报;2014年02期

8 王健;王孝通;徐晓刚;李博;;基于梯度的随机Hough快速圆检测方法[J];计算机应用研究;2006年08期

9 裴沛;;基于边缘梯度方向的图像二值化方法[J];计算机与现代化;2013年05期

10 王静;蒋爱德;;基于投影函数和梯度方向的快速人眼定位方法[J];科技信息(学术研究);2007年25期

相关会议论文 前5条

1 赵淼;王珂;庄严;王伟;;基于梯度方向双边对称性的旋转人脸中心跟踪[A];2005年中国智能自动化会议论文集[C];2005年

2 王健;王孝通;徐晓刚;李博;;一种新的基于随机Hough变换的圆检测算法[A];第十二届全国图象图形学学术会议论文集[C];2005年

3 李士进;熊辉;陆建峰;杨静宇;;一种稳健的人脸检测方法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年

4 金英俊;王铁军;;开孔梯度泡沫弹塑性性质的三维数值模拟[A];2009年度全国复合材料力学研讨会论文集[C];2009年

5 邓海峰;苗振江;;基于梯度直方图的行人检测算法的改进[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

相关博士学位论文 前2条

1 苏亚艺;基于房价梯度的城市居住功能疏解研究[D];中国农业大学;2015年

2 戚建强;离心—凝胶成型工艺制备气孔梯度陶瓷[D];中国建筑材料科学研究总院;2007年

相关硕士学位论文 前5条

1 李耀;复杂环境中的车牌定位算法研究[D];南京邮电大学;2015年

2 许丹;方差相关的策略梯度方法研究[D];苏州大学;2016年

3 侯鹏飞;基于泛函梯度的策略梯度方法的研究[D];南京大学;2017年

4 刘美霞;面向复杂脑神经纤维结构重建的处理方法研究[D];天津大学;2012年

5 杨小上;基于梯度方向特征的行人检测[D];东北师范大学;2012年



本文编号:2468376

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2468376.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8a672***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com