方差相关的策略梯度方法研究
本文关键词:方差相关的策略梯度方法研究
更多相关文章: 强化学习 方差相关 策略梯度 时间差分 POMDP
【摘要】:强化学习作为机器学习的一个重要分支,它允许智能体直接与环境进行交互,并且可以在无标签数据以及模型未知的情况下进行自主在线学习。目前绝大多数强化学习算法的目标是最大化平均奖赏或者长期累积(折扣)奖赏,但是对于控制、金融以及医疗诊断等风险敏感的问题,在最大化上述目标的同时应该考虑控制奖赏的方差,使得整个控制或者学习过程更加稳定。本文着眼于风险敏感的强化学习问题,将方差相关的风险评估标准引入策略梯度方法中,提出方差相关的策略梯度算法。主要研究可以概括为以下三部分:(1)当离策略行动者-评论家算法采用探索性强的行为策略时,它的方差会增加,往往不能满足风险敏感问题对于方差的要求。针对此问题,将方差相关的风险评估标准引入该算法中,提出一种方差相关的离策略行动者-评论家算法—VOPAC。从理论上分析了算法的收敛性,并通过一个复杂的连续状态空间控制问题验证算法在控制方差方面的有效性。(2)时间差分与资格迹是强化学习中解决时间信度分配问题的非常有效的方法,并且被广泛运用于各种强化学习算法中。基于真实在线TD(?)算法,引入方差相关风险评估标准,提出一种方差相关的策略梯度时间差分算法—VPGTD(?)。从理论上证明了该算法的向前观点与向后观点的完全一致,并通过一个情节式的连续状态空间控制问题验证算法在控制方差方面的有效性。(3)上述两个研究是基于MDP模型的,对于POMDP模型,由于其对环境的感知是不准确的,所以不确定性更强,方差更大。针对此问题,将带中间状态的策略梯度算法结合值函数方法,提出带中间状态的行动者-评论家算法—ACIS,并从理论上分析算法的收敛性。基于此引入方差控制机制,提出一种带中间状态的方差相关行动者-评论家算法—VACIS,并通过实验验证算法在降低方差方面的性能。
【关键词】:强化学习 方差相关 策略梯度 时间差分 POMDP
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【目录】:
- 中文摘要4-5
- Abstract5-10
- 第一章 引言10-17
- 1.1 研究背景及意义10-12
- 1.2 研究现状12-14
- 1.3 研究内容14-15
- 1.4 论文组织结构15-17
- 第二章 背景知识17-26
- 2.1 马尔科夫决策过程17-19
- 2.2 部分可观测马尔科夫决策过程19-20
- 2.3 方差相关风险评估标准20-21
- 2.4 强化学习基本方法21-25
- 2.4.1 时间差分方法21-22
- 2.4.2 策略梯度方法22-24
- 2.4.3 行动者-评论家方法24-25
- 2.5 本章小结25-26
- 第三章 方差相关的离策略行动者-评论家算法26-42
- 3.1 离策略行动者-评论家算法26-32
- 3.1.1 离策略方法26-27
- 3.1.2 离策略方法的奖赏方差27-31
- 3.1.3 近似策略梯度方法31-32
- 3.2 方差相关的离策略行动者-评论家算法32-37
- 3.2.1 VOPAC算法32-36
- 3.2.2 算法收敛性分析36-37
- 3.3 实验及结果分析37-41
- 3.3.1 Pinball实验描述37-38
- 3.3.2 实验结果及分析38-41
- 3.4 本章小结41-42
- 第四章 方差相关的策略梯度时间差分算法42-56
- 4.1 时间差分与资格迹42-46
- 4.1.1 n步TD预测42-43
- 4.1.2 向前观点43-44
- 4.1.3 向后观点44-46
- 4.2 方差相关的策略梯度时间差分算法46-51
- 4.2.1 VPGTD(l )46-49
- 4.2.2 向后与向前观点一致性分析49-51
- 4.3 实验及结果分析51-54
- 4.3.1 Acrobot实验描述52-53
- 4.3.2 实验结果及分析53-54
- 4.4 本章小结54-56
- 第五章 带中间状态的方差相关行动者-评论家算法56-73
- 5.1 带中间状态的POMDP模型56-60
- 5.1.1 中间状态56-58
- 5.1.2 带中间状态的策略梯度方法58-59
- 5.1.3 POMDP模型中方差相关策略梯度方法59-60
- 5.2 带中间状态的方差相关行动者-评论家算法60-67
- 5.2.1 ACIS算法60-63
- 5.2.2 VACIS算法63-65
- 5.2.3 算法收敛性分析65-67
- 5.3 实验及结果分析67-72
- 5.3.1 Load-Unload与Navigation实验描述67-69
- 5.3.2 ACIS算法实验及结果分析69-71
- 5.3.3 VACIS算法实验及结果分析71-72
- 5.4 本章小结72-73
- 第六章 总结与展望73-76
- 6.1 总结73-74
- 6.2 展望74-76
- 参考文献76-81
- 攻读硕士学位期间公开发表(录用)的论文及参与的项目81-82
- 一、公开发表(录用)的学术论文81
- 二、专利81
- 三、参加的科研项目81-82
- 致谢82-83
【相似文献】
中国期刊全文数据库 前10条
1 刘木;黄知超;钟奕;范兴明;杨升振;;一种改进的梯度方向角的圆检测方法[J];电子设计工程;2011年18期
2 高智;仲思东;;基于梯度方向角量化的匹配新算法[J];计算机工程;2007年22期
3 生海迪;段会川;孔超;;词袋模型中梯度方向离散精度阈值经验分析[J];计算机工程与设计;2014年09期
4 汪旭东;贾渊;;基于概率密度梯度方向的角点重定位技术[J];计算机应用;2010年02期
5 李立春,冯卫东,于起峰;根据边缘梯度方向的十字丝目标快速自动检测[J];光学技术;2004年03期
6 胡海鸥;祝建中;;一种边点梯度方向引导的光滑边段提取方法[J];计算机工程与应用;2011年16期
7 郭军;周晖;朱长仁;肖顺平;;基于梯度方向二进制模式的空间金字塔模型方法[J];国防科技大学学报;2014年02期
8 王健;王孝通;徐晓刚;李博;;基于梯度的随机Hough快速圆检测方法[J];计算机应用研究;2006年08期
9 裴沛;;基于边缘梯度方向的图像二值化方法[J];计算机与现代化;2013年05期
10 王静;蒋爱德;;基于投影函数和梯度方向的快速人眼定位方法[J];科技信息(学术研究);2007年25期
中国重要会议论文全文数据库 前5条
1 赵淼;王珂;庄严;王伟;;基于梯度方向双边对称性的旋转人脸中心跟踪[A];2005年中国智能自动化会议论文集[C];2005年
2 王健;王孝通;徐晓刚;李博;;一种新的基于随机Hough变换的圆检测算法[A];第十二届全国图象图形学学术会议论文集[C];2005年
3 李士进;熊辉;陆建峰;杨静宇;;一种稳健的人脸检测方法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
4 金英俊;王铁军;;开孔梯度泡沫弹塑性性质的三维数值模拟[A];2009年度全国复合材料力学研讨会论文集[C];2009年
5 邓海峰;苗振江;;基于梯度直方图的行人检测算法的改进[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 苏亚艺;基于房价梯度的城市居住功能疏解研究[D];中国农业大学;2015年
2 戚建强;离心—凝胶成型工艺制备气孔梯度陶瓷[D];中国建筑材料科学研究总院;2007年
中国硕士学位论文全文数据库 前4条
1 李耀;复杂环境中的车牌定位算法研究[D];南京邮电大学;2015年
2 许丹;方差相关的策略梯度方法研究[D];苏州大学;2016年
3 刘美霞;面向复杂脑神经纤维结构重建的处理方法研究[D];天津大学;2012年
4 杨小上;基于梯度方向特征的行人检测[D];东北师范大学;2012年
,本文编号:708023
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/708023.html