基于搜索熵的强化学习搜索策略分析及算法研究
本文关键词:基于搜索熵的强化学习搜索策略分析及算法研究
【摘要】:强化学习和大部分机器学习不同的地方,在于强化学习系统不是告诉智能体如何产生正确的动作,而是通过试错(Trial-and-Error)来发现哪些动作会产生最大的回报。这种非精确信息形式的反馈,更能满足在信息缺乏的环境或者动态环境中的控制要求。强化学习不仅是人工智能和机器人学习领域的重点研究方向,也在运动控制、移动机器人路径规划等领域具有相当强的适用性。强化学习模仿人类在未知环境中自然的学习方式,以目标为导向,在智能体与环境的交互的过程中,通过试错式的动作和感知环境响应的反馈来学习到最优解。强化学习的过程,本质上也是与环境交互来进行知识完备的过程。而在这个过程中,动作选择机制既需要利用已经学习到的知识,也需要探索未知的知识。搜索(Exploration)和利用(Exploitation)各有利弊,这二者之间的平衡是影响智能体对环境的理解程度以及对算法性能优化程度的关键之一。本文详尽分析了强化学习中的经典搜索策略:随机游走、贪心算法、Softmax方法以及概率动作选择机制。针对目前缺少搜索策略分析工具的问题,基于强化学习是降低选择动作不确定度的过程,提出搜索熵(Exploration Entropy,EE)概念,来对强化学习的搜索策略进行定量的分析与描述,并给出基于EE判定算法终止的条件。并在实际案例应用中,演示了搜索熵作为一个定量分析工具对搜索和利用之间的平衡以及算法性能的分析作用。在实验部分,采用不同搜索策略,分别对一个确定马尔可夫过程状态转移问题和一个较为复杂的微观自旋量子系统的学习控制问题进行数值仿真,从宏观和微观两方面的应用来验证搜索熵的适用性。进一步论证了搜索熵作为分析强化学习搜索策略的工具,可以为分析算法性能提供一个有效的参考指标。
【关键词】:强化学习 搜索策略 搜索熵
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【目录】:
- 摘要5-7
- ABSTRACT7-11
- 第一章 绪论11-18
- 1.1 研究背景和意义11-12
- 1.2 国内外研究现状及分析12-16
- 1.2.1 强化学习的研究现状及分析12-15
- 1.2.2 搜索策略的研究现状及分析15-16
- 1.3 论文的结构安排16-18
- 第二章 强化学习18-28
- 2.1 强化学习的理论基础18-23
- 2.1.1 马尔可夫决策过程19-20
- 2.1.2 强化学习的模型20-23
- 2.2 强化学习中的经典算法23-27
- 2.2.1 瞬时差分算法24-25
- 2.2.2 Q-Learning算法25-27
- 2.3 本章小结27-28
- 第三章 搜索熵28-46
- 3.1 搜索策略28-34
- 3.1.1 搜索与利用的平衡28-30
- 3.1.2 典型搜索策略30-34
- 3.2 搜索熵34-40
- 3.2.1 熵:从热力学到信息学的物理量34-37
- 3.2.2 搜索熵定义及性质37-40
- 3.3 搜索熵在算法分析中的应用40-44
- 3.4 本章小结44-46
- 第四章 仿真实验46-67
- 4.1 实验一:马尔可夫状态转移问题46-56
- 4.1.1 盲贪心策略48-49
- 4.1.2 贪心策略49-51
- 4.1.3 混合贪心策略51-52
- 4.1.4 Softmax方法52-54
- 4.1.5 概率分布动作选择机制54-56
- 4.2 实验二:自旋量子系统的学习控制问题56-65
- 4.2.1 盲搜索策略58-59
- 4.2.2 贪心策略59-61
- 4.2.3 混合贪心策略61-63
- 4.2.4 概率分布动作选择机制63-65
- 4.3 实验结论65-67
- 第五章 总结与展望67-69
- 5.1 总结67-68
- 5.2 展望68-69
- 致谢69-70
- 参考文献70-73
【相似文献】
中国期刊全文数据库 前10条
1 那一沙,徐炳亭;搜索策略及其技术实现[J];天津大学学报;2001年05期
2 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期
3 郑启富;刘化章;;迭代全息搜索策略及其在动力学参数估计中的应用[J];高校化学工程学报;2007年03期
4 杨仁广;孟祥增;;网络多媒体主题搜索策略研究[J];中国科技资源导刊;2009年02期
5 欧阳柳波,李学勇,李国徽,王鑫;网络蜘蛛搜索策略进展研究[J];小型微型计算机系统;2005年04期
6 盛轶君;胡_g;;纳什均衡在电脑围棋多层博弈搜索策略中的应用[J];沿海企业与科技;2006年04期
7 张越;芦东昕;;面向目标的博弈搜索策略及其应用[J];计算机技术与发展;2007年03期
8 李昊;;基于图搜索策略的数独问题算法与实现[J];通化师范学院学报;2009年10期
9 陈永彬;张琢;张添;;一种基于蚁群算法的主题爬虫搜索策略[J];微型机与应用;2011年01期
10 谢剑斌;刘通;王金岩;何亦征;;基于快速递推和搜索策略的优化2维熵分割算法[J];中国图象图形学报;2008年04期
中国重要会议论文全文数据库 前3条
1 汪秉宏;;网络交通流中的路由搜索策略及相变[A];第四届全国网络科学学术论坛暨研究生暑期学校论文集[C];2008年
2 王典乐;任照峰;牟灵泉;;基于并行计算和网络应用的暖通空调CAD搜索策略应用探讨[A];全国暖通空调制冷2002年学术年会论文集[C];2002年
3 何立居;李启华;;基于蚁群算法的航线自动生成研究[A];中国航海科技优秀论文集[C];2009年
中国博士学位论文全文数据库 前1条
1 高霖;社会网络动态性及网络环境中的分布式搜索策略研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 陈竺宏;基于搜索熵的强化学习搜索策略分析及算法研究[D];南京大学;2016年
2 晏仲琦;复杂网络中局部搜索策略的研究[D];湖北大学;2012年
3 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
4 郑健珍;定题爬虫搜索策略研究[D];厦门大学;2007年
5 林强;位置无关多边形搜索策略的研究[D];兰州理工大学;2009年
6 蔺志峰;复杂网络的搜索策略研究[D];石家庄经济学院;2011年
7 逯广瑞;基于地理定位的协同缓存移动P2P网络资源搜索策略研究[D];哈尔滨工程大学;2013年
8 王学磊;基于JXTA的P2P资源搜索策略的研究与实现[D];大连理工大学;2008年
9 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
10 李俊宁;复杂疾病多位点关联分析中的错误率控制[D];清华大学;2005年
,本文编号:1113497
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1113497.html