基于分层强化学习的多agent路径规划与编队方法研究

发布时间：2017-08-19 22:19

本文关键词：基于分层强化学习的多agent路径规划与编队方法研究

【摘要】：多agent系统的研究是当今人工智能和自动化控制领域的最前沿方向。多agent系统在各行各业中都表现出了极大的应用性,其自身所具有的分布性、鲁棒性强以及良好的协作性和适应性等优点是单个agent系统所不具备的。在实际应用中,多agent一般工作在未知动态环境中,环境中各种动、静态障碍物的状况是agent所不知道的,在处理这些突发情况的时候就要求agent具有较强感知环境和适应环境的能力,强化学习的无环境模型学习能力使agent具有了自学习和在线学习的能力,得到了越来越多研究者们的重视。但是,强化学习最大的缺陷就是遇到复杂任务的时候会出现“维数灾难”的问题。为了解决强化学习的“维数灾难”问题提出了分层强化学习算法,它以半马尔科夫决策为基础通过“抽象机制”把整个学习任务划分成不同层次的子任务,对状态空间降维,来解决“维数灾难”问题。其经典的算法有HAM、MAXQ和Option。最后,本文运用分层强化学习的思想来解决多agent系统中路径规划和编队控制问题,其主要工作概括如下:(1)从路径规划算法收敛速度慢及效率低、适应性差的角度出发,提出了一种基于分层强化学习及人工势场的多agent路径规划算法。首先,对环境中的人工势场进行离差标准化处理构建环境的先验知识,以此可以得到一个目标点具有最大势能,障碍物区域势能值为零的单调递增的曲面。最后,多agent以构建的先验知识为基础,利用分层强化学习的思想,使算法具有任务分层和良好的在线学习能力及自动划分子任务的能力,从而更加适应未知动态环境中路径规划任务。算法依次在出租车问题和中视典三维仿真平台中进行了验证,结果显示多agent对未知环境适应性强,算法的收敛速度快且稳定。(2)针对现阶段多agent编队控制中常出现的环境适应性差、agent无自学习能力和收敛速度慢等问题,本文提出了一种基于分层强化学习及CMAC神经网络的多agent动态编队方法。首先,在多agent动态编队中,引入“抽象机制”把整个任务分为根任务协作层,动作子任务选择层和基本动作执行层三个任务层次对状态空间降维和学习任务分解。其次,利用CMAC神经网络可以作为状态泛化方法和分层强化学习中的Q-学习方法相结合,通过状态变量的分割降级来减少CMAC空间存储量,再利用若干降级后CMAC分别逼近学习状态的Q函数来实现连续状态的泛化,加快算法的学习速率。最后,算法在中视典三维仿真平台验证其可行性,在matlab中证明了算法收敛速度快且稳定。
【关键词】：多agent系统 路径规划 编队控制 分层强化学习 人工势场 神经网络
【学位授予单位】：河南师范大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP18;TP273
【目录】：

摘要4-6
ABSTRACT6-10
第一章绪论10-20
1.1 研究背景及意义10-11
1.2 国内外研究现状11-18
1.2.1 多agent系统路径规划国内外研究现状11-15
1.2.2 多agent系统编队国内外研究现状15-18
1.3 本文主要研究内容18
1.4 文章结构安排18-20
第二章分层强化学习理论基础20-32
2.1 引言20-21
2.2 强化学习21-25
2.2.1 强化学习思想21-22
2.2.2 马尔可夫决策论22
2.2.3 强化学习的主要算法22-25
2.3 分层强化学习理论25-30
2.3.1 半马尔科夫决策过程25-26
2.3.2 分层与抽象26
2.3.3 典型分层强化学习方法26-30
2.4 本章总结30-32
第三章基于人工势场及分层强化学习的多agent路径规划方法32-44
3.1 引言32
3.2 改进分层强化学习算法32-34
3.3 HRLA算法34-38
3.3.1 人工势场离差标准化处理34-35
3.3.2 算法定义35-36
3.3.3 算法描述36-37
3.3.4 HRLA值函数更新算法37-38
3.4 实验仿真与分析38-42
3.5 三维仿真平台仿真42-43
3.6 本章小结43-44
第四章基于分层强化学习及CMAC神经网络的多agent编队方法44-56
4.1 引言44
4.2 改进分层强化学习方法44-46
4.3 基于CMAC神经网络的Q学习算法46-48
4.4 具有分层强化学习机制的多agent编队系统控制结构48-50
4.5 MFRL算法50-52
4.6 仿真实验结果及其分析52-54
4.6.1 实验结果52-53
4.6.2 仿真结果与分析53-54
4.7 本章小结54-56
第五章全文总结与未来展望56-58
5.1 全文总结56-57
5.2 未来展望57-58
参考文献58-64
致谢64-66
攻读硕士学位期间的科研成果66-67

【相似文献】

中国期刊全文数据库前10条

1 李秀英;;网络环境下学生学习的特点[J];教师;2009年04期

2 夏定海,黄智英;教会学习学会学习终身学习[J];发明与革新;2000年06期

3 黄启兵;汪芳;;论网络时代学习与创新的统一[J];教学研究;2002年03期

4 陈相安;把档案部门建成学习型组织[J];中国档案;2003年09期

5 顾新,蔡兵,李久平;学习与学习型社会[J];软科学;2004年02期

6 郑军;试论编辑的学习特征[J];中国编辑;2005年06期

7 邱晓荣,孔一童;试论网络环境中的合作学习[J];当代教育论坛;2005年02期

8 冷平,王仁蓉,刁永锋;网络学习的成功要素探析[J];教育信息化;2005年03期

9 张建光;朱秀娥;张笑双;;网络学习社区的特征和构建[J];中国教育技术装备;2006年03期

10 徐晓涌;;创建学习型企业莫入误区[J];中国邮政;2006年02期

中国重要会议论文全文数据库前10条

1 韩文;;让合作学习在逆境中重生[A];中华教育理论与实践科研论文成果选编（第2卷）[C];2010年

2 吕启春;;浅谈小学数学中的小组合作学习[A];2014年1月现代教育教学探索学术交流会论文集[C];2014年

3 杜俊娟;;用学习动机培养策略课题的学习对体育教师进行研究性学习培养的实验研究[A];第七届全国体育科学大会论文摘要汇编（一）[C];2004年

4 瞿春波;;浅议合作学习之误区[A];校园文学编辑部写作教学年会论文集[C];2007年

5 时龙;;把握分析学情是改进教学和促进学习的基础[A];2012·学术前沿论丛——科学发展：深化改革与改善民生（下）[C];2012年

6 韦彩红;;如何组织学生共享学习成果[A];中华教育理论与实践科研论文成果选编（第2卷）[C];2010年

7 格保耿;;培养学生学习物理的兴趣[A];2014年5月现代教育教学探索学术交流会论文集[C];2014年

8 钮荣荣;;关于小学数学教学中小组合作学习的几点思考[A];2014年6月现代教育教学探索学术交流会论文集[C];2014年

9 陈妙;;让数学课堂效率得到真正的提高——浅谈新课改下学生学习兴趣的培养[A];中华教育理论与实践科研论文成果选编（第3卷）[C];2010年

10 黄春妙;;浅谈语文课堂合作学习的有效把握[A];中华教育理论与实践科研论文成果选编（第3卷）[C];2010年

中国重要报纸全文数据库前10条

1 农行浙江东阳支行吴新国周龙飞;银行如何创建学习型组织[N];上海金融报;2003年

2 西北师范大学李瑾瑜;校长：如何引领和促进教师学习[N];中国教育报;2008年

3 永寿县店头中学刘俊锋;大力提倡合作学习全面促进有效教学[N];咸阳日报;2009年

4 本报评论员;要在真学习上下功夫[N];酒泉日报;2009年

5 本报记者李天然;学习应该是一种终身行为[N];大连日报;2010年

6 刘继芳;浅议建设学习型党组织中的“学习”内涵[N];伊犁日报(汉);2010年

7 哈尔滨市第五医院蒙硕;浅谈医院创建学习型党组织[N];黑龙江日报;2010年

8 翟爱霞;浅谈如何深入推进学习型党组织建设[N];太行日报;2011年

9 李振上海交通大学国际与公共事务学院;制度变迁中的制度学习[N];中国社会科学报;2012年

10 重庆市教育评估院院长、中国高等教育学会学习科学研究分会常务副会长龚春燕;实施新学习，建设学习型社会[N];中国教育报;2013年

中国博士学位论文全文数据库前10条

1 徐峰;基于社会网络的大学生学习网络结构研究[D];江西财经大学;2014年

2 付亦宁;本科生深层学习过程及其教学策略研究[D];苏州大学;2014年

3 张钰e，

本文编号：703271

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/703271.html

上一篇：皮带运输机的温度与烟雾监测系统的研究
下一篇：基于BOTDR的分布式温度和应变传感系统的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|