基于强化学习的AUV避障研究

发布时间：2017-08-26 23:32

本文关键词：基于强化学习的AUV避障研究

【摘要】：21世纪是海洋的世纪,海洋中蕴含着丰富的资源和无穷的奥秘亟待人们前去探索。作为探索海洋的重要工具,自主水下机器人(Autonomous Underwater Vehicle,AUV)越来越受到海洋开发和研究人员的重视。AUV是具有智能行为的高级水下机器人,它具有活动范围广、机动灵活、隐蔽性好等特点,能够作业于复杂的海洋环境。在具备诸多优势的同时,AUV的应用也面临着一些挑战。由于作业范围较广且常常承担水下探索作业,因此AUV往往需要作业于未知的环境中,复杂且难以预测的水下环境,对AUV的控制提出了极高的要求。其中,在AUV的局部路径规划中,如何使AUV顺利避开障碍物,并顺利到达目标,是AUV控制系统研究中所面临的重要任务之一。在目前研究较多的诸多的避障方法中,人工势场、人工智能、强化学习等方法是应用最为广泛的几种。其中,强化学习的方法不需要先验知识,而且具有很强的自学习能力,所以特别适合应用到在未知环境下的避障,在AUV的避障中具有巨大的应用潜力。强化学习归属于机器学习,是机器学习中非常重要的一个分支。强化学习的过程是对环境进行反复的试探,类似于动物在对未知事物学习过程中经常采用的试错,通过学习来获得一种在该环境下最优的动作策略,从而获得最大的回报。与其他的学习策略相比,强化学习最大的优势就是不需要完备的先验知识甚至完全不需要先验知识,但依然能够保证较好的鲁棒性和自适应性。本文对基于强化学习的AUV二维平面避障方法进行了研究,首先研究了强化学习的系统结构和实现方法,接下来对强化学习中输入模块、输出模块及策略模块的具体实现方法进行了研究。文中研究了Q-学习的基本原理、算法和特点,针对Q-学习收敛速度慢的缺点,提出了改进办法,提高了学习效率。在传统的强化学习方法中,存在着维数灾难的问题,而解决维数灾难的一个方法就是将传统的强化学习方法进行泛化。本文在对Q-学习算法进行研究和改进的基础上,将神经网络应用于强化学习算法中,利用神经网络方法强大的非线性处理能力,来解决维数灾难问题,提出了基于CMAC网络的Q-学习算法,并将其应用于AUV避障问题的研究中。最后,本文以AUV在二维平面中的避障为背景进行了仿真实验,在实验中分别利用常规Q-学习算法与本文所提出的改进算法分别对AUV在二维平面中面对不同障碍时的避障路径进行了规划,实验结果验证了文中所提出改进算法的有效性。
【关键词】：强化学习 Q学习 避障 AUV 局部路径规划 神经网络
【学位授予单位】：沈阳建筑大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP242
【目录】：

摘要4-5
Abstract5-11
第一章绪论11-19
1.1 研究背景11-13
1.2 国内外研究现状和发展趋势13-14
1.3 AUV避障方法概述14-15
1.3.1 人工势场法14
1.3.2 人工智能法14-15
1.3.3 强化学习法15
1.4 强化学习法研究现状15-16
1.5 论文主要研究内容16-19
第二章强化学习算法研究19-31
2.1 引言19-20
2.2 强化学习模型20-22
2.2.1 强化学习模型20-21
2.2.2 强化学习基本要素21-22
2.3 马尔科夫决策过程22-25
2.3.1 马尔科夫决策过程22-23
2.3.2 策略和值函数23-25
2.4 强化学习主要问题25
2.4.1 在线学习和离线学习25
2.4.2 延迟的回报25
2.4.3 探索与利用25
2.5 强化学习主要算法25-30
2.5.1 蒙特卡罗方法26
2.5.2 时间差分TD法26-28
2.5.3 Q学习28-29
2.5.4 SARSA学习29
2.5.5 Dyna学习框架29-30
2.5.6 Actor-Critic学习30
2.6 小结30-31
第三章Q学习算法改进研究31-37
3.1 引言31
3.2 Q学习算法及其收敛性研究31-32
3.3 Q学习算法主要问题32-34
3.3.1 收敛速度问题32-33
3.3.2 信度分配问题33
3.3.3 探索与利用平衡问题33-34
3.4 Q(λ)学习34-35
3.5 小结35-37
第四章基于CMAC网络的Q学习算法研究37-47
4.1 引言37
4.2 BP神经网络37-42
4.2.1 BP网络的学习算法37-41
4.2.2 BP网络的设计41-42
4.3 CMAC神经网络42-43
4.4 基于神经网络的Q学习框架43-44
4.5 基于CMAC的Q学习算法44
4.6 小结44-47
第五章基于改进Q学习的AUV避障研究47-55
5.1 引言47
5.2 仿真实验设计47-48
5.2.1 环境状态表示47
5.2.2 动作空间表示47
5.2.3 奖赏函数设计47-48
5.2.4 动作选择策略设计48
5.3 仿真实验流程48-49
5.4 仿真结果与分析49-53
5.5 小结53-55
第六章结论55-57
6.1 结论55
6.2 展望55-57
参考文献57-59
作者简介59
作者在攻读硕士学位期间发表的学术论文59-61
致谢61-62

【相似文献】

中国期刊全文数据库前10条

1 耶晓东;;简易避障机器人的设计[J];仪器仪表用户;2009年01期

2 ;盲人安全避障仪[J];技术与市场;2009年06期

3 曹瑞青;张莉;;;图书自动小车避障功能的设计[J];装备制造技术;2009年07期

4 黄淞;蒋雪峰;张贵冰;杨文杰;;智能语音识别避障机器人的研究与设计[J];科技风;2009年11期

5 程虹霞;骆云志;朱松柏;张春华;;多传感器信息融合技术在无人平台避障中的应用[J];兵工自动化;2010年06期

6 pvcbot;;避障小车[J];电子制作;2011年07期

7 梁山;刘娟;鲜晓东;;一种考虑机器人尺寸约束的动态窗避障方法[J];控制工程;2011年06期

8 刘天军;毛建秋;支波浩;武谦;朱达杰;段俊杰;;基于“慧鱼”创意组合模型的避障机器人的设计与制作[J];常州工学院学报;2012年02期

9 田国会;王家超;段朋;;病房巡视机器人复杂环境下的避障技术研究[J];华中科技大学学报(自然科学版);2013年S1期

10 马宏伟;王川伟;;煤矿救援探测机器人转向及避障机理研究[J];制造业自动化;2014年04期

中国重要会议论文全文数据库前8条

1 王世军;韩立伟;杨宏斌;王力;;基于雷达的无人车路径规划与避障研究[A];2013第一届中国指挥控制大会论文集[C];2013年

2 丁锐;喻俊志;杨清海;谭民;;基于红外传感器的两栖机器人智能避障控制[A];2009年中国智能自动化会议论文集（第七分册）[南京理工大学学报（增刊）][C];2009年

3 徐红丽;封锡盛;;基于事件反馈监控的AUV模糊避障方法研究[A];2007'仪表，，自动化及先进集成技术大会论文集（二）[C];2007年

4 吴倚龙;韦洋;郝卫东;;移动机器人导航和避障系统硬件的设计[A];2004全国光学与光电子学学术研讨会、2005全国光学与光电子学学术研讨会、广西光学学会成立20周年年会论文集[C];2005年

5 王军;钟志军;黄心汉;;两轮小车避障控制的仿真研究[A];1996中国控制与决策学术年会论文集[C];1996年

6 吕春峰;朱建平;;Dijkstra算法在移动机器人路径规划和避障中的应用[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年

7 张淼;汪懋华;林建涵;姚岚;;移动机器人超声波测距与避障系统的试验研究[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第一分册[C];2005年

8 刘征宇;夏海;毕翔;张利;;嵌入式技术在多功能小车设计中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用（CACIS）学术会议论文集（下册）[C];2006年

中国重要报纸全文数据库前2条

1 记者胡加齐;墨西哥发明盲人电子避障装置[N];新华每日电讯;2000年

2 本报记者柳艳芳;让学生感受创造的魅力[N];天津教育报;2009年

中国博士学位论文全文数据库前7条

1 王家亮;基于小型四轴飞行器OS/JVM的室内避障/导航研究与实现[D];东北大学;2014年

2 朱立华;无人飞行器自主检测与避障技术研究[D];东南大学;2016年

3 姚玉峰;8自由度轮式移动操作机避障能力及其运动规划方法研究[D];哈尔滨工业大学;2009年

4 姚立健;茄子收获机器人视觉系统和机械臂避障规划研究[D];南京农业大学;2008年

5 戴光明;避障路径规划的算法研究[D];华中科技大学;2004年

6 范红;智能机器人路径规划及避障的研究[D];浙江大学;2003年

7 李寿涛;基于行为的智能体避障控制以及动态协作方法研究[D];吉林大学;2007年

中国硕士学位论文全文数据库前10条

1 雷远春;未知环境下多智能体协作避障方法的研究[D];宁夏大学;2015年

2 刘宗来;离子型稀土矿掘进选矿一体机掘进路径设计及避障研究[D];江西理工大学;2015年

3 张煜;基于多传感器数据融合的无人车避障导航研究[D];西安工业大学;2015年

4 殷林飞;多飞行器编队三维避障算法研究[D];南昌航空大学;2015年

5 陆薇;基于超声波传感器的模糊避障算法仿真[D];河北科技大学;2014年

6 张桥;多传感器信息融合技术在智能车辆避障中的应用[D];重庆交通大学;2015年

7 周钰雨;未知环境条件下机器人的避障研究[D];沈阳工业大学;2016年

8 杨维;基于单目视觉的旋翼无人机自主避障研究[D];湖南工业大学;2015年

9 吕丹丹;适用于小型智能车的行驶路况评价及自主避障控制研究[D];北京交通大学;2016年

10 韩信;基于双目视觉的轮式机器人动态避障研究[D];浙江大学;2016年

本文编号：743248

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/743248.html

上一篇：定位尺度和像元空间关系对GF-1亚像元定位精度影响分析
下一篇：基于多传感器信息融合的目标检测及应用技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|