基于强化学习的移动机器人路径规划研究

发布时间：2017-05-08 11:16

本文关键词：基于强化学习的移动机器人路径规划研究，，由笔耕文化传播整理发布。

【摘要】：随着移动机器人技术的飞速发展,应用于未知环境下的移动机器人路径规划技术得到了越来越多专家的关注与研究。强化学习是一种重要的机器学习方法,通过不断试错与环境交互寻找最优策略。针对未知环境下的移动机器人路径规划问题,研究基于强化学习的移动机器人路径规划。首先,针对强化学习机器人面临的探索与利用间的权衡问题,设计一种基于近似动作空间模型策略选择的Q-学习算法。该方法根据机器人运动过程中周围的环境信息,降低机器人真实动作空间模型的复杂程度,提高计算效率。与传统的动作选择策略相比,基于近似动作模型的策略选择方法能够得到一条更加优化的路径,且提高了机器人路径规划的成功率。然后,针对复杂动态环境下的机器人路径规划问题,采用分层强化学习的方法,将路径规划系统从上至下分为根任务协作层、子任务选择层和环境交互层三层结构,并将路径规划任务划分为静态障碍物避障、动态障碍物避障及趋向目标点运动三个基本子任务,减小状态空间以及系统学习的难度。最后,搭建移动机器人系统的软硬件平台,在Ubuntu操作系统和ROS(Robot Operating System,机器人操作系统)软件框架下,实现数据通信,并设计Pioneer3-AT移动机器人的三维仿真模型和三维仿真环境,实现基于强化学习的移动机器人路径规划的三维仿真实验,然后结合Pioneer3-AT移动机器人进行实物实验。实验结果证明移动机器人在未知环境下通过自主学习能够自主运动到达目标点。
【关键词】：移动机器人 路径规划 强化学习 近似动作模型 ROS
【学位授予单位】：西南交通大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP242
【目录】：

摘要6-7
Abstract7-10
第1章绪论10-15
1.1 课题背景与意义10-11
1.2 移动机器人路径技术研究现状11-12
1.3 强化学习方法研究现状12-13
1.4 课题的主要工作与内容安排13-15
第2章强化学习理论及算法15-25
2.1 强化学习原理15-21
2.1.1 马尔可夫决策过程15-16
2.1.2 强化学习模型与基本要素16-18
2.1.3 强化学习的基本算法18-21
2.2 分层强化学习基本原理21-24
2.2.1 半马尔可夫决策过程21-22
2.2.2 分层强化学习的最优策略22
2.2.3 分层强化学习基本算法22-24
2.3 本章小结24-25
第3章基于近似动作空间模型的Q-学习算法25-36
3.1 动作选择策略的主要方法25-27
3.1.1 ε-greedy策略25
3.1.2 Boltzmann分布策略25-26
3.1.3 模拟退火策略26-27
3.2 基于近似动作模型策略选择的Q-学习算法27-28
3.3 仿真实验设计28-30
3.3.1 环境模型28-29
3.3.2 动作空间的表示29-30
3.3.3 奖赏函数的设计30
3.3.4 动作选择策略30
3.4 仿真结果与分析30-35
3.5 本章小结35-36
第4章基于分层强化学习的移动机器人路径规划36-46
4.1 分层强化学习结构设计36-37
4.2 移动机器人运动学模型37-38
4.3 环境信息的获取38-40
4.4 静态避障模块设计40-41
4.4.1 输入和输出状态空间设计40-41
4.4.2 奖赏函数的设计41
4.4.3 动作选择策略41
4.5 动态避障模块设计41-43
4.5.1 输入和输出状态空间设计41-42
4.5.2 奖赏函数的设计42-43
4.6 仿真实验及结果分析43-45
4.7 本章小结45-46
第5章移动机器人系统设计及路径规划实验46-58
5.1 机器人硬件平台46-47
5.1.1 Pioneer3-AT机器人46
5.1.2 激光扫描测距仪46-47
5.2 机器人软件框架ROS47-49
5.2.1 ROS系统简介47-48
5.2.2 ROS系统结构48-49
5.3 基于ROS与Gazebo的机器人仿真49-52
5.3.1 Gazebo简介49-50
5.3.2 机器人仿真模型设计50-52
5.4 实验结果与分析52-57
5.4.1 三维仿真实验52-55
5.4.2 实物实验55-57
5.5 本章小结57-58
总结与展望58-59
致谢59-60
参考文献60-64
攻读硕士学位期间的论文及科研情况64

【参考文献】

中国期刊全文数据库前10条

1 刘金国;张学宾;曲艳丽;;欧盟“SPARC”机器人研发计划解析[J];机器人技术与应用;2015年02期

2 马磊;张文旭;戴朝华;;多机器人系统强化学习研究综述[J];西南交通大学学报;2014年06期

3 朱大奇;颜明重;;移动机器人路径规划技术综述[J];控制与决策;2010年07期

4 原魁;李园;房立新;;多移动机器人系统研究发展近况[J];自动化学报;2007年08期

5 谭冠政;贺欢;Aaron Sloman;;Global optimal path planning for mobile robot based onimproved Dijkstra algorithm and ant system algorithm[J];Journal of Central South University of Technology(English Edition);2006年01期

6 陈春林;陈宗海;卓睿;周光明;;基于分层式强化学习的移动机器人导航控制[J];南京航空航天大学学报;2006年01期

7 沈晶;顾国昌;刘海波;;分层强化学习中的Option自动生成算法[J];计算机工程与应用;2005年34期

8 王学宁,贺汉根,徐昕;求解部分可观测马氏决策过程的强化学习算法[J];控制与决策;2004年11期

9 高阳,陈世福,陆鑫;强化学习研究综述[J];自动化学报;2004年01期

10 李磊,叶涛,谭民,陈细军;移动机器人技术研究现状与未来[J];机器人;2002年05期

中国博士学位论文全文数据库前1条

1 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年

本文关键词：基于强化学习的移动机器人路径规划研究，由笔耕文化传播整理发布。

本文编号：351033

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/351033.html

上一篇：卷积神经网络在车标识别技术中的研究及其小样本下的处理策略
下一篇：基于改进蚁群算法的多机器人任务分配

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|