强化学习在移动机器人自主导航中的应用研究

发布时间：2021-04-12 01:00

　　近年以来,机器人学越来越多地出现在各个领域之中,成为学界和业界的关注对象。机器人技术是现代科学理论与实践综合交叉的成果,是融合各个学科和技术的一门交叉学科。其中自主移动机器人是机器人学的一个重要分支。在工农业生产和社会服务中,自主移动机器人都参与其中。移动机器人作为综合各个门类的学科,包括了传感器技术,驱动技术,红外技术,机械技术等等,但在移动机器人相关技术的研究中,导航技术是其研究核心,是为机器人学所创,也是机器人学术界和工业界研究的热点。机器人导航是所有自主导航机器人的技术基础,也是重中之重。所有需要完成一定任务的机器人都是需要首先完成导航任务的,例如:室内扫地机器人,需要首选完成室内建图、然后路径规划、最后导航,最后完成扫地的任务;又如安防机器人,通常也是将各项功能都置于导航任务之上,如在导航过程中检测行人,按照指定路线行走等。本论文主要借助强化学习和深度学习技术中的两种算法,加以改进后应用到机器人导航中,并最终在自制的机器人3D仿真环境中进行验证。本论文主要工作叙述如下:（1）说明了仿真环境的搭建过程,以及对仿真环境的优化,并测试了其正确性。（2）保留原DQN在图像处理上的优越...

【文章来源】：电子科技大学四川省 211工程院校 985工程院校教育部直属院校

【文章页数】：77 页

【学位级别】：硕士

【部分图文】：

三层感知机

过程图,卷积,过程,卷积核

电子科技大学硕士学位论文1、卷积结构卷积是通过两个函数f，g生成第三个函数的一种数学算子，表征着与经过翻转和平移的重叠部分的面积。数学定义如下：h(x)=f(x)g(x)=f(t)g(xt),dt在卷积神经网络中是用了离散卷积，在输入的对应位置进行加权运算。这个过程中使用到的卷积算子就是卷积核，卷积核确定了对输入中进行加权的范围和权值。卷积过程如下：图2-2卷积过程上图演示了3*3卷积进行步长为3的卷积并得到特征图的过程。2、感受野与权值共享卷积过程是一个特征提取的过程，也是参数简化并同时使得网络具有位移、尺度、缩放等形变稳定性的过程。这主要得益于局部感受野和权值共享。3、局部感受野：由于图像中像素，存在局部的空间联系，所以，神经元不需要对全部的图像做运算，只是接受局部区域的特征即可，在更高层，将不同的局部神经元进一步综合，以得到全局的信息，这样可以减少连接数目。4、权值共享：不同神经元之间的参数共享可以减少需要求解的参数，使用多种卷积核去卷积图像会得到多种特征映射。权值共享就是对图像用同样的卷积核进行操作，使得第一个隐藏层的所有神经元都能检测到图像不同位置处的同类特征，这就是神经网络具有较好的平移不变性的基矗2.1.3自编码网络自编码网络（AutoEncoder）是无监督神经网络的一种，由1986年Rumelhart提出。自编码网络主要用于处理无标注数据，其由三层或大于三层的全连接层结构组成，在形式上呈现对称的结构。下图即为一个三层的自编码网络。其中Layer1为输入层，Layer3为输出层。输出层神经元数量完全和输入层相同，隐藏层数量少于输入输出，当隐藏层不只有一层时，隐藏层呈现神经元数量逐层递减又对称增加的规律。10

强化学习在移动机器人自主导航中的应用研究

三层自编码网络

【参考文献】：
期刊论文
[1]模仿学习方法综述及其在机器人领域的应用[J]. 李帅龙,张会文,周维佳.  计算机工程与应用. 2019(04)
[2]基于ORB特征和LK光流的视觉里程计算法[J]. 齐乃新,杨小冈,李小峰,张胜修,曹立佳.  仪器仪表学报. 2018(12)
[3]BDS卡尔曼滤波网格伪距差分定位精度分析[J]. 余梦洋,秘金钟,方书山,谷守周,刘一,张洪文,宋传峰,王俊.  导航定位学报. 2018(04)
[4]改进卡尔曼滤波的对流层散射多径噪声抑制方法[J]. 吴文溢,熊益波,王雷元,李艳洁,陈西宏.  探测与控制学报. 2018(05)
[5]自主移动机器人路径规划方法研究综述[J]. 皇甫淑云,唐守锋,童紫原,宋彬,童敏明.  软件导刊. 2018(10)
[6]基于多传感器融合的多旋翼无人机近地面定位算法[J]. 王洲,杨明欣,王新媛.  成都信息工程大学学报. 2018(03)
[7]全方位移动机器人研究综述[J]. 贾茜,汪木兰,刘树青,朱钢.  制造业自动化. 2015(07)
[8]基于K-means算法的温室移动机器人导航路径识别[J]. 高国琴,李明.  农业工程学报. 2014(07)
[9]基于惯性导航与立体视觉的风管清扫机器人同时定位与地图创建方法[J]. 王聪,孙炜,卜德旭,周志伟.  机械工程学报. 2013(23)
[10]室内惯性/视觉组合导航地面图像分割算法[J]. 汪剑鸣,王曦,王胜蓓,李士心,冷宇.  中国惯性技术学报. 2011(05)

硕士论文
[1]基于深度环境理解和行为模仿的强化学习智能体设计[D]. 喻杉.浙江大学 2019
[2]基于轨迹匹配的模仿学习在类人机器人运动行为中的研究[D]. 门玉森.北京工业大学 2016
[3]基于地面特征识别的室内机器人视觉导航[D]. 杜娟.武汉理工大学 2006

本文编号：3132294

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/lindaojc/3132294.html

上一篇：决策要素动态变化的群体决策偏好演化过程
下一篇：考虑可信度的犹豫模糊多属性决策方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|