基于深度强化学习的全向移动机器人导航算法

发布时间：2021-11-10 16:47

　　导航是智能机器人系统的核心技术,已成为当今众多学者的研究热点。深度强化学习作为提高移动机器人自适应能力的有效算法,在移动机器人自主导航领域有广泛的应用前景。本文以深度强化学习中的DDQN算法为核心,研究移动机器人在未知环境中的运动策略学习问题。论文首先分析了移动机器人导航算法与深度强化学习算法的国内外研究现状,对深度强化学习的基本原理、利用与探索问题、奖励值、经验回放机制与梯度下降等问题做出详尽描述。论文设计了以DDQN算法为核心的全向移动机器人导航理论框架,根据导航任务制定了一种距离导向奖励值,确定了DDQN的神经网络结构与算法训练流程。考虑到DDQN算法在前期收集训练数据时多采用随机策略,会限制算法收敛速度,论文采用了定向探索策略与玻尔兹曼探索策略对?-贪婪策略进行改进,以提高移动机器人前期探索的导向性,尽量获取高奖励值的训练数据。论文建立了Gym-ROS-Gazebo联合仿真环境,通过仿真实验训练基于DDQN的导航策略,验证算法的有效性。实验表明,论文定义的奖励值模型能够帮助机器人完成导航任务,改进后的动作选择策略能够在前期的探索中获取更高的奖励值,缩短完成训练所耗费的训练轮数,...

【文章来源】：青岛科技大学山东省

【文章页数】：72 页

【学位级别】：硕士

【部分图文】：

多层感知器模型

结构图,卷积,神经网络,结构图

青岛科技大学研究生学位论文11元的连接权值，f为激活函数。对于神经网络的训练通常使用反向传播算法[61](backpropagationalgorithm，BP)进行网络参数的更新，该算法的核心理念是通过梯度下降来降低网络的误差函数。该算法分为两步执行，分别为前向传播和反向传播两步，前向传播，则是信号由输入层传入，经过多层隐藏层后与输出层的结果进行比较，判断该结果是否满足预期，若误差函数过大则进行反向传播，将该误差信号层层传递到输入层，并通过梯度下降法对流经每层的神经元进行权值更新，最后使得该网络达到预期的输出结果，则在反向传播中损失函数为(2-4)所示：21)(),,(hjjljlhlEtyyyE4-2）（其中，第l层为输出层，jt为输出层第j个神经元的期望值。通过对损失函数进行一阶求导，获得网络参数的更新公式(2-5)111limlimlimE5-2）（其中，为学习率。2.1.2卷积神经网络在深度神经网络中由于网络结构复杂，所训练的参数过多，而导致无法得到有效的训练，这时需要卷积网络中的卷积和池化来降低参数的个数。卷积神经网络(convolutionalneuralnetwork，CNN)作为一种前馈人工神经网络，在图像分类与处理方面有着广泛的应用。该网络最早是由Hubel和Wiesel在研究猫脑皮层神经元中得到启发，进而提出的。在前一节多层感知器中几经介绍了全连接层的相关计算。所在本节利用卷积神经网络中最为经典的卷积网络lenet-5，如图2-3所示，对于卷积原理，卷积层，池化层进行详细的介绍。图2-3Lenet-5卷积神经网络结构图Fig.2-3Lenet-5Convolutionalneuralnetworkstructurediagram

二维图,卷积,二维,特征图

基于深度强化学习的全向移动机器人导航算法12(1)二维卷积原理卷积核的计算的用如下简图2-4所示，灰色底表为一个卷积过程。图2-4二维卷积图Fig.2-4Two-dimensionalconvolutiondiagram输入的图片为二维数组，使用二维卷积核由左到右对原图像进行卷积操作，当该行像素计算完成后切换到下一行，完成对整个图片的卷积操作。二维卷积公式如(2-6)所示：mnKIjiSjmiIinnmKj),(),(),)(*(),(6-2）（其中nmK),(为输入的二维卷积核，I(i+m,j+n)为输入的二维像素矩阵。(2)卷积层卷积层是通过卷积核对输入的图像进行特征学习，得到高层次的特征图。在lenet网络中，共有C1、C3、C5三层卷积层。通过输入层输入一张32x32像素大小的图片，通过C1层对输入的图片进行卷积操作(即二维卷积原理)，利用5X5的卷积核进行卷积操作后，将输入图像变成28x28像素的特征图，从输入层到C1层，供使用了6个不同卷积核进行卷积操作，不同的卷积核获得一张特征图，所以在C1层共有6张特征图。在池化层S2中有6个特征图，这些特征图通过对应的卷积核卷积得到C3卷积层中得到16个特征图。在C3卷积层中每个图层都有一个偏置，对于卷积层的计算可用如下公式(2-7)所示：)*(1liMjlijljlibkxfxj7-2）（其中，ljx表示第l层中的第j个特征图。lijk表示池化层中第j个特征图连接到卷积层第k个特征图的卷积核，lib为该卷积层的偏置，f为所设置的激活函数。在C5即第三层卷积层的计算与C3层一致，通过池化层S4后得到120个特征图，每个特征图与前一层的池化层S4中16张特征图相连。后面为最全连接层，输出最后的结果。(3)池化层池化层用于降低特征图的维度，对特征图中的有用信息进行二次提龋在

【参考文献】：
期刊论文
[1]改进蚁群算法在移动机器人避障中的应用[J]. 王雷,石鑫.  南京航空航天大学学报. 2019(05)
[2]基于改进快速扩展随机树算法的移动机器人路径规划[J]. 孙钦鹏,李猛,王中华.  济南大学学报(自然科学版). 2019(05)
[3]基于混合策略的移动机器人避障算法探究[J]. 张倩倩,余道洋,李民强.  控制工程. 2019(07)
[4]改进势场蚁群法的机器人避障及路径规划[J]. 任彦,赵海波,肖永健.  电光与控制. 2019(11)
[5]基于激光雷达信息的无人机避障控制研究[J]. 王海群,王水满,张怡.  激光杂志. 2019(12)
[6]基于Double-DQN的中央空调系统节能优化运行[J]. 闫军威,黄琪,周璇.  华南理工大学学报(自然科学版). 2019(01)
[7]基于改进蚁群算法的移动机器人路径规划研究[J]. 王志中.  机械设计与制造. 2018(01)
[8]深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 唐振韬,邵坤,赵冬斌,朱圆恒.  控制理论与应用. 2017(12)
[9]基于改进人工势场的矿井导航装置路径规划[J]. 田子建,高学浩,张梦霞.  煤炭学报. 2016(S2)
[10]基于强化学习的农业移动机器人视觉导航[J]. 周俊,陈钦,梁泉.  农业机械学报. 2014(02)

本文编号：3487593

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3487593.html

上一篇：离散型制造企业APS中的大规模车间调度问题研究
下一篇：机械臂专用伺服系统设计与抗扰策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|