基于深度强化学习的无人救援船目标追踪研究

发布时间：2020-12-07 07:10

　　随着海洋强国战略的加快实施与海洋经济的迅猛发展,涉海产业日益繁荣,涉海活动日益频繁,各类海难事故时有发生。随着无人船的发展,海上无人救援技术也受到广泛关注。本文将无人船应用于海上救援场景,在获取遇险目标位置的条件下,研究无人救援船自主追踪并靠近漂移遇险目标的驾驶决策模型。针对参与救援行动的无人船数量不同,分别研究单救援船目标追踪驾驶决策模型以及多救援船协同目标追踪驾驶决策模型,协同追踪涉及协调任务分配、协调避碰的问题。本文从强化学习的角度对该问题进行分析研究,难点在于训练算法的环境平台搭建。由于在真实环境中训练算法有一定的危险性,本文基于ROS和Gazebo搭建海上救援物理仿真平台,对救援环境进行场景模拟。考虑双体船航行稳定性好、甲板宽敞便于搭载更多救援设备的优点,本文以双体船作为研究对象,在Gazebo中加载双体船机器人模型,并通过ROS创建传递驾驶指令的通讯网络,实现对无人船的运动控制。在单船救援场景中,将目标追踪过程通过马尔科夫决策过程进行描述,定义环境状态空间、动作空间以及奖励函数。引入具有经验回放机制的DDPG深度强化学习算法训练优化驾驶决策模型,模型训练的样本数据来自Gaz...

【文章来源】：大连海事大学辽宁省 211工程院校

【文章页数】：75 页

【学位级别】：硕士

【部分图文】：

图１．１国内外具有代表性的无人船??

神经元,神经网络,激活函数

救援船??加载该模型便可以对感知到的环境态势快速做出驾驶行为响应，无需规划环节。??２．１深度学习及其训练方法??深度学习（Ｄｅｅｐ?Ｌｅａｒｎｉｎｇ）的概念是由Ｈｉｔｔｏｎ首次提出［４１］，是机器学习的分支，它??可以看作是一种神经网络。深度强化学习算法中的深度学习部分主要起函数逼近的作??用，包括策略逼近、值函数逼近等。??２．?１．１前馈神经网络??神经元是构成前馈神经网络（Ｆｅｅｄｆｏｒｗａｒｄ?Ｎｅｕｒａｌ?Ｎｅｔｗｏｒｋｓ，?ＦＮＮｓ）的基本单元，又??称作感知机，如图２．１（ａ）所示，感知机的输出计算包括权重、偏置、激活函数３个基本??概念。权重作用于样本输入ｘ，或者上一层网络的输出的数据，这些参数在模型训练的??过程中根据输入的重要程度不断调整其大校偏置是对输入与权重相乘后的结果引入一??个线性的分量，实现对乘积的偏移。激活函数为阈值函数，对累加偏置处理的结果做非??线性变换，常用的激活函数有：Ｓｉｇｍｏｉｄ，?Ｔａｎｈ，Ｒｅｌｕ，Ｓｏｆｔｍａｘ等。??＼ｗ２?——?——??？?／ｗ＂?‘?；?ｉｚｊ?ＬＬ??ｙ?＇?，?隐藏层??ｘｎ?ｂ??⑷感知机模型?（ｂ）神经网络实例??（ａ）?Ｐｅｒｃｅｐｔｒｏｎ?ｍｏｄｅｌ?（ｂ）?Ｎｅｕｒａｌ?ｎｅｔｗｏｒｋ?ｅｘａｍｐｌｅ??图２．１神经元结构和多层神经网络结构??Ｆｉｇ．?２．１?Ｎｅｕｒｏｎ?ｓｔｍｃｔｕｒｅ?ａｎｄ?ｍｕｌｔｉｌａｙｅｒ?ｎｅｕｒａｌ?ｎｅｔｗｏｒｋ?ｓｔｒｕｃｔｕｒｅ??－８?－??

原理图,梯度下降法,原理图,网络参数

?基于深度强化学习的无人救援船目标追踪研究???本ｘ（＂＞输入给ＦＮＮ，得到网络输出为ｊ）ｗ，其在数据集Ｐ上的结构化风险函数为：??沱０．６）＝丄ｆ?⑷，夕⑷）＋丄Ａ?｜｜妒Ｇ?（２．５）??Ｎ?＾?２??其中，｜｜Ｆ｜｜丨是正则化项，用来防止过拟合，Ａ是为正数的超参数，Ａ越大，则Ｆ越??接近０。有了学习准则与学习样本，计算出损失函数乙，就可以通过梯度下降法来学习??网络参数，如图２．２所示，使／：的变化率这：趋近０，求解模型使网络参数达到最优。??计算梯度：ｄＣｆｄｗ??网络参数更新：ｖｖ＜—?ｉｖ—ｄＣｊｄ＇ｖ??１?丨?Ｉ?？？？？?？？?？？?？？？？？??Ｉ?Ｉ?Ｉ?？？？？？？？?？？?？?？？??Ｉ?Ｉ?Ａ???＇?Ｉ?Ｉ???＾??ｗ—??ａ?ａ?？？?？？?ｗ??Ｂ??图２．２梯度下降法原理图??Ｆｉｇ．?２．２?Ｐｒｉｎｃｉｐｌｅ?ｄｉａｇｒａｍ?ｏｆ?ｇｒａｄｉｅｎｔ?ｄｅｓｃｅｎｔ?ｍｅｔｈｏｄ??在每次迭代中，第／层的妒ｎ参数和参数的更新方式为：??妒’—妒＇一ａ＾￣＾－＝Ｗ?＇?丄?Ｊ］／：?ｙ＂，ｊ）ｎ?＋ｍ＇｝?（２．６）??ｄＷ?丨?Ｊ??，，ｄ７Ｚ?Ｗ，ｂ?，?ｆ?ｉ?＾?＾?ｊ＂?，７＂??ｂ＇?—ｂ！?＿ａ?＾￣?＝?ｂ＇?－ａ?—Ｖ?；——?（２．７）??ｄｂ１?８Ｗ１??其中，ａ表示学习率。实际求解过程中，函数的解往往不只一个，如图２．２中的Ａ、??Ｂ点，算法经常会收敛到其中一个解，但是这个解可能不是全局最优解。这与学习率ａ??的设计有关。假设将学习率定为一个较小的值，那么在梯度接

本文编号：2902862

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/2902862.html

上一篇：基于特征金字塔网络的目标检测算法研究
下一篇：引入数控机床超低待机模式的作业车间绿色调度研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|