基于深度强化学习的无人救援船目标追踪研究
发布时间:2020-12-07 07:10
随着海洋强国战略的加快实施与海洋经济的迅猛发展,涉海产业日益繁荣,涉海活动日益频繁,各类海难事故时有发生。随着无人船的发展,海上无人救援技术也受到广泛关注。本文将无人船应用于海上救援场景,在获取遇险目标位置的条件下,研究无人救援船自主追踪并靠近漂移遇险目标的驾驶决策模型。针对参与救援行动的无人船数量不同,分别研究单救援船目标追踪驾驶决策模型以及多救援船协同目标追踪驾驶决策模型,协同追踪涉及协调任务分配、协调避碰的问题。本文从强化学习的角度对该问题进行分析研究,难点在于训练算法的环境平台搭建。由于在真实环境中训练算法有一定的危险性,本文基于ROS和Gazebo搭建海上救援物理仿真平台,对救援环境进行场景模拟。考虑双体船航行稳定性好、甲板宽敞便于搭载更多救援设备的优点,本文以双体船作为研究对象,在Gazebo中加载双体船机器人模型,并通过ROS创建传递驾驶指令的通讯网络,实现对无人船的运动控制。在单船救援场景中,将目标追踪过程通过马尔科夫决策过程进行描述,定义环境状态空间、动作空间以及奖励函数。引入具有经验回放机制的DDPG深度强化学习算法训练优化驾驶决策模型,模型训练的样本数据来自Gaz...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图1.1国内外具有代表性的无人船??
救援船??加载该模型便可以对感知到的环境态势快速做出驾驶行为响应,无需规划环节。??2.1深度学习及其训练方法??深度学习(Deep?Learning)的概念是由Hitton首次提出[41],是机器学习的分支,它??可以看作是一种神经网络。深度强化学习算法中的深度学习部分主要起函数逼近的作??用,包括策略逼近、值函数逼近等。??2.?1.1前馈神经网络??神经元是构成前馈神经网络(Feedforward?Neural?Networks,?FNNs)的基本单元,又??称作感知机,如图2.1(a)所示,感知机的输出计算包括权重、偏置、激活函数3个基本??概念。权重作用于样本输入x,或者上一层网络的输出的数据,这些参数在模型训练的??过程中根据输入的重要程度不断调整其大校偏置是对输入与权重相乘后的结果引入一??个线性的分量,实现对乘积的偏移。激活函数为阈值函数,对累加偏置处理的结果做非??线性变换,常用的激活函数有:Sigmoid,?Tanh,Relu,Softmax等。??\w2?——?——????/w"?‘?;?izj?LL??y?'?,?隐藏层??xn?b??⑷感知机模型?(b)神经网络实例??(a)?Perceptron?model?(b)?Neural?network?example??图2.1神经元结构和多层神经网络结构??Fig.?2.1?Neuron?stmcture?and?multilayer?neural?network?structure??-8?-??
?基于深度强化学习的无人救援船目标追踪研究???本x(">输入给FNN,得到网络输出为j)w,其在数据集P上的结构化风险函数为:??沱0.6)=丄f?⑷,夕⑷)+丄A?||妒G?(2.5)??N?^?2??其中,||F||丨是正则化项,用来防止过拟合,A是为正数的超参数,A越大,则F越??接近0。有了学习准则与学习样本,计算出损失函数乙,就可以通过梯度下降法来学习??网络参数,如图2.2所示,使/:的变化率这:趋近0,求解模型使网络参数达到最优。??计算梯度:dCfdw??网络参数更新:vv<—?iv—dCjd'v??1?丨?I???????????????????I?I?I??????????????????I?I?A???'?I?I???^??w—??a?a???????w??B??图2.2梯度下降法原理图??Fig.?2.2?Principle?diagram?of?gradient?descent?method??在每次迭代中,第/层的妒n参数和参数的更新方式为:??妒’—妒'一a^ ̄^-=W?'?丄?J]/:?y",j)n?+m'}?(2.6)??dW?丨?J??,,d7Z?W,b?,?f?i?^?^?j"?,7"??b'?—b!?_a?^ ̄?=?b'?-a?—V?;——?(2.7)??db1?8W1??其中,a表示学习率。实际求解过程中,函数的解往往不只一个,如图2.2中的A、??B点,算法经常会收敛到其中一个解,但是这个解可能不是全局最优解。这与学习率a??的设计有关。假设将学习率定为一个较小的值,那么在梯度接
本文编号:2902862
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图1.1国内外具有代表性的无人船??
救援船??加载该模型便可以对感知到的环境态势快速做出驾驶行为响应,无需规划环节。??2.1深度学习及其训练方法??深度学习(Deep?Learning)的概念是由Hitton首次提出[41],是机器学习的分支,它??可以看作是一种神经网络。深度强化学习算法中的深度学习部分主要起函数逼近的作??用,包括策略逼近、值函数逼近等。??2.?1.1前馈神经网络??神经元是构成前馈神经网络(Feedforward?Neural?Networks,?FNNs)的基本单元,又??称作感知机,如图2.1(a)所示,感知机的输出计算包括权重、偏置、激活函数3个基本??概念。权重作用于样本输入x,或者上一层网络的输出的数据,这些参数在模型训练的??过程中根据输入的重要程度不断调整其大校偏置是对输入与权重相乘后的结果引入一??个线性的分量,实现对乘积的偏移。激活函数为阈值函数,对累加偏置处理的结果做非??线性变换,常用的激活函数有:Sigmoid,?Tanh,Relu,Softmax等。??\w2?——?——????/w"?‘?;?izj?LL??y?'?,?隐藏层??xn?b??⑷感知机模型?(b)神经网络实例??(a)?Perceptron?model?(b)?Neural?network?example??图2.1神经元结构和多层神经网络结构??Fig.?2.1?Neuron?stmcture?and?multilayer?neural?network?structure??-8?-??
?基于深度强化学习的无人救援船目标追踪研究???本x(">输入给FNN,得到网络输出为j)w,其在数据集P上的结构化风险函数为:??沱0.6)=丄f?⑷,夕⑷)+丄A?||妒G?(2.5)??N?^?2??其中,||F||丨是正则化项,用来防止过拟合,A是为正数的超参数,A越大,则F越??接近0。有了学习准则与学习样本,计算出损失函数乙,就可以通过梯度下降法来学习??网络参数,如图2.2所示,使/:的变化率这:趋近0,求解模型使网络参数达到最优。??计算梯度:dCfdw??网络参数更新:vv<—?iv—dCjd'v??1?丨?I???????????????????I?I?I??????????????????I?I?A???'?I?I???^??w—??a?a???????w??B??图2.2梯度下降法原理图??Fig.?2.2?Principle?diagram?of?gradient?descent?method??在每次迭代中,第/层的妒n参数和参数的更新方式为:??妒’—妒'一a^ ̄^-=W?'?丄?J]/:?y",j)n?+m'}?(2.6)??dW?丨?J??,,d7Z?W,b?,?f?i?^?^?j"?,7"??b'?—b!?_a?^ ̄?=?b'?-a?—V?;——?(2.7)??db1?8W1??其中,a表示学习率。实际求解过程中,函数的解往往不只一个,如图2.2中的A、??B点,算法经常会收敛到其中一个解,但是这个解可能不是全局最优解。这与学习率a??的设计有关。假设将学习率定为一个较小的值,那么在梯度接
本文编号:2902862
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2902862.html