基于DDPG算法的船舶避碰路径规划研究

发布时间：2021-07-09 15:17

　　随着内河水运业的快速发展,运输船舶日渐增加,船舶航行安全受到越来越多的关注。船舶避碰作为船舶航行安全的核心问题,逐渐成为当前众多学者研究的热点。深度强化学习是一种通过与环境交互学习得到优秀策略的算法,目前在车辆自动驾驶领域研究中取得了突破性的进展。船舶避碰的过程与车辆的自动驾驶具有很高的相似性,部分在车辆驾驶领域的研究成果可以应用到船舶避碰研究中。本文主要采用了基于深度确定性策略梯度（Deep Deterministic Policy Gradient,简称DDPG）的强化学习算法,并结合船舶航行特征,对船舶的智能避碰路径规划开展了研究。本文通过构建“天地图”与船舶自动识别系统融合的狭窄水域船舶领域数学模型,建立了高度真实的船舶避碰仿真环境,开展基于DDPG算法的船舶避碰路径规划研究。为提高游船船舶领域的精确度,本文基于周庄水域实际航道环境,并结合AIS数据和人为观测数据构建了改进的游船船舶领域模型。为搭建基于DDPG算法的船舶避碰路径规划框架,本文设计了 DDPG算法的状态、动作、奖励值以及神经网络结构;通过在训练中模拟船舶的各种会遇场景,实现了船舶在不同会遇场景下的避碰路径规划;针...

【文章来源】：苏州大学江苏省 211工程院校

【文章页数】：81 页

【学位级别】：硕士

【部分图文】：

基于DDPG算法的船舶避碰路径规划研究

图２．４?Ａｃｔｏｒ－Ｃｒｉｔｉｃ算法框架??

框架图,路径规划,船舶,策略

ｉｅｎｔ）为基础丨４＞１，足－种??确定性策略的算法。确定性策略选取动作的方式与随机性策略不同，随机性策略??选取动作时服从一定的概率分布，即在状态心时按照概率分布函数冲（ａｔ｜ｓｔ）选取??动作ａｔ；而确定性策略输出动作唯－，在当前策略Ｋ状态ｓｔ对应一个确定的动作??ａｔ。与随机性策略相比，确定性策略具有采样数据讀少，算法效书高的优点。??ＤＤＰＧ算法借鉴了?ＤＱＮ算法的成功经验，使用深度神经Ｍ络拟合策略和价??值函数，运用经验丨＂丨放和Ｈ标Ｎ络技术提高算法的收敛性与稳走性。??图２．６为应用Ｌ）Ｉ）ＰＧ实现船舶避碰路径规划的框架：??ａｃｔｏｒ?ｃｒｉｔｉｃ??更新参数?“策略梯度?更新参数?“?Ｑ梯度??０＂?ｊ?Ｓ＇！??『上，丄■?』：＼输山动仏?ｏｎｉｅ策略网络?［＊??ＯＴｌｉｎｅａ网络??腳酬亚腿?，?＜３？－?参数ｆ?？参数ｆ??丨删＿￣￣丨账補Ａ??ｒ￣——＾根据策?￣￣Ｔ—－Ｈ——??及１４?软更新１?略选择动作輸出４?ｉ软更新??ｔａｒｇｅｔ策略网络?＾?ｔａｒｇｅｔ?Ｑ网络??ｒ￣根据＿（策￣１?；败＂广???Ｔ?略选择动作?］［???存储（ｋａｂｆＶｗＳｍ）????、??????［Ｓｉ／３＇ｆ?ｒ?？?：，?ｓ？ｉ?］???？经验池?Ｎ?［Ｓｉ，ａｉ；ｒ－：，Ｓｉ．ｉ］??＾?＾随机采样?Ｉ?［ｓ．＇ａｋ，ｒ．－，．ｓ，．＇ｊ??Ｍｉｎｉｂａｔｃｈ??图２．６?ＤＤＰＧ实现船舶避碰路径规划的框架??如图２．６，?ＤＤＰＧ算法通过与船舶路径规划环境交互获得样本数据??〇ｔ，ｃｚｔ，ｒｔ＋１，ｓｔ＋１），汴

流程图,路径规划,船舶,流程图

?ｅｐｉｓｏｄｅ＝０?储存经验至经验池??丁????￣＜＾ｅｐｉｓｏｄｅ＜Ｍ?从经验池中随机选??择?ｍｉｎｉｂａｔｃｈｉＪ?丨丨练??——＿?Ｔ??（々士?由ｅｐｉｓｏｄｅ＝ｅｐｉｓｏｄｅ＋ｌ??－口?￥?Ｊ?ｓｔｅｐ＝０?更新ｃｒｉｔｉｃ估计网络??ｒ?；?１」??初始化随机Ｈ某声Ｎ?更新ａｒｔ〇ｒｔｔ计网络??人?■?Ｉ??获取初始状态Ｓ?软更新ｃｒｉｔｉｃ和ａｃｔ?ｏｒ????目标网络??ｓｔｅｐ＝ｓｔｅｐ＋ｌ??￣Ｉ????图２．７基于ＤＤＰＧ的船舶避碰路径规划流程图??２．３本章小结??本章主要介绍／强化学习的理论？础以及Ｄ［）ＰＧ算法，强化学习的理论基??础主要包括马尔可夫决策过程和强化学习的分类。ＤＤＰＧ算法则主要介绍了??ＤＱＮ算法和ＤＤＰＧ船舶避碰路径规划原理。ＤＱＮ算法是一种基Ｔ？值函数的深??度强化学习算法，无法应用于连续的动作空Ｎ：?Ｉ）［）ＰＧ以ＤＰＧ算法为基础，借??鉴了?ＤＱＮ算法的成功经验，解决ｆＤＱＮ算：法无法成用连续动作空Ｎ的问题。??船舶进行避碰路径规划时需根据水域环境信息采収连续的动作，所以本文采用??ＤＤＰＧ算法可以学习到船舶避碰路径规划的优秀策略。??１３??

【参考文献】：
期刊论文
[1]复杂水域船舶智能避碰专家系统设计[J]. 汤国瑞,谢新连,潘伟.  船海工程. 2019(03)
[2]基于扩展博弈理论的船舶自动避碰决策系统[J]. 孔祥生,卜仁祥,刘勇.  计算机仿真. 2019(05)
[3]基于混合遗传算法的船舶避碰路径规划[J]. 倪生科,刘正江,蔡垚,王欣.  上海海事大学学报. 2019(01)
[4]基于进化算法的船舶避碰轨迹建模[J]. 刘超.  西安文理学院学报(自然科学版). 2018(04)
[5]优化深度确定性策略梯度算法[J]. 柯丰恺,周唯倜,赵大兴.  计算机工程与应用. 2019(07)
[6]基于重抽样优选缓存经验回放机制的深度强化学习方法[J]. 陈希亮,曹雷,李晨溪,徐志雄,何明.  控制与决策. 2018(04)
[7]谷歌TensorFlow机器学习框架及应用[J]. 章敏敏,徐和平,王晓洁,周梦昀,洪淑月.  微型机与应用. 2017(10)
[8]基于遗传算法的船舶避碰决策辅助[J]. 倪生科,刘正江,蔡垚,王欣.  上海海事大学学报. 2017(01)
[9]基于改进蚁群算法的水面无人艇智能避碰方法研究[J]. 尚明栋,朱志宇,周涛.  船舶工程. 2016(09)
[10]人工鱼群算法的避碰路径规划决策支持[J]. 马文耀,吴兆麟,杨家轩,李伟峰.  中国航海. 2014(03)

硕士论文
[1]船舶路径规划算法的研究[D]. 宋勇.武汉理工大学 2018

本文编号：3273990

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/chuanbolw/3273990.html

上一篇：基于MongoDB的舰桥SCADA系统实时数据库构建
下一篇：羟基自由基快速氧化降解饮用水中致嗅物质研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|