基于DDPG算法的船舶避碰路径规划研究
发布时间:2021-07-09 15:17
随着内河水运业的快速发展,运输船舶日渐增加,船舶航行安全受到越来越多的关注。船舶避碰作为船舶航行安全的核心问题,逐渐成为当前众多学者研究的热点。深度强化学习是一种通过与环境交互学习得到优秀策略的算法,目前在车辆自动驾驶领域研究中取得了突破性的进展。船舶避碰的过程与车辆的自动驾驶具有很高的相似性,部分在车辆驾驶领域的研究成果可以应用到船舶避碰研究中。本文主要采用了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,简称DDPG)的强化学习算法,并结合船舶航行特征,对船舶的智能避碰路径规划开展了研究。本文通过构建“天地图”与船舶自动识别系统融合的狭窄水域船舶领域数学模型,建立了高度真实的船舶避碰仿真环境,开展基于DDPG算法的船舶避碰路径规划研究。为提高游船船舶领域的精确度,本文基于周庄水域实际航道环境,并结合AIS数据和人为观测数据构建了改进的游船船舶领域模型。为搭建基于DDPG算法的船舶避碰路径规划框架,本文设计了 DDPG算法的状态、动作、奖励值以及神经网络结构;通过在训练中模拟船舶的各种会遇场景,实现了船舶在不同会遇场景下的避碰路径规划;针...
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2.4?Actor-Critic算法框架??
ient)为基础丨4>1,足-种??确定性策略的算法。确定性策略选取动作的方式与随机性策略不同,随机性策略??选取动作时服从一定的概率分布,即在状态心时按照概率分布函数冲(at|st)选取??动作at;而确定性策略输出动作唯-,在当前策略K状态st对应一个确定的动作??at。与随机性策略相比,确定性策略具有采样数据讀少,算法效书高的优点。??DDPG算法借鉴了?DQN算法的成功经验,使用深度神经M络拟合策略和价??值函数,运用经验丨"丨放和H标N络技术提高算法的收敛性与稳走性。??图2.6为应用L)I)PG实现船舶避碰路径规划的框架:??actor?critic??更新参数?“策略梯度?更新参数?“?Q梯度??0"?j?S'!??『上,丄■?』:\输山动仏?onie策略网络?[*??OTlinea网络??腳酬亚腿?,?<3?-?参数f??参数f??丨删_ ̄ ̄丨账補A??r ̄——^根据策? ̄ ̄T—-H——??及14?软更新1?略选择动作輸出4?i软更新??target策略网络?^?target?Q网络??r ̄根据_(策 ̄1?;败"广???T?略选择动作?][???存储(kabfVwSm)????、??????[Si/3'f?r???:,?s?i?]????经验池?N?[Si,ai;r-:,Si.i]??^?^随机采样?I?[s.'ak,r.-,.s,.'j??Minibatch??图2.6?DDPG实现船舶避碰路径规划的框架??如图2.6,?DDPG算法通过与船舶路径规划环境交互获得样本数据??〇t,czt,rt+1,st+1),汴
?episode=0?储存经验至经验池??丁???? ̄<^episode<M?从经验池中随机选??择?minibatchiJ?丨丨练??——_?T??(々士?由episode=episode+l??-口?¥?J?step=0?更新critic估计网络??r?;?1」??初始化随机H某声N?更新art〇rtt计网络??人?■?I??获取初始状态S?软更新critic和act?or????目标网络??step=step+l?? ̄I????图2.7基于DDPG的船舶避碰路径规划流程图??2.3本章小结??本章主要介绍/强化学习的理论?础以及D[)PG算法,强化学习的理论基??础主要包括马尔可夫决策过程和强化学习的分类。DDPG算法则主要介绍了??DQN算法和DDPG船舶避碰路径规划原理。DQN算法是一种基T?值函数的深??度强化学习算法,无法应用于连续的动作空N:?I)[)PG以DPG算法为基础,借??鉴了?DQN算法的成功经验,解决fDQN算:法无法成用连续动作空N的问题。??船舶进行避碰路径规划时需根据水域环境信息采収连续的动作,所以本文采用??DDPG算法可以学习到船舶避碰路径规划的优秀策略。??13??
【参考文献】:
期刊论文
[1]复杂水域船舶智能避碰专家系统设计[J]. 汤国瑞,谢新连,潘伟. 船海工程. 2019(03)
[2]基于扩展博弈理论的船舶自动避碰决策系统[J]. 孔祥生,卜仁祥,刘勇. 计算机仿真. 2019(05)
[3]基于混合遗传算法的船舶避碰路径规划[J]. 倪生科,刘正江,蔡垚,王欣. 上海海事大学学报. 2019(01)
[4]基于进化算法的船舶避碰轨迹建模[J]. 刘超. 西安文理学院学报(自然科学版). 2018(04)
[5]优化深度确定性策略梯度算法[J]. 柯丰恺,周唯倜,赵大兴. 计算机工程与应用. 2019(07)
[6]基于重抽样优选缓存经验回放机制的深度强化学习方法[J]. 陈希亮,曹雷,李晨溪,徐志雄,何明. 控制与决策. 2018(04)
[7]谷歌TensorFlow机器学习框架及应用[J]. 章敏敏,徐和平,王晓洁,周梦昀,洪淑月. 微型机与应用. 2017(10)
[8]基于遗传算法的船舶避碰决策辅助[J]. 倪生科,刘正江,蔡垚,王欣. 上海海事大学学报. 2017(01)
[9]基于改进蚁群算法的水面无人艇智能避碰方法研究[J]. 尚明栋,朱志宇,周涛. 船舶工程. 2016(09)
[10]人工鱼群算法的避碰路径规划决策支持[J]. 马文耀,吴兆麟,杨家轩,李伟峰. 中国航海. 2014(03)
硕士论文
[1]船舶路径规划算法的研究[D]. 宋勇.武汉理工大学 2018
本文编号:3273990
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2.4?Actor-Critic算法框架??
ient)为基础丨4>1,足-种??确定性策略的算法。确定性策略选取动作的方式与随机性策略不同,随机性策略??选取动作时服从一定的概率分布,即在状态心时按照概率分布函数冲(at|st)选取??动作at;而确定性策略输出动作唯-,在当前策略K状态st对应一个确定的动作??at。与随机性策略相比,确定性策略具有采样数据讀少,算法效书高的优点。??DDPG算法借鉴了?DQN算法的成功经验,使用深度神经M络拟合策略和价??值函数,运用经验丨"丨放和H标N络技术提高算法的收敛性与稳走性。??图2.6为应用L)I)PG实现船舶避碰路径规划的框架:??actor?critic??更新参数?“策略梯度?更新参数?“?Q梯度??0"?j?S'!??『上,丄■?』:\输山动仏?onie策略网络?[*??OTlinea网络??腳酬亚腿?,?<3?-?参数f??参数f??丨删_ ̄ ̄丨账補A??r ̄——^根据策? ̄ ̄T—-H——??及14?软更新1?略选择动作輸出4?i软更新??target策略网络?^?target?Q网络??r ̄根据_(策 ̄1?;败"广???T?略选择动作?][???存储(kabfVwSm)????、??????[Si/3'f?r???:,?s?i?]????经验池?N?[Si,ai;r-:,Si.i]??^?^随机采样?I?[s.'ak,r.-,.s,.'j??Minibatch??图2.6?DDPG实现船舶避碰路径规划的框架??如图2.6,?DDPG算法通过与船舶路径规划环境交互获得样本数据??〇t,czt,rt+1,st+1),汴
?episode=0?储存经验至经验池??丁???? ̄<^episode<M?从经验池中随机选??择?minibatchiJ?丨丨练??——_?T??(々士?由episode=episode+l??-口?¥?J?step=0?更新critic估计网络??r?;?1」??初始化随机H某声N?更新art〇rtt计网络??人?■?I??获取初始状态S?软更新critic和act?or????目标网络??step=step+l?? ̄I????图2.7基于DDPG的船舶避碰路径规划流程图??2.3本章小结??本章主要介绍/强化学习的理论?础以及D[)PG算法,强化学习的理论基??础主要包括马尔可夫决策过程和强化学习的分类。DDPG算法则主要介绍了??DQN算法和DDPG船舶避碰路径规划原理。DQN算法是一种基T?值函数的深??度强化学习算法,无法应用于连续的动作空N:?I)[)PG以DPG算法为基础,借??鉴了?DQN算法的成功经验,解决fDQN算:法无法成用连续动作空N的问题。??船舶进行避碰路径规划时需根据水域环境信息采収连续的动作,所以本文采用??DDPG算法可以学习到船舶避碰路径规划的优秀策略。??13??
【参考文献】:
期刊论文
[1]复杂水域船舶智能避碰专家系统设计[J]. 汤国瑞,谢新连,潘伟. 船海工程. 2019(03)
[2]基于扩展博弈理论的船舶自动避碰决策系统[J]. 孔祥生,卜仁祥,刘勇. 计算机仿真. 2019(05)
[3]基于混合遗传算法的船舶避碰路径规划[J]. 倪生科,刘正江,蔡垚,王欣. 上海海事大学学报. 2019(01)
[4]基于进化算法的船舶避碰轨迹建模[J]. 刘超. 西安文理学院学报(自然科学版). 2018(04)
[5]优化深度确定性策略梯度算法[J]. 柯丰恺,周唯倜,赵大兴. 计算机工程与应用. 2019(07)
[6]基于重抽样优选缓存经验回放机制的深度强化学习方法[J]. 陈希亮,曹雷,李晨溪,徐志雄,何明. 控制与决策. 2018(04)
[7]谷歌TensorFlow机器学习框架及应用[J]. 章敏敏,徐和平,王晓洁,周梦昀,洪淑月. 微型机与应用. 2017(10)
[8]基于遗传算法的船舶避碰决策辅助[J]. 倪生科,刘正江,蔡垚,王欣. 上海海事大学学报. 2017(01)
[9]基于改进蚁群算法的水面无人艇智能避碰方法研究[J]. 尚明栋,朱志宇,周涛. 船舶工程. 2016(09)
[10]人工鱼群算法的避碰路径规划决策支持[J]. 马文耀,吴兆麟,杨家轩,李伟峰. 中国航海. 2014(03)
硕士论文
[1]船舶路径规划算法的研究[D]. 宋勇.武汉理工大学 2018
本文编号:3273990
本文链接:https://www.wllwen.com/kejilunwen/chuanbolw/3273990.html