基于深度Q网络的水面无人艇路径规划算法
发布时间:2021-06-09 08:35
为实现水面无人艇(unmanned surface vessel, USV)在未知环境下的自主避障航行,提出一种基于深度Q网络的USV避障路径规划算法。该算法将深度学习应用到Q学习算法中,利用深度神经网络估计Q函数,有效解决传统Q学习算法在复杂水域环境的路径规划中容易产生维数灾难的问题。通过训练模型可有效地建立感知(输入)与决策(输出)之间的映射关系。依据此映射关系,USV在每个决策周期选择Q值最大的动作执行,从而能够成功避开障碍物并规划出最优路线。仿真结果表明,在迭代训练8 000次时,平均损失函数能够较好地收敛,这证明USV有效学习到了如何避开障碍物并规划出最优路线。该方法是一种不依赖模型的端到端路径规划算法。
【文章来源】:上海海事大学学报. 2020,41(03)北大核心
【文章页数】:6 页
【部分图文】:
仿真环境二维 直角坐标系
为简化仿真实验复杂度,仿真实验仅在模拟的水上障碍物静态环境中进行,在实验前期USV在不同的时间步与障碍物发生碰撞,环境给出惩罚,以降低下次出现相似状况的概率,有效指引USV选择最优策略。在上述4种仿真环境中的路径规划效果见图6。在训练开始时,USV会多次与障碍物发生碰撞且规划路径波动较大;在训练3 000次时,算法逐渐规划出安全路径,但此时路径并非最短,所耗费时间也较长;在训练5 000次时,系统可以有效避开障碍物,算法趋于平稳并逐渐规划出有效路径,所需时间也明显缩短;当训练8 000次时,系统可以高效避开障碍物并规划出最优路径。表2为在上述4种仿真环境中分别训练不同次数产生的数据平均值。
从训练数据中随机选出一批图片进行训练,其权值更新取决于损失函数,随着训练次数的增加,式(11)的 max Q(s t+1 ,a t+1 | s,a ) 对应上、下、左、右4个动作中的Q值的最大值。首先将神经网络预测的Q值存储起来。经过一段时间的训练,更新Q值并存储在与训练模型相同的文本文件中。新Q值又可以用来训练模型。重复几个步骤,直到算法学习到所需的特性。当训练开始时,神经网络估计的Q值与真实Q值的差值较大,此时的损失函数波动加大(见图7),显然此时算法还没有学会如何避开障碍物。随着训练次数的增加,算法逐渐学会捕捉相应的特性,当训练结束时算法的平均损失已经明显收敛(见图8),这表明网络误差较小,USV已经很好地学会如何避开障碍物规划安全航线。图8 训练结束时损失函数波动
【参考文献】:
期刊论文
[1]基于非策略Q-学习的网络控制系统最优跟踪控制[J]. 李金娜,尹子轩. 控制与决策. 2019(11)
[2]卷积神经网络结构优化综述[J]. 林景栋,吴欣怡,柴毅,尹宏鹏. 自动化学报. 2020(01)
[3]基于强化学习的移动机器人路径规划研究综述[J]. 刘志荣,姜树海. 制造业自动化. 2019(03)
[4]基于神经网络Q-learning算法的智能车路径规划[J]. 卫玉梁,靳伍银. 火力与指挥控制. 2019(02)
[5]基于Q-Learning的无人驾驶船舶路径规划[J]. 王程博,张新宇,邹志强,王少博. 船海工程. 2018(05)
[6]基于灰色马尔科夫模型的船舶交通流预测[J]. 刘成勇,万伟强,陈蜀喆,甘浪雄. 中国航海. 2018(03)
[7]基于改进人工势场法的水面无人艇路径规划研究[J]. 陈超,耿沛文,张新慈. 船舶工程. 2015(09)
[8]GIS空间分析中两种改进的路径规划算法[J]. 邱育红. 计算机系统应用. 2007(07)
本文编号:3220252
【文章来源】:上海海事大学学报. 2020,41(03)北大核心
【文章页数】:6 页
【部分图文】:
仿真环境二维 直角坐标系
为简化仿真实验复杂度,仿真实验仅在模拟的水上障碍物静态环境中进行,在实验前期USV在不同的时间步与障碍物发生碰撞,环境给出惩罚,以降低下次出现相似状况的概率,有效指引USV选择最优策略。在上述4种仿真环境中的路径规划效果见图6。在训练开始时,USV会多次与障碍物发生碰撞且规划路径波动较大;在训练3 000次时,算法逐渐规划出安全路径,但此时路径并非最短,所耗费时间也较长;在训练5 000次时,系统可以有效避开障碍物,算法趋于平稳并逐渐规划出有效路径,所需时间也明显缩短;当训练8 000次时,系统可以高效避开障碍物并规划出最优路径。表2为在上述4种仿真环境中分别训练不同次数产生的数据平均值。
从训练数据中随机选出一批图片进行训练,其权值更新取决于损失函数,随着训练次数的增加,式(11)的 max Q(s t+1 ,a t+1 | s,a ) 对应上、下、左、右4个动作中的Q值的最大值。首先将神经网络预测的Q值存储起来。经过一段时间的训练,更新Q值并存储在与训练模型相同的文本文件中。新Q值又可以用来训练模型。重复几个步骤,直到算法学习到所需的特性。当训练开始时,神经网络估计的Q值与真实Q值的差值较大,此时的损失函数波动加大(见图7),显然此时算法还没有学会如何避开障碍物。随着训练次数的增加,算法逐渐学会捕捉相应的特性,当训练结束时算法的平均损失已经明显收敛(见图8),这表明网络误差较小,USV已经很好地学会如何避开障碍物规划安全航线。图8 训练结束时损失函数波动
【参考文献】:
期刊论文
[1]基于非策略Q-学习的网络控制系统最优跟踪控制[J]. 李金娜,尹子轩. 控制与决策. 2019(11)
[2]卷积神经网络结构优化综述[J]. 林景栋,吴欣怡,柴毅,尹宏鹏. 自动化学报. 2020(01)
[3]基于强化学习的移动机器人路径规划研究综述[J]. 刘志荣,姜树海. 制造业自动化. 2019(03)
[4]基于神经网络Q-learning算法的智能车路径规划[J]. 卫玉梁,靳伍银. 火力与指挥控制. 2019(02)
[5]基于Q-Learning的无人驾驶船舶路径规划[J]. 王程博,张新宇,邹志强,王少博. 船海工程. 2018(05)
[6]基于灰色马尔科夫模型的船舶交通流预测[J]. 刘成勇,万伟强,陈蜀喆,甘浪雄. 中国航海. 2018(03)
[7]基于改进人工势场法的水面无人艇路径规划研究[J]. 陈超,耿沛文,张新慈. 船舶工程. 2015(09)
[8]GIS空间分析中两种改进的路径规划算法[J]. 邱育红. 计算机系统应用. 2007(07)
本文编号:3220252
本文链接:https://www.wllwen.com/kejilunwen/chuanbolw/3220252.html