基于深度强化学习的路径规划算法研究
发布时间:2023-03-11 05:18
针对现有的路径规划算法效率低的问题,根据奖励函数和多层感知机提出一种基于深度强化学习的路径规划算法。考虑到环境的复杂程度,为了降低过拟合的概率,因此神经网络选择较优的动作,提出以多层感知机为基础的深度Q网络算法(Deep Q-learning Network, DQN)。为了得到动态的奖励值,该算法根据目标的相关信息改进奖励函数,根据动态的奖励值来区别不同动作的价值,从而提升神经网络动作选择的效率。实验结果表明,该算法能够用更少的探索步数使奖励值趋向平稳,并且找到较优路径。
【文章页数】:7 页
【文章目录】:
0 引 言
1 相关工作
2 相关知识
2.1 Q学习算法
2.1.1 Q值表更新
2.1.2 奖励函数
2.2 深度Q网络
2.2.1 神经网络
2.2.2 记忆回放机制
3 改进DQN的路径规划算法
3.1 DQN算法设计
3.1.1 多层感知机
3.1.2 奖励函数
3.1.3 动作选择机制
3.2 模型训练
4 实验仿真与分析
4.1 实验场景
4.2 实验参数
4.3 实验结果
5 结 语
本文编号:3759272
【文章页数】:7 页
【文章目录】:
0 引 言
1 相关工作
2 相关知识
2.1 Q学习算法
2.1.1 Q值表更新
2.1.2 奖励函数
2.2 深度Q网络
2.2.1 神经网络
2.2.2 记忆回放机制
3 改进DQN的路径规划算法
3.1 DQN算法设计
3.1.1 多层感知机
3.1.2 奖励函数
3.1.3 动作选择机制
3.2 模型训练
4 实验仿真与分析
4.1 实验场景
4.2 实验参数
4.3 实验结果
5 结 语
本文编号:3759272
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3759272.html