基于记忆优化机制的改进DQN算法研究
发布时间:2021-10-20 23:59
科学技术的进步推动着人工智能的快速发展,强化学习作为人工智能重要分支领域的研究越来越被广泛应用,特别是在解决智能移动机器人导航与探索问题方面。移动机器人导航技术是基础也是机器人完成任务规划的重要保障,例如无人驾驶技术,智能无人机,智能空天一体化技术等都离不开导航技术的发展,而路径规划作为移动导航技术的基础备受广大学者的关注。由于智能移动机器人所面临的环境复杂且多变,传统的路径规划方法已不能满足现有的要求,更加智能化的路径规划算法亟待研究,目前将强化学习与移动机器人导航技术相结合是路径规划算法智能化研究的重要方向之一。鉴于此,针对未知环境下的智能移动路径规划问题,本文提出了一种基于强化学习的机器人路径规划算法,该算法在强化学习框架下开展了路径规划的深入研究,通过机器人“试错”的方式智能探索路径,达到了学习与规划同步完成,满足并适用各种复杂的环境。本文研究内容如下:1、改进传统规划算法在未知环境下距离优化问题,本文提出一种基于启发式报酬函数的DQN(Deep Q_learning Network)算法。该算法在A*最短路径思想基础上,设计一种以距离作为评判标准的启发式报酬函数,通过当前执行...
【文章来源】:河南大学河南省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
简单环境下训练300回合路径图
29(2)实验验证为了充分说明基于启发式报酬函数的DQN算法的性能,本文从时间和距离两方面,分别与传统算法A*、RRT以及智能算法DQN、DDPG进行实验对比实验结果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-7简单环境下训练300回合路径图(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-8简单环境下500回合最优路径图(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-9简单环境下800回合最优路径图表3-2简单环境路径表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失败29500回合272927失败29800回合202730失败29图3-7是训练300回合后分别采用5种算法输出的最优路径图,结合表3-2可知:机器人在简单环境下采用DQN算法训练300回合规划出来的路径需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能规划出路径;第3章基于启发式报酬函数的DQN算法
29(2)实验验证为了充分说明基于启发式报酬函数的DQN算法的性能,本文从时间和距离两方面,分别与传统算法A*、RRT以及智能算法DQN、DDPG进行实验对比实验结果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-7简单环境下训练300回合路径图(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-8简单环境下500回合最优路径图(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-9简单环境下800回合最优路径图表3-2简单环境路径表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失败29500回合272927失败29800回合202730失败29图3-7是训练300回合后分别采用5种算法输出的最优路径图,结合表3-2可知:机器人在简单环境下采用DQN算法训练300回合规划出来的路径需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能规划出路径;第3章基于启发式报酬函数的DQN算法
【参考文献】:
期刊论文
[1]基于改进A-Star算法的AGV全局路径规划[J]. 卞永明,马逍阳,高飞,周怡和. 机电一体化. 2019(06)
[2]Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning[J]. Yun Zou,Qing-Zi Xing,Bai-Chuan Wang,Shu-Xin Zheng,Cheng Cheng,Zhong-Ming Wang,Xue-Wu Wang. Nuclear Science and Techniques. 2019(10)
[3]基于改进DDPG算法的车辆低速跟驰行为决策研究[J]. 罗颖,秦文虎,翟金凤. 测控技术. 2019(09)
[4]基于改进A*算法的移动机器人路径规划研究[J]. 吴鹏,桑成军,陆忠华,余双,方临阳,张屹. 计算机工程与应用. 2019(21)
[5]新型树启发式搜索算法的机器人路径规划[J]. 胡晓敏,梁天毅,王明丰,李敏. 计算机工程与应用. 2020(11)
[6]改进蚁群算法在AGV全局路径规划中的研究[J]. 胡庆朋,王涛,张如伟. 信息技术与信息化. 2019(03)
[7]基于最小二乘策略迭代的无人机航迹规划方法[J]. 陈晓倩,刘瑞祥. 计算机工程与应用. 2020(01)
[8]基于改进人工势场法的巡航导弹自主避障技术[J]. 范世鹏,祁琪,路坤锋,吴广,李伶. 北京理工大学学报. 2018(08)
[9]基于改进遗传算法的仓储路径智能控制研究[J]. 冯晨钟,宋世创,李慕航. 山西电子技术. 2018(03)
[10]基于改进优先经验重放算法的游戏控制研究[J]. 赵文仓,吴建辉. 甘肃科学学报. 2018(02)
硕士论文
[1]面向家庭环境的移动机器人局部路径规划算法研究[D]. 李宁.哈尔滨工业大学 2018
[2]基于分层强化学习的AUV路径规划方法研究[D]. 冉祥瑞.哈尔滨工程大学 2017
[3]基于自由空间法的航迹规划方法研究[D]. 邱杰.华中科技大学 2015
本文编号:3447844
【文章来源】:河南大学河南省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
简单环境下训练300回合路径图
29(2)实验验证为了充分说明基于启发式报酬函数的DQN算法的性能,本文从时间和距离两方面,分别与传统算法A*、RRT以及智能算法DQN、DDPG进行实验对比实验结果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-7简单环境下训练300回合路径图(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-8简单环境下500回合最优路径图(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-9简单环境下800回合最优路径图表3-2简单环境路径表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失败29500回合272927失败29800回合202730失败29图3-7是训练300回合后分别采用5种算法输出的最优路径图,结合表3-2可知:机器人在简单环境下采用DQN算法训练300回合规划出来的路径需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能规划出路径;第3章基于启发式报酬函数的DQN算法
29(2)实验验证为了充分说明基于启发式报酬函数的DQN算法的性能,本文从时间和距离两方面,分别与传统算法A*、RRT以及智能算法DQN、DDPG进行实验对比实验结果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-7简单环境下训练300回合路径图(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-8简单环境下500回合最优路径图(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法图3-9简单环境下800回合最优路径图表3-2简单环境路径表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失败29500回合272927失败29800回合202730失败29图3-7是训练300回合后分别采用5种算法输出的最优路径图,结合表3-2可知:机器人在简单环境下采用DQN算法训练300回合规划出来的路径需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能规划出路径;第3章基于启发式报酬函数的DQN算法
【参考文献】:
期刊论文
[1]基于改进A-Star算法的AGV全局路径规划[J]. 卞永明,马逍阳,高飞,周怡和. 机电一体化. 2019(06)
[2]Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning[J]. Yun Zou,Qing-Zi Xing,Bai-Chuan Wang,Shu-Xin Zheng,Cheng Cheng,Zhong-Ming Wang,Xue-Wu Wang. Nuclear Science and Techniques. 2019(10)
[3]基于改进DDPG算法的车辆低速跟驰行为决策研究[J]. 罗颖,秦文虎,翟金凤. 测控技术. 2019(09)
[4]基于改进A*算法的移动机器人路径规划研究[J]. 吴鹏,桑成军,陆忠华,余双,方临阳,张屹. 计算机工程与应用. 2019(21)
[5]新型树启发式搜索算法的机器人路径规划[J]. 胡晓敏,梁天毅,王明丰,李敏. 计算机工程与应用. 2020(11)
[6]改进蚁群算法在AGV全局路径规划中的研究[J]. 胡庆朋,王涛,张如伟. 信息技术与信息化. 2019(03)
[7]基于最小二乘策略迭代的无人机航迹规划方法[J]. 陈晓倩,刘瑞祥. 计算机工程与应用. 2020(01)
[8]基于改进人工势场法的巡航导弹自主避障技术[J]. 范世鹏,祁琪,路坤锋,吴广,李伶. 北京理工大学学报. 2018(08)
[9]基于改进遗传算法的仓储路径智能控制研究[J]. 冯晨钟,宋世创,李慕航. 山西电子技术. 2018(03)
[10]基于改进优先经验重放算法的游戏控制研究[J]. 赵文仓,吴建辉. 甘肃科学学报. 2018(02)
硕士论文
[1]面向家庭环境的移动机器人局部路径规划算法研究[D]. 李宁.哈尔滨工业大学 2018
[2]基于分层强化学习的AUV路径规划方法研究[D]. 冉祥瑞.哈尔滨工程大学 2017
[3]基于自由空间法的航迹规划方法研究[D]. 邱杰.华中科技大学 2015
本文编号:3447844
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3447844.html