当前位置:主页 > 科技论文 > 自动化论文 >

基于强化学习的路径规划方法研究

发布时间:2021-03-13 10:34
  随着信息化的不断加深,人工智能技术的发展进入黄金时期。人工智能技术作为现代化社会和信息化社会发展的分水岭,技术成熟和应用受到各个科技领域的广泛关注,与移动机器人技术的结合更是越来越多的专家的研究热点。其中,强化学习作为一种非监督且自身更新能力较强的机器学习方法,非常符合移动机器人合理应对各种情况的需求。针对地图残缺或环境未知状况的路径规划问题,研究基于强化学习的路径规划方法。首先,针对强化学习算法的探索权衡问题,设计一种基于策略选择模型的Q-Learning算法。该方法根据Agent运动过程中的环境信息,结合路径规划任务需求,对经典Q-Learning算法进行改进。以策略迭代算法为基础设计策略选择算法,并将策略选择算法容嵌在Q-Learning算法前端,增加Agent策略选择策略集的能力,提高计算效率和最优策略的适应度。与传统的Q-Learning算法相比,基于策略选择算法的Q-Learning算法能够得到一个更加优化的策略结果。然后,针对动态未知环境的情况,设计一种情感学习系统,将Agent的情感学习系统划分为外环境系统和内环境系统双层结构,辅助强化学习系统。在外环境系统中,针对强化... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于强化学习的路径规划方法研究


GridWorld场景

基于强化学习的路径规划方法研究


Q-Learning 算法学习结果

基于强化学习的路径规划方法研究


策略选择QL算法学习结果

【参考文献】:
期刊论文
[1]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.  计算机学报. 2018(01)
[2]人工智能中的仿生学[J]. 谢强.  科技导报. 2016(07)
[3]强化学习研究综述[J]. 陈学松,杨宜民.  计算机应用研究. 2010(08)
[4]移动机器人路径规划技术综述[J]. 朱大奇,颜明重.  控制与决策. 2010(07)
[5]机器学习理论研究[J]. 郭亚宁,冯莎莎.  中国科技信息. 2010(14)
[6]对理性和情感关注的起源[J]. 马春玲,张晓密.  哈尔滨学院学报. 2009(12)
[7]禁忌搜索算法[J]. 季敏惠.  电脑知识与技术. 2009(27)
[8]基于大脑情感回路的人工情感智能模型[J]. 王上飞,王煦法.  模式识别与人工智能. 2007(02)
[9]多步截断优先扫描强化学习算法[J]. 李春贵.  计算机工程. 2005(11)
[10]移动机器人避障模糊控制[J]. 陈华志,谢存禧.  机床与液压. 2004(11)

博士论文
[1]生物启发的多无人机协同四维航迹规划方法研究[D]. 杨祖强.浙江大学 2016

硕士论文
[1]基于A*算法的避障应用仿真[D]. 杨银涛.郑州大学 2014
[2]基于强化学习的移动机器人路径规划研究[D]. 许亚.山东大学 2013



本文编号:3080065

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3080065.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6e3ae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com