基于强化学习的四旋翼无人机路径规划方法研究
发布时间:2021-03-04 07:57
路径规划是机器人导航控制中非常重要的环节之一,是指机器人按照时间,距离等性能指标,搜索一条从起点到终点的最优、近似最优或者次优的路线。路径规划问题由来已久且具有较为丰富的算法,但目前的算法中大都需要已知环境,然而在多数情况下,环境模型难以描述和获取。另一方面由于多数方法中路径拐点较多且只能够沿着四个方向运动,极大程度的限制的路径的平滑程度并且给机器人的导航控制带来了巨大挑战。针对以上问题,本文在栅格地图的基础之上,将四个方向增加至八个方向,能够进一步平滑路径且获取距离更短的路径,并进行了一下研究:首先,在诸多强化学习方法中,以时间差分方法中的异策略的Q-learning方法为基础,以栅格为状态集,八个动作为动作集,不需要环境模型,依靠自身与环境交互即可完成路径规划任务。其次,由于Q-learning产生动作的策略与评估的策略不同,可以利用其它经验帮助自身学习,因此,引入谱图理论和流形学习的思想,借此获取能够清晰反应起点到终点距离关系的先验知识,与Q-learning方法融合共同指导智能体寻找最优路径。再次,引入Dyna框架,智能体通过与环境交互获取实际经验,一方面,这些数据会被直接强化...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
Theta*与A*的对比
器人完成搜救、测绘和编队等任务的前实践的鸿沟,在实际生产生活应用中最搜索方法的设计,路径规划算法[30]自传统路径规划算法多是基于图和欧氏距中动物的行为渐渐发展出仿生学方法,和广泛应用,智能路径规划方法亦有长题描述路径规划技术,就是根据机器人自身条安全可靠的运动路径,躲避障碍物2-1 。路径规划所要解决的问题,简而被控对象)能从起点运动到目的地。(2)一定的方法保证机器人能够躲避障碍物规划出简单优化平滑的路径。
图 2-2 Dijkstra 方法搜索示意图了由机器人自身体积引发的节点限制,与 Dijkstra 算法相同的环境中,搜索原理图 2-3 A* 算法搜索示意图场法源于物理学中“场”的概念,将机器人抽象的人工的引力场中的运动,目标个引力场,而障碍物对机器人会产生“斥的叠加,求解出这两种力的合力得出机
【参考文献】:
期刊论文
[1]路径规划算法及其应用综述[J]. 张广林,胡小梅,柴剑飞,赵磊,俞涛. 现代机械. 2011(05)
[2]蚁群算法研究综述[J]. 于艳艳. 科技广场. 2009(01)
[3]基于神经网络的强化学习在避障中的应用[J]. 乔俊飞,侯占军,阮晓钢. 清华大学学报(自然科学版). 2008(S2)
[4]基于偏向信息学习的双层强化学习算法[J]. 林芬,石川,罗杰文,史忠植. 计算机研究与发展. 2008(09)
[5]基于神经网络和粒子群算法的移动机器人路径规划[J]. 姜明洋,胡玉兰. 沈阳理工大学学报. 2007(06)
[6]一种在线自学习的移动机器人模糊导航方法[J]. 赫东锋,孙树栋. 西安工业大学学报. 2007(04)
[7]战术飞行路径规划算法[J]. 张永芳,张安,张志禹,张九龙. 交通运输工程学报. 2006(04)
[8]基于模糊逻辑的机器人路径规划[J]. 毕盛,朱金辉,闵华清,钟汉如. 机电产品开发与创新. 2006(01)
[9]基于栅格法的机器人快速路径规划[J]. 于红斌,李孝安. 微电子学与计算机. 2005(06)
[10]飞行器航迹规划算法综述[J]. 杜萍,杨春. 飞行力学. 2005(02)
博士论文
[1]基于谱图理论的强化学习研究[D]. 朱美强.中国矿业大学 2012
[2]基于势场法和遗传算法的机器人路径规划技术研究[D]. 刘传领.南京理工大学 2012
[3]流形学习算法及其应用研究[D]. 雷迎科.中国科学技术大学 2011
[4]加速强化学习方法研究[D]. 金钊.云南大学 2010
[5]流形学习的谱方法相关问题研究[D]. 曾宪华.北京交通大学 2009
[6]强化学习方法及其应用研究[D]. 黄炳强.上海交通大学 2007
[7]基于强化学习的移动机器人自主学习及导航控制[D]. 陈春林.中国科学技术大学 2006
[8]增强学习及其在移动机器人导航与控制中的应用研究[D]. 徐昕.国防科学技术大学 2002
硕士论文
[1]基于强化学习的移动机器人路径规划研究[D]. 许亚.山东大学 2013
[2]有关强化学习的若干问题研究[D]. 赵昀.南京理工大学 2009
[3]基于量子粒子群算法的移动机器人的路径规划的研究[D]. 王坤.江南大学 2009
[4]基于蚁群算法的路径规划研究[D]. 董金明.陕西师范大学 2009
[5]基于蚁群算法的机器人路径规划及其仿真系统研究[D]. 王涛.西安科技大学 2009
[6]复杂动态环境下移动机器人的全局路径规划算法研究[D]. 徐培培.北京邮电大学 2009
本文编号:3062852
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
Theta*与A*的对比
器人完成搜救、测绘和编队等任务的前实践的鸿沟,在实际生产生活应用中最搜索方法的设计,路径规划算法[30]自传统路径规划算法多是基于图和欧氏距中动物的行为渐渐发展出仿生学方法,和广泛应用,智能路径规划方法亦有长题描述路径规划技术,就是根据机器人自身条安全可靠的运动路径,躲避障碍物2-1 。路径规划所要解决的问题,简而被控对象)能从起点运动到目的地。(2)一定的方法保证机器人能够躲避障碍物规划出简单优化平滑的路径。
图 2-2 Dijkstra 方法搜索示意图了由机器人自身体积引发的节点限制,与 Dijkstra 算法相同的环境中,搜索原理图 2-3 A* 算法搜索示意图场法源于物理学中“场”的概念,将机器人抽象的人工的引力场中的运动,目标个引力场,而障碍物对机器人会产生“斥的叠加,求解出这两种力的合力得出机
【参考文献】:
期刊论文
[1]路径规划算法及其应用综述[J]. 张广林,胡小梅,柴剑飞,赵磊,俞涛. 现代机械. 2011(05)
[2]蚁群算法研究综述[J]. 于艳艳. 科技广场. 2009(01)
[3]基于神经网络的强化学习在避障中的应用[J]. 乔俊飞,侯占军,阮晓钢. 清华大学学报(自然科学版). 2008(S2)
[4]基于偏向信息学习的双层强化学习算法[J]. 林芬,石川,罗杰文,史忠植. 计算机研究与发展. 2008(09)
[5]基于神经网络和粒子群算法的移动机器人路径规划[J]. 姜明洋,胡玉兰. 沈阳理工大学学报. 2007(06)
[6]一种在线自学习的移动机器人模糊导航方法[J]. 赫东锋,孙树栋. 西安工业大学学报. 2007(04)
[7]战术飞行路径规划算法[J]. 张永芳,张安,张志禹,张九龙. 交通运输工程学报. 2006(04)
[8]基于模糊逻辑的机器人路径规划[J]. 毕盛,朱金辉,闵华清,钟汉如. 机电产品开发与创新. 2006(01)
[9]基于栅格法的机器人快速路径规划[J]. 于红斌,李孝安. 微电子学与计算机. 2005(06)
[10]飞行器航迹规划算法综述[J]. 杜萍,杨春. 飞行力学. 2005(02)
博士论文
[1]基于谱图理论的强化学习研究[D]. 朱美强.中国矿业大学 2012
[2]基于势场法和遗传算法的机器人路径规划技术研究[D]. 刘传领.南京理工大学 2012
[3]流形学习算法及其应用研究[D]. 雷迎科.中国科学技术大学 2011
[4]加速强化学习方法研究[D]. 金钊.云南大学 2010
[5]流形学习的谱方法相关问题研究[D]. 曾宪华.北京交通大学 2009
[6]强化学习方法及其应用研究[D]. 黄炳强.上海交通大学 2007
[7]基于强化学习的移动机器人自主学习及导航控制[D]. 陈春林.中国科学技术大学 2006
[8]增强学习及其在移动机器人导航与控制中的应用研究[D]. 徐昕.国防科学技术大学 2002
硕士论文
[1]基于强化学习的移动机器人路径规划研究[D]. 许亚.山东大学 2013
[2]有关强化学习的若干问题研究[D]. 赵昀.南京理工大学 2009
[3]基于量子粒子群算法的移动机器人的路径规划的研究[D]. 王坤.江南大学 2009
[4]基于蚁群算法的路径规划研究[D]. 董金明.陕西师范大学 2009
[5]基于蚁群算法的机器人路径规划及其仿真系统研究[D]. 王涛.西安科技大学 2009
[6]复杂动态环境下移动机器人的全局路径规划算法研究[D]. 徐培培.北京邮电大学 2009
本文编号:3062852
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/3062852.html