专家知识辅助的强化学习研究及其在无人机路径规划中的应用
本文关键词:专家知识辅助的强化学习研究及其在无人机路径规划中的应用
更多相关文章: 强化学习 知识迁移 深度学习 动态运动基元 示教学习 对称性 批量运算
【摘要】:随着科技不断发展进步,无人机的应用范围逐渐扩大,这无形中对其智能化提出了更高的要求。未来的无人机应该通过与环境交互自主完成障碍躲避、路径规划等常规任务,而不是仅仅依赖于手动编写的程序。强化学习算法是实现自主化的一条可行技术路线,并已被用于游戏及其它一些人工较难掌控任务的学习中,然而,其在训练时较大的在线运算压力及较长的交互过程阻碍了它更为广泛的应用,特别是在无人机领域。针对此种情形,本文以强化学习算法及其在无人机路径规划中的应用为主要研究内容,尝试在强化学习开始前赋予智能体特定的专家知识来提高学习算法的实用性。研究主要从以下两方面展开:一是结合专家对任务的了解,通过引入批量递归最小二乘或构造特殊基函数来降低对称任务中学习的运算复杂度;二是从迁移的角度出发,重点研究在新任务强化学习中复用源任务示教轨迹所含专家知识的方法,并进一步探索了示教知识迁移辅助的强化学习在无人机路径规划中的应用。本文的主要研究工作和贡献归纳如下:1、系统综述了强化学习算法及其应用现状,着重介绍了引入专家知识以弥补其白板学习盲目性的研究,特别是与迁移算法相结合的部分;总结了迁移在强化学习中应用的难点,并提出从简单源任务的示教轨迹中挖掘并迁移知识到新任务中加速强化学习的框架。2、针对在Actor-Critic结构强化学习算法中智能体用最小二乘法估计自然梯度的运算量是估计普通梯度数倍的问题,本文提出利用批量递归的思想来有效降低智能体在线运算压力。强化学习过程中,智能体可以在交互数据达到专家设定的数量之后再用递归最小二乘法估计自然梯度,从而明显减少了梯度估计次数;与此同时,由于每次梯度估计更为准确,智能体可以适当增大策略参数更新步长以保证算法收敛速度不受明显影响。总之,批量递归使得智能体能够在可接受的在线运算压力下灵活处理交互数据。3、针对状态动作空间存在对称性的任务,本文提出一种能够近似对称状态值函数及策略的特殊基函数。专家在构造基函数时,同时考虑中心点及其对称位置信息从而使基函数的值在对称位置自然相等,进而使得状态值函数在对称状态也相等。然而,由于特殊基函数数量与常规基函数相比较少,强化学习速度明显加快且运算压力显著降低。4、由于源任务示教轨迹数量有限且单个轨迹所含数据较多,用机器学习分类较难,本文提出结合动态运动基元与卷积神经网络进行分类的方法。算法首先将示教轨迹视作独立的多维时间序列并用不同动态运动基元的参数依次作为各个维度的表征;之后,用改造的卷积神经网络发掘基元参数序列的结构变化信息进行分类;最后,综合各维度分类情况以确定轨迹类别。5、针对专家较易示教简单任务而强化学习适于解决较难问题的情况,本文提出多种在较难任务强化学习中复用与之相关源任务示教轨迹所含专家知识的方法。本文尝试从多个角度挖掘示教轨迹所含专家知识,并经由智能体空间或任务间关系映射迁移到新任务中,通过引导学习的探索过程、鼓励访问某些状态或直接作为选择动作的初始策略等方式加快新任务的学习速度。6、为在无人机路径规划中应用强化学习,本文提出用重构的示教轨迹来引导智能体探索的方法。专家首先示教多个参数已知的任务从而赋予智能体多种避障技能;当遇到相似情形时,智能体可通过任务间的构造关系泛化出新的避障轨迹;最后,依照推荐轨迹次序构造出势函数并用Q学习训练得到较好策略。算法减少了智能体学习失败的次数,验证了强化学习在无人机领域应用的可行性。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:V279;TP18
【相似文献】
中国期刊全文数据库 前10条
1 辛健成;美国海军无人机发展历程[J];机器人技术与应用;2000年05期
2 时兆峰;以色列组建专门的无人机管理部门[J];飞航导弹;2001年10期
3 徐文;俄罗斯的无人机系统——格兰特[J];飞航导弹;2003年07期
4 何一波;各国使用的主要轻型无人机[J];飞航导弹;2003年11期
5 马晓平;系统工程学在无人机研制中的应用[J];航空科学技术;2003年04期
6 柯边;“影子200”战术无人机[J];航天电子对抗;2003年06期
7 温羡峤,李英;从美国无人机的发展来看无人机在未来战争中的应用前景[J];现代防御技术;2003年05期
8 王永寿;日本无人机的研究开发现状与动向[J];飞航导弹;2003年08期
9 袁刚辉;徐志红;;不断壮大的俄罗斯无人机家族[J];现代兵器;2003年02期
10 徐文;俄罗斯无人机的发展现状[J];飞航导弹;2004年02期
中国重要会议论文全文数据库 前10条
1 王林;张庆杰;朱华勇;沈林成;;远程异地多无人机系统控制权切换技术研究[A];2009中国控制与决策会议论文集(3)[C];2009年
2 谭健美;张琚;闫娟;;信息无人机系统——无人机发展史上新的里程碑[A];第二届中国航空学会青年科技论坛文集[C];2006年
3 黄爱凤;邓克绪;;民用无人机发展现状及关键技术[A];第九届长三角科技论坛——航空航天科技创新与长三角经济转型发展分论坛论文集[C];2012年
4 刘长亮;;无人机发动机气道开度自适应机构的设计与实现[A];2009年中国智能自动化会议论文集(第三分册)[C];2009年
5 丁霖;;无人机系统人机交互界面浅析[A];探索 创新 交流(第4集)——第四届中国航空学会青年科技论坛文集[C];2010年
6 刘泽坤;吕继淮;;舰载无人机系统的环境适应性[A];人—机—环境系统工程创立20周年纪念大会暨第五届全国人—机—环境系统工程学术会议论文集[C];2001年
7 叶烽;宋祖勋;;无人机系统电磁兼容性测试研究[A];第十四届全国电磁兼容学术会议论文集[C];2004年
8 易当祥;吕国志;沈玲玲;;多级路况下车载无人机疲劳载荷仿真[A];第十二届全国疲劳与断裂学术会议论文集[C];2004年
9 钱正祥;金继才;杨鹭怡;;未来局部战争中反无人机作战对策研究[A];探索创新交流--中国航空学会青年科技论坛文集[C];2004年
10 高鹏骐;晏磊;赵红颖;何定洲;;无人机遥感控制平台的设计与实现[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
中国重要报纸全文数据库 前10条
1 洪山;法国、德国和西班牙签约共同研发三国无人机系统[N];中国航空报;2007年
2 崔玺康;对抗无人机所面临的新挑战[N];中国航空报;2007年
3 林英;无人机将进入现代化农业领域[N];光明日报;2007年
4 本报记者 陈永杰 马佳;中国无人机亮相:战争“零伤亡”将实现[N];北京科技报;2008年
5 祖茜枫;“综合者”:携带小导弹的小无人机[N];中国国防报;2008年
6 王磊;印度期望打造强大无人机部队[N];学习时报;2009年
7 李荔;无人机“俯瞰”黄河灾情[N];北京科技报;2011年
8 本报记者 宋斌斌;我国无人机应用高端化趋势明显[N];中国工业报;2011年
9 吴飞;反恐十年无人机扶摇直上[N];中国航空报;2011年
10 司古;美无人机遭神秘病毒入侵[N];国防时报;2011年
中国博士学位论文全文数据库 前10条
1 刘洋;动态环境中的无人机路径规划研究[D];西北工业大学;2015年
2 高九州;无人机自主着陆控制[D];中国科学院研究生院(长春光学精密机械与物理研究所);2016年
3 杨永明;无人机遥感系统数据获取与处理关键技术研究[D];昆明理工大学;2016年
4 孙小雷;基于多阶段航迹预测的无人机任务规划方法研究[D];哈尔滨工业大学;2015年
5 张艳超;农田信息低空遥感中图像采集与处理的关键技术研究[D];浙江大学;2016年
6 王刚;一种螺旋桨动力配平的小型电动无尾无人机研究[D];西北工业大学;2016年
7 张潮;神经智能控制在小型快递无人机系统中的研究与应用[D];北京科技大学;2017年
8 李辰;面向四旋翼无人机的非线性控制方法与实现[D];浙江大学;2017年
9 徐博;植保无人机航线规划方法研究[D];中国农业大学;2017年
10 王国芳;专家知识辅助的强化学习研究及其在无人机路径规划中的应用[D];浙江大学;2017年
中国硕士学位论文全文数据库 前10条
1 赵敏;分布式多类型无人机协同任务分配研究及仿真[D];南京理工大学;2009年
2 刘志花;无人机故障预测与健康管理技术研究[D];北京化工大学;2010年
3 刘爱兵;可变形无人机设计[D];南京航空航天大学;2009年
4 易姝姝;无人机飞行场景及数据的可视化仿真与实现[D];电子科技大学;2010年
5 张佳璐;无人机项目综合评价研究[D];北京邮电大学;2011年
6 赵志鸿;某型无人机双发火箭助推发射动力学建模与仿真研究[D];南京理工大学;2007年
7 李建华;某无人机发射系统技术研究[D];南京理工大学;2008年
8 戴世通;无人机飞行可视化仿真系统设计[D];西安理工大学;2008年
9 曹攀峰;敌对与非敌对环境下无人机群的协同搜索路径与策略研究[D];复旦大学;2010年
10 张锡宪;无人机测控中数据传输系统设计与实现[D];电子科技大学;2009年
,本文编号:1298194
本文链接:https://www.wllwen.com/shoufeilunwen/gckjbs/1298194.html