当前位置:主页 > 科技论文 > 航空航天论文 >

基于强化学习的无人机空中格斗算法研究

发布时间:2017-08-31 06:10

  本文关键词:基于强化学习的无人机空中格斗算法研究


  更多相关文章: 无人战斗机 强化学习 动机引导 空中格斗


【摘要】:随着无人战斗机在军事领域上的应用越来越广泛,世界各国都在下大力气研制无人机,无人战斗机的出现也将改变未来的空战态势,成为决定战场的重要力量。在这其中,无人机的智能化水平将是无人机技术发展的关键,未来的无人战斗机将不仅能够通过传感器感知状态信息,区分敌我目标,还能够根据不同的作战任务,进行空战决策。空战决策理论经过近几十年的发展,逐步形成了以专家系统、微分对策为主的传统方法和以神经网络、遗传算法、蚁群算法为代表的智能方法。本文主要研究了基于强化学习的无人机空中格斗算法,主要做了以下几个方面的工作:一是对强化学习的基本理论做了详细的介绍,通过强化学习算法的对比分析,指出了当前强化学习研究面临的一些困难和问题,同时对强化学习的应用领域做了介绍。二是以强化学习的经典算法以及现阶段研究热点为依据,以强化学习系统中涉及的策略、值函数、回报函数等要素为核心,改进了算法性能。首先通过添加一个动机层,通过这一层,将先验知识引入到强化学习中,形成状态映射到动机、再从动机映射到动作的两层映射关系,提高了收敛速度。随后又采用模拟退火算法进一步提高了算法的性能。三是以空中格斗决策为重点,完成了RBF神经网络的动机引导强化学习算法的设计,通过对比不同决策意图下的飞行轨迹,验证了算法的有效性。
【关键词】:无人战斗机 强化学习 动机引导 空中格斗
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:V279
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 绪论8-19
  • 1.1 课题研究背景8-13
  • 1.2 国内外研究现状13-17
  • 1.2.1 空战决策理论研究现状13-15
  • 1.2.2 强化学习研究现状15-17
  • 1.3 本文的主要研究内容17-19
  • 第2章 强化学习理论19-36
  • 2.1 强化学习及其理论基础19-25
  • 2.1.1 马尔科夫决策过程模型19-21
  • 2.1.2 强化学习的基本原理及模型21-23
  • 2.1.3 强化学习的组成要素23-25
  • 2.2 典型强化学习模型25-33
  • 2.2.1 强化学习算法的目的25-26
  • 2.2.2 瞬时差分算法26-29
  • 2.2.3 Q学习算法29-30
  • 2.2.4 Sarsa算法30
  • 2.2.5 自适应启发评价算法30-32
  • 2.2.6 分层强化学习32-33
  • 2.3 强化学习的应用领域33-35
  • 2.3.1 优化控制中应用33-34
  • 2.3.2 机器人领域的应用34
  • 2.3.3 调度控制领域的应用34-35
  • 2.3.4 人工智能问题求解中的应用35
  • 2.4 本章小结35-36
  • 第3章 基于动机引导的强化学习算法研究36-43
  • 3.1 动机引导强化学习36-38
  • 3.1.1 基本思想36-37
  • 3.1.2 算法描述37-38
  • 3.2 基于模拟退火的动机引导强化学习38-39
  • 3.2.1 基本思想38
  • 3.2.2 算法描述38-39
  • 3.3 实验设计及结果分析39-42
  • 3.3.1 实验环境39-41
  • 3.3.2 实验参数设置41
  • 3.3.3 结果分析41-42
  • 3.4 本章小结42-43
  • 第4章 基于强化学习的无人机格斗算法研究43-56
  • 4.1 引言43-44
  • 4.2 无人机格斗环境描述44-50
  • 4.2.1 系统的状态和输入44-45
  • 4.2.2 动机与可选动作集合45-48
  • 4.2.3 目标状态和回报函数的定义48-50
  • 4.3 基于强化学习的无人机格斗算法设计50-53
  • 4.3.1 网络结构设计50-51
  • 4.3.2 神经网络训练51-52
  • 4.3.3 生成训练样本52
  • 4.3.4 算法步骤52-53
  • 4.4 结果分析53-54
  • 4.5 本章小结54-56
  • 结论56-57
  • 参考文献57-62
  • 致谢62

【参考文献】

中国期刊全文数据库 前8条

1 马耀飞;龚光红;彭晓源;;基于强化学习的航空兵认知行为模型[J];北京航空航天大学学报;2010年04期

2 吴洪岩;刘淑华;张嵛;;基于RBFNN的强化学习在机器人导航中的应用[J];吉林大学学报(信息科学版);2009年02期

3 郭昊;周德云;张X;;无人作战飞机空战自主机动决策研究[J];电光与控制;2010年08期

4 沧桑;国外正在研制的无人战斗机[J];国外科技动态;2005年05期

5 仵博;郑红燕;冯延蓬;陈鑫;;一种基于模型的可分解贝叶斯在线强化学习[J];电子学报;2014年07期

6 周思羽;吴文海;张楠;张靖;;自主空战机动决策方法综述[J];航空计算技术;2012年01期

7 蒋国飞,吴沧浦;基于Q学习算法和BP神经网络的倒立摆控制[J];自动化学报;1998年05期

8 程玉虎;王雪松;易建强;孙伟;;基于自组织模糊RBF网络的连续空间Q学习[J];信息与控制;2008年01期



本文编号:763895

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/763895.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fb1dc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com