基于强化学习的无人机空中格斗算法研究
发布时间:2017-08-31 06:10
本文关键词:基于强化学习的无人机空中格斗算法研究
【摘要】:随着无人战斗机在军事领域上的应用越来越广泛,世界各国都在下大力气研制无人机,无人战斗机的出现也将改变未来的空战态势,成为决定战场的重要力量。在这其中,无人机的智能化水平将是无人机技术发展的关键,未来的无人战斗机将不仅能够通过传感器感知状态信息,区分敌我目标,还能够根据不同的作战任务,进行空战决策。空战决策理论经过近几十年的发展,逐步形成了以专家系统、微分对策为主的传统方法和以神经网络、遗传算法、蚁群算法为代表的智能方法。本文主要研究了基于强化学习的无人机空中格斗算法,主要做了以下几个方面的工作:一是对强化学习的基本理论做了详细的介绍,通过强化学习算法的对比分析,指出了当前强化学习研究面临的一些困难和问题,同时对强化学习的应用领域做了介绍。二是以强化学习的经典算法以及现阶段研究热点为依据,以强化学习系统中涉及的策略、值函数、回报函数等要素为核心,改进了算法性能。首先通过添加一个动机层,通过这一层,将先验知识引入到强化学习中,形成状态映射到动机、再从动机映射到动作的两层映射关系,提高了收敛速度。随后又采用模拟退火算法进一步提高了算法的性能。三是以空中格斗决策为重点,完成了RBF神经网络的动机引导强化学习算法的设计,通过对比不同决策意图下的飞行轨迹,验证了算法的有效性。
【关键词】:无人战斗机 强化学习 动机引导 空中格斗
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:V279
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-19
- 1.1 课题研究背景8-13
- 1.2 国内外研究现状13-17
- 1.2.1 空战决策理论研究现状13-15
- 1.2.2 强化学习研究现状15-17
- 1.3 本文的主要研究内容17-19
- 第2章 强化学习理论19-36
- 2.1 强化学习及其理论基础19-25
- 2.1.1 马尔科夫决策过程模型19-21
- 2.1.2 强化学习的基本原理及模型21-23
- 2.1.3 强化学习的组成要素23-25
- 2.2 典型强化学习模型25-33
- 2.2.1 强化学习算法的目的25-26
- 2.2.2 瞬时差分算法26-29
- 2.2.3 Q学习算法29-30
- 2.2.4 Sarsa算法30
- 2.2.5 自适应启发评价算法30-32
- 2.2.6 分层强化学习32-33
- 2.3 强化学习的应用领域33-35
- 2.3.1 优化控制中应用33-34
- 2.3.2 机器人领域的应用34
- 2.3.3 调度控制领域的应用34-35
- 2.3.4 人工智能问题求解中的应用35
- 2.4 本章小结35-36
- 第3章 基于动机引导的强化学习算法研究36-43
- 3.1 动机引导强化学习36-38
- 3.1.1 基本思想36-37
- 3.1.2 算法描述37-38
- 3.2 基于模拟退火的动机引导强化学习38-39
- 3.2.1 基本思想38
- 3.2.2 算法描述38-39
- 3.3 实验设计及结果分析39-42
- 3.3.1 实验环境39-41
- 3.3.2 实验参数设置41
- 3.3.3 结果分析41-42
- 3.4 本章小结42-43
- 第4章 基于强化学习的无人机格斗算法研究43-56
- 4.1 引言43-44
- 4.2 无人机格斗环境描述44-50
- 4.2.1 系统的状态和输入44-45
- 4.2.2 动机与可选动作集合45-48
- 4.2.3 目标状态和回报函数的定义48-50
- 4.3 基于强化学习的无人机格斗算法设计50-53
- 4.3.1 网络结构设计50-51
- 4.3.2 神经网络训练51-52
- 4.3.3 生成训练样本52
- 4.3.4 算法步骤52-53
- 4.4 结果分析53-54
- 4.5 本章小结54-56
- 结论56-57
- 参考文献57-62
- 致谢62
【参考文献】
中国期刊全文数据库 前8条
1 马耀飞;龚光红;彭晓源;;基于强化学习的航空兵认知行为模型[J];北京航空航天大学学报;2010年04期
2 吴洪岩;刘淑华;张嵛;;基于RBFNN的强化学习在机器人导航中的应用[J];吉林大学学报(信息科学版);2009年02期
3 郭昊;周德云;张X;;无人作战飞机空战自主机动决策研究[J];电光与控制;2010年08期
4 沧桑;国外正在研制的无人战斗机[J];国外科技动态;2005年05期
5 仵博;郑红燕;冯延蓬;陈鑫;;一种基于模型的可分解贝叶斯在线强化学习[J];电子学报;2014年07期
6 周思羽;吴文海;张楠;张靖;;自主空战机动决策方法综述[J];航空计算技术;2012年01期
7 蒋国飞,吴沧浦;基于Q学习算法和BP神经网络的倒立摆控制[J];自动化学报;1998年05期
8 程玉虎;王雪松;易建强;孙伟;;基于自组织模糊RBF网络的连续空间Q学习[J];信息与控制;2008年01期
,本文编号:763895
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/763895.html