基于强化学习的末制导导引律设计
发布时间:2021-01-16 05:38
导引率设计是一种与计算机技术与控制工程相关的技术,也是一个备受学术界和工业界关注的制导领域非常活跃的分支。近年来,导引率设计在人工智能制导的许多领域都有应用,如何在现实情况下精确制导就成为当今导弹导引率设计的重要的研究课题。然而,现今的制导通常存在如下问题:需要在模拟环境下训练,而模拟环境的设计需要很强的专业背景知识。在目标做多种机动的情况下效果差。当对导弹的飞行状态做制约时,拦截的效果差。在实际应用中,模拟器与真实环境存在差异;追求时效性和精确性,往往要求在模拟器下训练的算法有很强的鲁棒性。为了解决这类问题,本文提出了一种新的导引律设计方法,该方法不存在最优控制方法的缺点。在给定导弹模型和环境动力学的情况下,该方法利用强化学习(RL)学习给定的最优制导律。与现有基于控制工程的导引率设计算法不同,本文中通过强化学习的方法,精确捕捉到环境的动态变化,因此大大提升了算法的鲁棒性。同时解决了上述三个难题,实现了一个可实时的末制导模型。在目标多机动的条件下,击中效果较好且为端到端学习。
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
导弹拦截示意图
图 2-2 强化学习交互示意图过程可以概括为以下三点(1)强化学习代理获取到当境状态从 转移到 。(3)强化学习代理获取到下an 于 1957 年提出这种强化学习框架之后,Barto 于 1引入学习理论。下面介绍强化学习的基本原理及概夫性质简便,我们只在强化学习中考虑一阶马尔科夫性。个离散时间随机控制过程是马尔科夫的,如果它满1 1 0 0( | , ) ( | , ,..., , )t t t t t tP w w a P w w a w a 0 0( | , ) ( | , ,..., , )t t t t t tP r w a P r w a w a质意味着在整个随机过程中,下一时刻的环境状态状态信息有关,而与过去的历史状态毫无联系。 的 核 心 理 论 基 础 是 马 尔 科 夫 决 策 过 程 (Marko
图 2-3 MDP 示意图的策略学习研究中策略指的是强化学习代理根据它所感知到的当信息从状态集合中挑选合适的动作执行的过程。策略以强化式可以分为确定性策略和统计性策略:策略情况下: ( s ) :S A.确定性策略直接将当前环境的状强化学习代理所要执行的动作。策略情况下: ( s , a ) : S A [0,1].它描述了基于当前环境学习代理执行动作的统计分布情况。学习的优化目标绍累积回报的概念:设强化学习代理通过执行策略 与环一条轨迹 。 的形式为{0 0, 0 1 1, 1 2 2, 2 ,, , , , , ,..., ,T T Ts a r s a r s a r s a r },这止时刻。则任意时刻 t 的累积回报定义为:( )kt kR t r
【参考文献】:
期刊论文
[1]变论域模糊自适应滑模有限时间收敛制导律[J]. 张旭,雷虎民,李炯,翟岱亮. 国防科技大学学报. 2015(02)
[2]一种基于目标机动补偿的协同制导律[J]. 周华,刘红军,王泽,廖馨,郝颖. 导弹与航天运载技术. 2015(01)
[3]高阶滑模制导律的设计与实现[J]. 马克茂,董继鹏,张金鹏. 航空兵器. 2014(05)
[4]变结构经典比例导引制导性能对比研究[J]. 姚怀瑾,林德福,臧路尧,王武刚. 计算机仿真. 2014(07)
[5]Improved differential geometric guidance commands for endoatmospheric interception of high-speed targets[J]. LI KeBo,CHEN Lei,TANG GuoJin. Science China(Technological Sciences). 2013(02)
[6]Nonlinear differential geometric guidance for maneuvering target[J]. Jikun Ye 1,*,Humin Lei 1,Dongfeng Xue 2,Jiong Li 1,and Lei Shao 1 1.Department of Missile Engineering,Missile Institute of Air Force Engineering University,Sanyuan 713800,P.R.China;2.Department of Strategies,Science College of Air Force Engineering University,Xi’an 710051,P.R.China. Journal of Systems Engineering and Electronics. 2012(05)
[7]一种改进的比例导引规律的设计与仿真[J]. 袁泉,赵秀娜,马宏绪,黄茜薇. 计算机仿真. 2007(07)
[8]国外钻地武器的现状与发展趋势[J]. 王涛,余文力,王少龙,权威. 导弹与航天运载技术. 2005(05)
本文编号:2980254
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
导弹拦截示意图
图 2-2 强化学习交互示意图过程可以概括为以下三点(1)强化学习代理获取到当境状态从 转移到 。(3)强化学习代理获取到下an 于 1957 年提出这种强化学习框架之后,Barto 于 1引入学习理论。下面介绍强化学习的基本原理及概夫性质简便,我们只在强化学习中考虑一阶马尔科夫性。个离散时间随机控制过程是马尔科夫的,如果它满1 1 0 0( | , ) ( | , ,..., , )t t t t t tP w w a P w w a w a 0 0( | , ) ( | , ,..., , )t t t t t tP r w a P r w a w a质意味着在整个随机过程中,下一时刻的环境状态状态信息有关,而与过去的历史状态毫无联系。 的 核 心 理 论 基 础 是 马 尔 科 夫 决 策 过 程 (Marko
图 2-3 MDP 示意图的策略学习研究中策略指的是强化学习代理根据它所感知到的当信息从状态集合中挑选合适的动作执行的过程。策略以强化式可以分为确定性策略和统计性策略:策略情况下: ( s ) :S A.确定性策略直接将当前环境的状强化学习代理所要执行的动作。策略情况下: ( s , a ) : S A [0,1].它描述了基于当前环境学习代理执行动作的统计分布情况。学习的优化目标绍累积回报的概念:设强化学习代理通过执行策略 与环一条轨迹 。 的形式为{0 0, 0 1 1, 1 2 2, 2 ,, , , , , ,..., ,T T Ts a r s a r s a r s a r },这止时刻。则任意时刻 t 的累积回报定义为:( )kt kR t r
【参考文献】:
期刊论文
[1]变论域模糊自适应滑模有限时间收敛制导律[J]. 张旭,雷虎民,李炯,翟岱亮. 国防科技大学学报. 2015(02)
[2]一种基于目标机动补偿的协同制导律[J]. 周华,刘红军,王泽,廖馨,郝颖. 导弹与航天运载技术. 2015(01)
[3]高阶滑模制导律的设计与实现[J]. 马克茂,董继鹏,张金鹏. 航空兵器. 2014(05)
[4]变结构经典比例导引制导性能对比研究[J]. 姚怀瑾,林德福,臧路尧,王武刚. 计算机仿真. 2014(07)
[5]Improved differential geometric guidance commands for endoatmospheric interception of high-speed targets[J]. LI KeBo,CHEN Lei,TANG GuoJin. Science China(Technological Sciences). 2013(02)
[6]Nonlinear differential geometric guidance for maneuvering target[J]. Jikun Ye 1,*,Humin Lei 1,Dongfeng Xue 2,Jiong Li 1,and Lei Shao 1 1.Department of Missile Engineering,Missile Institute of Air Force Engineering University,Sanyuan 713800,P.R.China;2.Department of Strategies,Science College of Air Force Engineering University,Xi’an 710051,P.R.China. Journal of Systems Engineering and Electronics. 2012(05)
[7]一种改进的比例导引规律的设计与仿真[J]. 袁泉,赵秀娜,马宏绪,黄茜薇. 计算机仿真. 2007(07)
[8]国外钻地武器的现状与发展趋势[J]. 王涛,余文力,王少龙,权威. 导弹与航天运载技术. 2005(05)
本文编号:2980254
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2980254.html