基于深度强化学习的弹道导弹中段突防控制
发布时间:2021-06-13 16:22
提出了一种基于Markov决策过程的弹道导弹中段突防控制模型,并基于状态-动作对值函数建立了一种完全数据驱动的控制模型。为了加快深度神经网络的收敛速度、增强训练过程中的稳定性,引入了竞争架构和目标网络架构,设计了一种深度神经网络架构竞争双深度Q网络(D3Q)。对传统深度Q网络(DQN)的强化学习算法中的记忆池生成方法进行了改进,提升了训练样本质量。训练及验证结果表明,该方法实现了D3Q网络对弹道导弹中段突防最优控制模型的逼近。
【文章来源】:指挥信息系统与技术. 2020,11(04)
【文章页数】:10 页
【部分图文】:
正则项随训练步数变化
ECEF坐标系中攻防双方运动示意图
结构与损失函数计算流程
【参考文献】:
期刊论文
[1]基于深度强化学习的有轨电车信号优先控制[J]. 王云鹏,郭戈. 自动化学报. 2019(12)
[2]大气层外多拦截器协同跟踪与制导算法[J]. 张召,王恒,荆武兴,高长生. 宇航学报. 2019(07)
[3]多约束多规避区全程弹道快速优化方法[J]. 赵欣,秦伟伟,张显炀,何兵,闫循良. 固体火箭技术. 2019(02)
[4]基于“标准-3”动能拦截弹的顺轨拦截方法研究[J]. 黄梓宸,张雅声,柴华,刘瑶. 计算机测量与控制. 2018(01)
[5]面向任务约束的航天器姿控系统在轨重构算法[J]. 陈嘉文,程月华,姜斌,陆宁云,杨天社. 宇航学报. 2017(09)
[6]基于自适应动态规划的导弹制导律研究综述[J]. 孙景亮,刘春生. 自动化学报. 2017(07)
[7]一种考虑禁飞圆约束的在线再入弹道规划方法[J]. 王鹏,杨小龙,付维贤,李强. 导弹与航天运载技术. 2016(02)
[8]基于微分对策的导弹智能机动突防研究[J]. 鲜勇,田海鹏,王剑,史金倩. 飞行力学. 2014(01)
[9]国外弹道导弹机动突防策略浅析[J]. 方喜龙,刘新学,张高瑜,王芳. 飞航导弹. 2011(12)
[10]基于微分对策的弹道导弹机动突防研究[J]. 孙守明,汤国建,周伯昭. 弹箭与制导学报. 2010(04)
本文编号:3227881
【文章来源】:指挥信息系统与技术. 2020,11(04)
【文章页数】:10 页
【部分图文】:
正则项随训练步数变化
ECEF坐标系中攻防双方运动示意图
结构与损失函数计算流程
【参考文献】:
期刊论文
[1]基于深度强化学习的有轨电车信号优先控制[J]. 王云鹏,郭戈. 自动化学报. 2019(12)
[2]大气层外多拦截器协同跟踪与制导算法[J]. 张召,王恒,荆武兴,高长生. 宇航学报. 2019(07)
[3]多约束多规避区全程弹道快速优化方法[J]. 赵欣,秦伟伟,张显炀,何兵,闫循良. 固体火箭技术. 2019(02)
[4]基于“标准-3”动能拦截弹的顺轨拦截方法研究[J]. 黄梓宸,张雅声,柴华,刘瑶. 计算机测量与控制. 2018(01)
[5]面向任务约束的航天器姿控系统在轨重构算法[J]. 陈嘉文,程月华,姜斌,陆宁云,杨天社. 宇航学报. 2017(09)
[6]基于自适应动态规划的导弹制导律研究综述[J]. 孙景亮,刘春生. 自动化学报. 2017(07)
[7]一种考虑禁飞圆约束的在线再入弹道规划方法[J]. 王鹏,杨小龙,付维贤,李强. 导弹与航天运载技术. 2016(02)
[8]基于微分对策的导弹智能机动突防研究[J]. 鲜勇,田海鹏,王剑,史金倩. 飞行力学. 2014(01)
[9]国外弹道导弹机动突防策略浅析[J]. 方喜龙,刘新学,张高瑜,王芳. 飞航导弹. 2011(12)
[10]基于微分对策的弹道导弹机动突防研究[J]. 孙守明,汤国建,周伯昭. 弹箭与制导学报. 2010(04)
本文编号:3227881
本文链接:https://www.wllwen.com/kejilunwen/jingguansheji/3227881.html