Q-learning强化学习制导律

发布时间：2021-02-15 02:52

　　在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。

【文章来源】：系统工程与电子技术. 2020,42(02)北大核心

【文章页数】：6 页

【部分图文】：

Q-learning强化学习制导律

弹目相对运动关系

流程图,算法,变比,流程图

算法流程图

导引弹道,命中点,折扣

学习率α=0.01；折扣率γ=0.99。折扣率不能选择太小，如果折扣率过小将导致命中点处的正奖励无法扩散到命中点之前的时刻，也就是说导弹很有可能无法学习得到一个到达命中点处的策略。图3是经过强化学习实验仿真得到的导引弹道，并将其与相同初始条件下的比例导引弹道进行对比。如图3所示，Q-learning制导律（Q-learning navigation guidance,QNG）的导引弹道如红线所示，PNG的导引弹道如蓝线所示。可以看出，QNG训练时，在制导前段，由于动作的选择是基于PNG给出的过载指令，导引弹道依然能发挥PNG的优势，仅在命中点处给出较大的奖励，并将这个奖励扩散到之前的每一时刻的动作决策中，此举可以大大提高制导精度，并且使整段弹道平滑。

【参考文献】：
期刊论文
[1]基于强化学习的旋翼无人机智能追踪方法[J]. 史豪斌,徐梦.  电子科技大学学报. 2019(04)
[2]基于强化学习的自主式水下潜器障碍规避技术（英文）[J]. Prashant Bhopale,Faruk Kazi,Navdeep Singh.  Journal of Marine Science and Application. 2019(02)
[3]基于深度强化学习的追逃博弈算法[J]. 谭浪,巩庆海,王会霞.  航天控制. 2018(06)
[4]Illegal Radio Station Localization with UAV-Based Q-Learning[J]. Shengjun Wu.  中国通信. 2018(12)
[5]基于Q-Learning算法和神经网络的飞艇控制[J]. 聂春雨,祝明,郑泽伟,武哲.  北京航空航天大学学报. 2017(12)
[6]基于Q学习的变体无人机控制系统设计[J]. 徐小野,李爱军,张丛丛,姚宗信.  西北工业大学学报. 2012(03)
[7]基于模糊Q学习算法的AGV路径规划研究[J]. 陈自立,徐娅萍,顾立彬.  制造业自动化. 2012(11)
[8]Hybrid MDP based integrated hierarchical Q-learning[J]. TARN Tzyh-Jong.  Science China（Information Sciences）. 2011(11)
[9]一种基于强化学习的UAV目标搜索算法[J]. 张晶晶,周德云,张堃.  计算机应用研究. 2011(10)
[10]Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J]. Amanda LAMPTON,John VALASEK,Mrinal KUMAR.  Journal of Control Theory and Applications. 2011(03)

硕士论文
[1]基于强化学习的无人机空中格斗算法研究[D]. 魏航.哈尔滨工业大学 2015
[2]拦截大机动目标的模糊导引律研究[D]. 李红霞.东北大学 2013
[3]基于模糊逻辑的精确末制导律研究[D]. 郭鹏飞.西北工业大学 2003

本文编号：3034300

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jingguansheji/3034300.html

上一篇：浮球平台电容式姿态测量系统研究
下一篇：基于免疫Agent算法的无人艇协同作战研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|