基于深度强化学习的舰艇空中威胁行为建模
发布时间:2021-08-18 11:50
随着武器装备智能化发展的速度加快,传统武器装备的训练方法已经无法满足大规模现代战争的训练需求。在近十年中深度强化学习等人工智能方法在棋类以及电子竞技游戏中取得了极大突破,证明了人工智能方法在面对大搜索空间博弈问题的优势,能够有效解决军事对抗问题中的形势预判和临机调整问题。基于此背景,依托海军舰艇对空方面作战,开展了深度强化学习的方法研究。首先通过并行场景建模技术以及空中威胁决策行为建模技术实现深度学习模型的构建,之后通过单机突防场景的对抗迭代学习,得到收敛的突防策略。验证了深度强化学习方法在空中威胁行为构建场景的可行性,为后续深入开展编队联合防空训练场景构建提供支撑。
【文章来源】:现代防御技术. 2020,48(05)
【文章页数】:8 页
【部分图文】:
智能体建模架构
本文采用深度强化学习算法完成空中威胁智能体的建模过程,提升空中威胁智能体的决策能力。框架如图2所示[5]。智能体通过在环境中不断地探索生成动作、感知状态和获得回报,从大数据中获得复杂因素的关联性和问题处理的完备性,加强其对复杂关联关系的拟合能力。在本文中,考虑常规强化学习的配置,其中空中威胁智能体会与对抗场景产生互动。在每一个仿真间隔t,空中威胁智能体都会观测到一组态势信息st∈S,分析判断之后,让空中威胁做出一组动作at∈A,然后会收到环境反馈的奖励值r(st,at)∈R,经过一段时间的迭代训练,智能体会形成一个决策集合π∶S→A[6]。
通过智能体飞行决策轨迹趋势能够直观看出智能体能够通过降低高度躲避雷达跟踪并尽量深入到武器发射区内执行投弹过程。同时由于投弹限制,为了确保生存,智能体在投弹结束后会尽快降低高度以躲避舰艇防空导弹打击。学习的结果收敛且基本满足预期。图4 算法流程
【参考文献】:
期刊论文
[1]贴近实战的外军军事训练[J]. 钟华. 国防科技. 2014(04)
本文编号:3349834
【文章来源】:现代防御技术. 2020,48(05)
【文章页数】:8 页
【部分图文】:
智能体建模架构
本文采用深度强化学习算法完成空中威胁智能体的建模过程,提升空中威胁智能体的决策能力。框架如图2所示[5]。智能体通过在环境中不断地探索生成动作、感知状态和获得回报,从大数据中获得复杂因素的关联性和问题处理的完备性,加强其对复杂关联关系的拟合能力。在本文中,考虑常规强化学习的配置,其中空中威胁智能体会与对抗场景产生互动。在每一个仿真间隔t,空中威胁智能体都会观测到一组态势信息st∈S,分析判断之后,让空中威胁做出一组动作at∈A,然后会收到环境反馈的奖励值r(st,at)∈R,经过一段时间的迭代训练,智能体会形成一个决策集合π∶S→A[6]。
通过智能体飞行决策轨迹趋势能够直观看出智能体能够通过降低高度躲避雷达跟踪并尽量深入到武器发射区内执行投弹过程。同时由于投弹限制,为了确保生存,智能体在投弹结束后会尽快降低高度以躲避舰艇防空导弹打击。学习的结果收敛且基本满足预期。图4 算法流程
【参考文献】:
期刊论文
[1]贴近实战的外军军事训练[J]. 钟华. 国防科技. 2014(04)
本文编号:3349834
本文链接:https://www.wllwen.com/kejilunwen/jingguansheji/3349834.html