基于图神经网络技术的水下无人系统智能决策研究
发布时间:2021-08-17 00:32
人工智能辅助决策,是实现水下无人系统集群作战应用智能化所面临的关键问题。在实际作战应用中,水下无人系统集群存在装备异构性、约束动态性、任务不确定性等问题。传统的人工智能方法难以解决状态及约束要素动态变化所导致的模型不确定性问题。图神经网络技术是基于认知科学的连接主义人工智能方法——关系型强化学习的一种。通过构建决策图,用决策图的顶点表示无人系统集群智能决策状态及约束要素属性,用决策图的边表示各决策要素之间的逻辑推理关系属性,通过强化学习方法训练整个决策图的顶点属性、边属性以及决策图全局属性,从而通过提取决策图的属性信息实现水下无人系统的人工智能辅助决策。本文旨在探究将图神经网络技术应用在水下无人系统智能辅助决策中的可行性,对水下无人系统智能辅助决策进行图神经网络建模,构建智能辅助决策推理算法伪代码,研究基于图神经网络技术的水下无人系统智能决策的技术实现。
【文章来源】:舰船科学技术. 2020,42(23)北大核心
【文章页数】:4 页
【部分图文】:
GNN理论模型Fig.2GNNtheoreticalmodel基于图神经网络的无人系统集群智能强化学习研
能决策GNN图的强化学习,目的是从4台无人水下航行器中选择几台来执行满足该约束与队形的任务。图4为MDP强化学习的仿真GNN决策图。其中节点1表示搜索任务,节点2表示能量约束,节点3表示任务对应的队形约束,节点4~节点7表示可以选择来完成任务的航行器,每个航行器的最大速度、续航能力等都不相同。如果能够满足任务需求该航行器代表的顶点与约束顶点的边属性即强化学习回报为1,否则回报为0。同理,决策时能够满足任务需求的边属性回报值为1,否则为0。图4MDP仿真模型GNN决策图Fig.4SimulationGNNDecisionGraphofMDP图5为基于图神经网络技术的水下无人系统智能决策Matlab仿真试验结果,其中纵坐标是决策图全局属性的总回报,横坐标是决策图进行强化学习训练的迭代步数。由图可知,在进行100次训练时就可以通过GNN决策图输出可以满足任务执行需求的决策结果。最优的决策图全局策略回报值为4,如果强化学习对决策图的训练结果总回报为4时即表示策略成功。图5智能决策强化学习仿真结果Fig.5IntelligentdecisionRLsimulationresults第42卷冯振宇,等:基于图神经网络技术的水下无人系统智能决策研究·65·
。同理,决策时能够满足任务需求的边属性回报值为1,否则为0。图4MDP仿真模型GNN决策图Fig.4SimulationGNNDecisionGraphofMDP图5为基于图神经网络技术的水下无人系统智能决策Matlab仿真试验结果,其中纵坐标是决策图全局属性的总回报,横坐标是决策图进行强化学习训练的迭代步数。由图可知,在进行100次训练时就可以通过GNN决策图输出可以满足任务执行需求的决策结果。最优的决策图全局策略回报值为4,如果强化学习对决策图的训练结果总回报为4时即表示策略成功。图5智能决策强化学习仿真结果Fig.5IntelligentdecisionRLsimulationresults第42卷冯振宇,等:基于图神经网络技术的水下无人系统智能决策研究·65·
本文编号:3346697
【文章来源】:舰船科学技术. 2020,42(23)北大核心
【文章页数】:4 页
【部分图文】:
GNN理论模型Fig.2GNNtheoreticalmodel基于图神经网络的无人系统集群智能强化学习研
能决策GNN图的强化学习,目的是从4台无人水下航行器中选择几台来执行满足该约束与队形的任务。图4为MDP强化学习的仿真GNN决策图。其中节点1表示搜索任务,节点2表示能量约束,节点3表示任务对应的队形约束,节点4~节点7表示可以选择来完成任务的航行器,每个航行器的最大速度、续航能力等都不相同。如果能够满足任务需求该航行器代表的顶点与约束顶点的边属性即强化学习回报为1,否则回报为0。同理,决策时能够满足任务需求的边属性回报值为1,否则为0。图4MDP仿真模型GNN决策图Fig.4SimulationGNNDecisionGraphofMDP图5为基于图神经网络技术的水下无人系统智能决策Matlab仿真试验结果,其中纵坐标是决策图全局属性的总回报,横坐标是决策图进行强化学习训练的迭代步数。由图可知,在进行100次训练时就可以通过GNN决策图输出可以满足任务执行需求的决策结果。最优的决策图全局策略回报值为4,如果强化学习对决策图的训练结果总回报为4时即表示策略成功。图5智能决策强化学习仿真结果Fig.5IntelligentdecisionRLsimulationresults第42卷冯振宇,等:基于图神经网络技术的水下无人系统智能决策研究·65·
。同理,决策时能够满足任务需求的边属性回报值为1,否则为0。图4MDP仿真模型GNN决策图Fig.4SimulationGNNDecisionGraphofMDP图5为基于图神经网络技术的水下无人系统智能决策Matlab仿真试验结果,其中纵坐标是决策图全局属性的总回报,横坐标是决策图进行强化学习训练的迭代步数。由图可知,在进行100次训练时就可以通过GNN决策图输出可以满足任务执行需求的决策结果。最优的决策图全局策略回报值为4,如果强化学习对决策图的训练结果总回报为4时即表示策略成功。图5智能决策强化学习仿真结果Fig.5IntelligentdecisionRLsimulationresults第42卷冯振宇,等:基于图神经网络技术的水下无人系统智能决策研究·65·
本文编号:3346697
本文链接:https://www.wllwen.com/shekelunwen/renwuzj/3346697.html