飞行器强化学习多模在轨控制
发布时间:2021-04-14 01:28
为了提高飞行器控制系统长期在轨飞行的可靠性,提出了一种基于强化学习的多模式控制系统方案。该系统包括传感器模块、控制模块和执行模块。其中,传感器模块用于向控制模块实时输入飞行器敏感的飞行数据,该数据分为可供飞行器控制直接使用的具有历史相关性的多维结构化浮点数据以及某特定传感器独有的物理表征量;控制模块使用实时并行化决策机制,分为输入层、特征抽取层和全连接层;执行模块用于接收控制模块实时输出的驱动数据,包括用于决策的状态最优值和用于评价的动作输出值。系统根据用于决策的回报最优值决定使用哪些具体的执行模块,而某个被选定的具体执行模块的输出值取决于用于评价的动作输出值。该系统使飞行器在多模式输入输出状态下具备15ms快响应,5.23GOPs/sec/W(性能功耗比单位)性能功耗比的能力。
【文章来源】:西安电子科技大学学报. 2020,47(02)北大核心EICSCD
【文章页数】:8 页
【部分图文】:
系统组成框图
控制模块的输入数据使用了(1)结构化传感浮点数据,因多模块的表现与输入的结构化传感浮点数据有关,可以根据浮点数据在不同的范围,进行多模块智能控制。(2)使用具有相似表征物理量雷达的回波、可见光的像素等信息,比较该信息与预设门限值的关系,则控制模块的输入层2将相应传感器集成模块数据处于工作状态或休眠状态。即在t时刻,飞行器处于一个确定的状态st,包括t时刻的结构化传感浮点数据st d及特有传感器独有的物理表征量st W1,st W2,其中W1,W2表示输入层2的编号,上侧为1,下侧为2。控制模块可以分别采用如图2和图3所示的两种网络结构。图3 控制模块基于A3 C的网络结构图
图2 控制模块基于Deep Q-Learning网络结构图图2中,控制模块基于Deep Q-Learning网络结构,输入层1,为结构化传感浮点数据在经过特征抽取层1进行特征抽取后,分别与组合作为输入层2。之后在经过全连接层1和全连接层2进行特征降维处理后,得到最后的输出层。输出层的维度是2,分别表示选择具有两个多控制模块这两种动作所对应的状态动作Q值。控制模块决策机制采用了强化学习方法。其最大亮点在于通过神经网络来映射状态和状态动作Q值函数之间的关系。由于多控制模块的输入都是同样的传感结构化浮点数,具有一定的对称性。
本文编号:3136385
【文章来源】:西安电子科技大学学报. 2020,47(02)北大核心EICSCD
【文章页数】:8 页
【部分图文】:
系统组成框图
控制模块的输入数据使用了(1)结构化传感浮点数据,因多模块的表现与输入的结构化传感浮点数据有关,可以根据浮点数据在不同的范围,进行多模块智能控制。(2)使用具有相似表征物理量雷达的回波、可见光的像素等信息,比较该信息与预设门限值的关系,则控制模块的输入层2将相应传感器集成模块数据处于工作状态或休眠状态。即在t时刻,飞行器处于一个确定的状态st,包括t时刻的结构化传感浮点数据st d及特有传感器独有的物理表征量st W1,st W2,其中W1,W2表示输入层2的编号,上侧为1,下侧为2。控制模块可以分别采用如图2和图3所示的两种网络结构。图3 控制模块基于A3 C的网络结构图
图2 控制模块基于Deep Q-Learning网络结构图图2中,控制模块基于Deep Q-Learning网络结构,输入层1,为结构化传感浮点数据在经过特征抽取层1进行特征抽取后,分别与组合作为输入层2。之后在经过全连接层1和全连接层2进行特征降维处理后,得到最后的输出层。输出层的维度是2,分别表示选择具有两个多控制模块这两种动作所对应的状态动作Q值。控制模块决策机制采用了强化学习方法。其最大亮点在于通过神经网络来映射状态和状态动作Q值函数之间的关系。由于多控制模块的输入都是同样的传感结构化浮点数,具有一定的对称性。
本文编号:3136385
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/3136385.html