深度强化学习方法在飞行器控制中的应用研究
发布时间:2021-11-09 03:28
随着深度强化学习技术的快速发展,将其应用于飞行器控制领域成为研究热点。针对深度强化学习方法在飞行器控制中的应用问题,概述了深度强化学习的演变历史和发展现状,介绍了深度强化学习的典型应用场景和基本原理。进一步介绍了两种面向飞行控制的算法训练平台,明确了不同网络结构的控制特性及由飞行状态构建控制网络输入数据的方法。分析了将深度强化学习方法应用于飞行器控制中存在的问题,提出了相应的解决方案,并对其未来发展方向进行了展望。
【文章来源】:战术导弹技术. 2020,(04)北大核心
【文章页数】:7 页
【部分图文】:
Airsim内无人机场景
以现有控制器结构为基准控制结构,在不需要对现有飞行验证平台进行大量改进的情况下就可以实现对强化学习控制算法的快速验证,加快研究过程。此外,深度神经网络的黑箱模型是限制其在飞行控制中应用的关键因素,出于对飞行安全的考虑,不能直接将一个无法解释的控制器直接应用于飞行器控制中。通过使用现有控制结构,结合控制网络产生的控制参数可以对飞行过程进行动态分析。以PID控制结构为基准控制结构为例[16],现有PID控制器的控制参数通过增益调度的方式实现对不同阶段飞行过程的适应。在设计PID控制参数时,首先选取合理工作点,在工作点处将模型线性化,设计出一组PID控制参数。选取多组工作点,则可得到一个PID参数矩阵,通过插值的方法,得到一条PID参数变化的近似曲线,使用飞行过程中的系统长周期变量进行PID参数调度,过程如图4所示。
基于Gazebo的强化学习训练框架如图1所示。基于Gazebo搭建训练环境时,目的是实现强化学习算法与Gazebo进行交互,因而必须实现图1框架中各模块的通讯。在上述框架中,通过ROS实现Gazebo与Agent的数据和命令传递。
【参考文献】:
期刊论文
[1]固定翼无人机强化学习控制建模与算法设计[J]. 张友安,马国欣,刘京茂,孙玉梅. 飞行力学. 2019(04)
[2]深度强化学习概述[J]. 徐松林. 电脑知识与技术. 2019(03)
[3]基于Actor-Critic强化学习的倒立摆智能控制方法[J]. 邱宇宸. 武汉冶金管理干部学院学报. 2018(04)
[4]迈进高维连续空间:深度强化学习在机器人领域中的应用[J]. 多南讯,吕强,林辉灿,卫恒. 机器人. 2019(02)
[5]基于深度强化学习的自动驾驶策略学习方法[J]. 夏伟,李慧云. 集成技术. 2017(03)
[6]图像理解中的卷积神经网络[J]. 常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安. 自动化学报. 2016(09)
[7]基于参考模型的输出反馈强化学习控制[J]. 郝钏钏,方舟,李平. 浙江大学学报(工学版). 2013(03)
[8]基于互补滤波器的四旋翼飞行器姿态解算[J]. 梁延德,程敏,何福本,李航. 传感器与微系统. 2011(11)
[9]四旋翼飞行器的非线性PID姿态控制[J]. 宿敬亚,樊鹏辉,蔡开元. 北京航空航天大学学报. 2011(09)
[10]单神经元自适应PID控制器及其应用[J]. 丁军,徐用懋. 控制工程. 2004(01)
本文编号:3484531
【文章来源】:战术导弹技术. 2020,(04)北大核心
【文章页数】:7 页
【部分图文】:
Airsim内无人机场景
以现有控制器结构为基准控制结构,在不需要对现有飞行验证平台进行大量改进的情况下就可以实现对强化学习控制算法的快速验证,加快研究过程。此外,深度神经网络的黑箱模型是限制其在飞行控制中应用的关键因素,出于对飞行安全的考虑,不能直接将一个无法解释的控制器直接应用于飞行器控制中。通过使用现有控制结构,结合控制网络产生的控制参数可以对飞行过程进行动态分析。以PID控制结构为基准控制结构为例[16],现有PID控制器的控制参数通过增益调度的方式实现对不同阶段飞行过程的适应。在设计PID控制参数时,首先选取合理工作点,在工作点处将模型线性化,设计出一组PID控制参数。选取多组工作点,则可得到一个PID参数矩阵,通过插值的方法,得到一条PID参数变化的近似曲线,使用飞行过程中的系统长周期变量进行PID参数调度,过程如图4所示。
基于Gazebo的强化学习训练框架如图1所示。基于Gazebo搭建训练环境时,目的是实现强化学习算法与Gazebo进行交互,因而必须实现图1框架中各模块的通讯。在上述框架中,通过ROS实现Gazebo与Agent的数据和命令传递。
【参考文献】:
期刊论文
[1]固定翼无人机强化学习控制建模与算法设计[J]. 张友安,马国欣,刘京茂,孙玉梅. 飞行力学. 2019(04)
[2]深度强化学习概述[J]. 徐松林. 电脑知识与技术. 2019(03)
[3]基于Actor-Critic强化学习的倒立摆智能控制方法[J]. 邱宇宸. 武汉冶金管理干部学院学报. 2018(04)
[4]迈进高维连续空间:深度强化学习在机器人领域中的应用[J]. 多南讯,吕强,林辉灿,卫恒. 机器人. 2019(02)
[5]基于深度强化学习的自动驾驶策略学习方法[J]. 夏伟,李慧云. 集成技术. 2017(03)
[6]图像理解中的卷积神经网络[J]. 常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安. 自动化学报. 2016(09)
[7]基于参考模型的输出反馈强化学习控制[J]. 郝钏钏,方舟,李平. 浙江大学学报(工学版). 2013(03)
[8]基于互补滤波器的四旋翼飞行器姿态解算[J]. 梁延德,程敏,何福本,李航. 传感器与微系统. 2011(11)
[9]四旋翼飞行器的非线性PID姿态控制[J]. 宿敬亚,樊鹏辉,蔡开元. 北京航空航天大学学报. 2011(09)
[10]单神经元自适应PID控制器及其应用[J]. 丁军,徐用懋. 控制工程. 2004(01)
本文编号:3484531
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/3484531.html