基于深度强化学习的非线性系统自适应优化控制
发布时间:2021-10-05 16:25
本文基于深度强化学习技术,研究了一类连续时间非线性系统的自适应优化控制问题。对于复杂或模型未知的非线性系统来说,由于系统模型的复杂性和未知性,很难从模型的角度出发去设计优化控制算法。考虑到强化学习的决策能力与深度学习的环境感知能力,本文提出了三种在线求解连续时间非线性系统的自适应优化控制器算法。本文提出的深度强化学习算法最大的优点是将深度学习与强化学习相结合。本文的主要工作和贡献具体如下:首先,针对一类具有输入时滞的模型部分未知的连续时间非线性系统,研究了一种新的在线自适应优化控制器设计方案。利用线性微分包含技术对原系统进行线性化处理,通过在线策略迭代算法得到了线性化系统的自适应优化控制器,并证明了所设计的自适应优化控制算法的收敛性。最后,通过两个仿真实例验证了该方法的有效性。然后,研究了一类模型未知连续时间非线性系统的自适应优化控制器设计问题。结合Q-学习算法和生成式对抗网络方案,成功地设计了一种新的连续时间模型未知非线性系统的自适应优化控制算法。采用最新的生成式对抗网络训练策略来稳定系统,并证明了所设计的自适应优化控制算法的收敛性。最后,通过仿真实例验证了该方法的有效性,并通过与传...
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Pk的参数
安徽大学硕士学位论文15图(2.1)为算法随着迭代过程的代价矩阵参数变化曲线。代价矩阵参数经过一次迭代就可以收敛。图2.2系统的状态轨迹Figure2.2:Thestatetrajectoryofthesystem.图(2.2)为所设计的优化控制器作用下的状态轨迹。图2.3优化控制器的输入信号Figure2.3:Theinputsignaloftheoptimalcontroller.图(2.3)为所设计的优化控制器输入。
安徽大学硕士学位论文15图(2.1)为算法随着迭代过程的代价矩阵参数变化曲线。代价矩阵参数经过一次迭代就可以收敛。图2.2系统的状态轨迹Figure2.2:Thestatetrajectoryofthesystem.图(2.2)为所设计的优化控制器作用下的状态轨迹。图2.3优化控制器的输入信号Figure2.3:Theinputsignaloftheoptimalcontroller.图(2.3)为所设计的优化控制器输入。
【参考文献】:
期刊论文
[1]基于去随机化方法的Markov跳变系统有限频段控制[J]. 万海英,栾小丽,刘飞. 控制理论与应用. 2018(07)
[2]多支路加热炉分布式平衡与跟踪控制[J]. 栾小丽,闵鸯,刘飞. 自动化学报. 2017(06)
[3]基于分布式偏差的加热炉支路温度一致控制[J]. 闵鸯,栾小丽,刘飞. 化工学报. 2016(12)
[4]跳变系统在给定时间内的有限频段H∞控制[J]. 周超洁,栾小丽,刘飞. 控制理论与应用. 2016(02)
[5]具有噪声约束的时滞Markov跳变网络给定时间一致性协议设计[J]. 闵鸯,栾小丽,刘飞. 控制理论与应用. 2016(01)
本文编号:3420113
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Pk的参数
安徽大学硕士学位论文15图(2.1)为算法随着迭代过程的代价矩阵参数变化曲线。代价矩阵参数经过一次迭代就可以收敛。图2.2系统的状态轨迹Figure2.2:Thestatetrajectoryofthesystem.图(2.2)为所设计的优化控制器作用下的状态轨迹。图2.3优化控制器的输入信号Figure2.3:Theinputsignaloftheoptimalcontroller.图(2.3)为所设计的优化控制器输入。
安徽大学硕士学位论文15图(2.1)为算法随着迭代过程的代价矩阵参数变化曲线。代价矩阵参数经过一次迭代就可以收敛。图2.2系统的状态轨迹Figure2.2:Thestatetrajectoryofthesystem.图(2.2)为所设计的优化控制器作用下的状态轨迹。图2.3优化控制器的输入信号Figure2.3:Theinputsignaloftheoptimalcontroller.图(2.3)为所设计的优化控制器输入。
【参考文献】:
期刊论文
[1]基于去随机化方法的Markov跳变系统有限频段控制[J]. 万海英,栾小丽,刘飞. 控制理论与应用. 2018(07)
[2]多支路加热炉分布式平衡与跟踪控制[J]. 栾小丽,闵鸯,刘飞. 自动化学报. 2017(06)
[3]基于分布式偏差的加热炉支路温度一致控制[J]. 闵鸯,栾小丽,刘飞. 化工学报. 2016(12)
[4]跳变系统在给定时间内的有限频段H∞控制[J]. 周超洁,栾小丽,刘飞. 控制理论与应用. 2016(02)
[5]具有噪声约束的时滞Markov跳变网络给定时间一致性协议设计[J]. 闵鸯,栾小丽,刘飞. 控制理论与应用. 2016(01)
本文编号:3420113
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3420113.html