基于数据驱动Q学习的跟踪控制研究
发布时间:2021-08-27 19:14
最优跟踪控制问题一直是控制领域的研究热点,致力于优化由跟踪误差和控制输入所构成的性能指标函数,使得目标输出能够以较优的性能成本实现跟踪。传统的求解方法需要预先知道系统动力学的部分信息甚至是全部信息,对系统动力学信息的依赖性限制了传统方法的应用范围。自适应动态规划(adaptive dynamic programming,ADP)是一种具有自学习能力和优化能力的智能控制算法,已成为有效求解未知动态系统最优控制问题的一类新方法。在实际工程应用中,系统的状态信息一般是难以测量获得的,这限制了基于状态反馈框架的ADP学习算法的应用范围。同时,由于探测噪声的存在,基于值函数逼近方法的ADP方案存在最优控制参数学习值的偏差。因此,本文构建含有评价结构和执行结构的Q学习方案,用于求解离散时间未知线性系统的二次型跟踪(linear quadratic tracking,LQT)控制问题。本文的工作可概述如下:1.针对离散时间未知线性系统,求解最优LQT控制问题。首先,将原被控系统与参考轨迹构建为增广系统。其次,利用系统的输入数据序列、输出数据序列以及参考轨迹数据序列对增广系统的状态进行重构;基于重构后...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:100 页
【学位级别】:硕士
【部分图文】:
不同负载值0R下,基于内模原理的的正弦波跟踪误差kkyr2)斜波信号
第四章基于PI策略的off-policy数据驱动Q学习55图4-7Off-policy输出反馈Q学习PI算法在不同负载值0R下的跟踪误差kkyr图4-8近似成本函数的比较由图4-5所示,学习算法在第5次迭代时便收敛到控制器对应的最优值,图4-8的黄色曲面描述了从任意初始状态开始,被控系统在初始控制策略持续作用下的成本函数;对应的,蓝色曲面描述了算法在经过5次迭代收敛后获得的最优控制器下的成本函数。该图体现了经过off-policy数据驱动Q学习PI算法的学习,在最优学习控制器的作用下,被控系统的成本函数比在初始控制策略下的成本函数显著降低。本小节进一步给出仿真情况的比较,用来验证三个结论:其一,探测噪声不会对算法的学习结果造成偏差;其二,对于不同初始目标策略,该算法皆可收敛于最优值;其三,off-policy算法对于不同行为策略下的学习数据,最后都会收敛于最优值。
第五章基于VI策略的on-policy数据驱动Q学习75表明当实际负载值远离标称值时,跟踪性能会降低,甚至让系统变的不稳定。而从图5-7可以发现,当负载值远离标称值时,所提的学习算法仍能使系统快速跟踪上期望参考轨迹,表明本章算法能够通过在线实时学习而收敛到控制器参数对应的最优值,具有鲁棒性以及自适应性。图5-7On-policy输出反馈Q学习VI算法在不同负载值0R下的跟踪误差kkyr图5-8近似成本函数的比较由图5-5所示,学习算法经过10次迭代便收敛到控制器对应的最优值,图5-8的黄色曲面描述了从任意初始状态12(x,x)开始,被控系统在初始控制律的作用下的成本函数;对应的,蓝色曲面描述了算法经过10次迭代学习收敛到最优值后,系统在获得的
【参考文献】:
期刊论文
[1]基于自适应动态规划的航空航天飞行器鲁棒控制研究综述[J]. 穆朝絮,张勇,余瑶,孙长银. 空间控制技术与应用. 2019(04)
[2]Buck型变换器输出跟踪的自适应动态规划算法[J]. 李健,沈艳军,刘允刚. 控制理论与应用. 2017(03)
[3]基于自适应动态规划的导弹制导律研究综述[J]. 孙景亮,刘春生. 自动化学报. 2017(07)
[4]基于自适应动态规划的储能系统优化控制方法[J]. 李相俊,张晶琼,何宇婷,惠东. 电网技术. 2016(05)
[5]An overview on flight dynamics and control approaches for hypersonic vehicles[J]. XU Bin,SHI ZhongKe. Science China(Information Sciences). 2015(07)
[6]自适应动态规划综述[J]. 张化光,张欣,罗艳红,杨珺. 自动化学报. 2013(04)
本文编号:3366934
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:100 页
【学位级别】:硕士
【部分图文】:
不同负载值0R下,基于内模原理的的正弦波跟踪误差kkyr2)斜波信号
第四章基于PI策略的off-policy数据驱动Q学习55图4-7Off-policy输出反馈Q学习PI算法在不同负载值0R下的跟踪误差kkyr图4-8近似成本函数的比较由图4-5所示,学习算法在第5次迭代时便收敛到控制器对应的最优值,图4-8的黄色曲面描述了从任意初始状态开始,被控系统在初始控制策略持续作用下的成本函数;对应的,蓝色曲面描述了算法在经过5次迭代收敛后获得的最优控制器下的成本函数。该图体现了经过off-policy数据驱动Q学习PI算法的学习,在最优学习控制器的作用下,被控系统的成本函数比在初始控制策略下的成本函数显著降低。本小节进一步给出仿真情况的比较,用来验证三个结论:其一,探测噪声不会对算法的学习结果造成偏差;其二,对于不同初始目标策略,该算法皆可收敛于最优值;其三,off-policy算法对于不同行为策略下的学习数据,最后都会收敛于最优值。
第五章基于VI策略的on-policy数据驱动Q学习75表明当实际负载值远离标称值时,跟踪性能会降低,甚至让系统变的不稳定。而从图5-7可以发现,当负载值远离标称值时,所提的学习算法仍能使系统快速跟踪上期望参考轨迹,表明本章算法能够通过在线实时学习而收敛到控制器参数对应的最优值,具有鲁棒性以及自适应性。图5-7On-policy输出反馈Q学习VI算法在不同负载值0R下的跟踪误差kkyr图5-8近似成本函数的比较由图5-5所示,学习算法经过10次迭代便收敛到控制器对应的最优值,图5-8的黄色曲面描述了从任意初始状态12(x,x)开始,被控系统在初始控制律的作用下的成本函数;对应的,蓝色曲面描述了算法经过10次迭代学习收敛到最优值后,系统在获得的
【参考文献】:
期刊论文
[1]基于自适应动态规划的航空航天飞行器鲁棒控制研究综述[J]. 穆朝絮,张勇,余瑶,孙长银. 空间控制技术与应用. 2019(04)
[2]Buck型变换器输出跟踪的自适应动态规划算法[J]. 李健,沈艳军,刘允刚. 控制理论与应用. 2017(03)
[3]基于自适应动态规划的导弹制导律研究综述[J]. 孙景亮,刘春生. 自动化学报. 2017(07)
[4]基于自适应动态规划的储能系统优化控制方法[J]. 李相俊,张晶琼,何宇婷,惠东. 电网技术. 2016(05)
[5]An overview on flight dynamics and control approaches for hypersonic vehicles[J]. XU Bin,SHI ZhongKe. Science China(Information Sciences). 2015(07)
[6]自适应动态规划综述[J]. 张化光,张欣,罗艳红,杨珺. 自动化学报. 2013(04)
本文编号:3366934
本文链接:https://www.wllwen.com/kejilunwen/yysx/3366934.html