数据驱动Q学习镇定控制

发布时间：2020-06-02 03:52

【摘要】：由于现代控制理论受制于系统的模型复杂程度与模型假设的可行性,无法对实际生产应用中越来越复杂的控制对象产生良好的镇定效果。系统复杂度提高的同时,由于计算机科学的发展,也使得这些复杂系统在生产运行中产生了大量的数据,这些数据相比较基于机理建立的系统模型包含了更多的被控对象动态信息。直接利用这些测量数据,跳过建模过程,即利用数据驱动(Data-Driven Control)的方式对复杂系统设计出满足性能要求的控制器具有十分现实的意义。针对数据驱动/无模型的控制器设计方法有很多,近似Q学习(Approximate Q-Learning,AQL)作为一种典型的强化学习(Reinforcement learning,RL)方法,由于其在被控对象的知识或者模型未知时求解非线性最优镇定控制问题的突出效果,近年来受到了广泛的关注。然而,由于函数逼近误差的存在,近似Q学习(AQL)算法只能给出非线性最优镇定控制问题的近似最优解。因此,最优性误差界的定量分析是一个十分关键的问题。这个问题在已发表的国内外文献中并没有被彻底的解决。本论文利用值迭代近似Q学习(AQL)方法求解数据驱动/无模型的最优镇定控制问题,并创新的提出了一种新的最优性误差界分析框架。主要研究内容如下:首先,为了便于可以清晰简洁地分析非线性动态系统最优镇定控制问题的最优性误差界,基于对被控对象闭环系统吸引域(Domain of Attraction,DOA)的估计,给出了非线性动态系统Q学习算子的概念,并给出了 Q学习算子的性质,对Q学习算子进行了严谨定义。其次,给出了值迭代近似Q学习(AQL)算法,该算法可以得到一个次优控制器。最后,高斯过程回归(Gaussian Processes Regression,GPR)是定义在函数分布上的贝叶斯建模过程,使用高斯过程回归(GPR)作为Q函数的函数估计器,高斯过程回归(GPR)可以将预测结果的标准差作为函数近似误差界。进而给出了 Q函数估计的误差范围以及值迭代近似Q学习闭环最优性误差界的定量分析结果,也就是最优指标与闭环系统近似Q学习(AQL)实际指标之间的误差界。本论文对线性被控对象、非线性被控对象和倒立摆模型分别进行了仿真实验,实验成果表明,基于值迭代近似Q学习(AQL)算法,通过本论文提出的最优性误差界分析框架,可以得到被控对象基于数据驱动控制的一个次优控制器,并给出了最优性误差界。从本文的主要成果中可以看出,当用于估计Q函数的有效数据数量和迭代算法迭代的次数都趋于无限的,最优性误差界为零。
【图文】：

方法,在线或离线,数据驱动,控制器设计

逦数据驱动Ｑ学习镇定控制逦逡逑显性地使用被控对象的物理化学模型，只通过被控对象在线或离线的数据经过处逡逑理后获得的知识和信息来实现控制目标的控制方法。同时在合理的假设下，闭环逡逑系统的稳定性和收敛性，能够被严格的分析。逡逑图１－２为数据驱动控制方法的基本结构，，正如上文中关于数据驱动控制的的逡逑定义所说，一方面，控制器的设计基于测量数据，模型不再在控制器设计的过程逡逑中起主导地位，被控系统的在线或离线数据才是控制器设计的核心因素，也就是逡逑说数据主导了控制系统的设计。另一方面，控制器的设计过程中仍然可能存在建逡逑模的过程，但这个过程只利用数据来获取模型知识，而不是物理化学原埋，只利逡逑用数据的建模过程可以避免引入过多的假设。然而，通过数据驱动控制方法得到逡逑的控制器，，仍然需要通过严格的理论分析来保证闭环系统的性能。逡逑

生物体,相互作用,环境

相互作用中有更大的可能和概率去使用这些成功的行为和决策［２６］。这是一种启发逡逑式学习的过程，这个过程的目的在于尽量使未来在与环境的不断相互作用中的回逡逑报尽可能的大。图１－３展示了环境与生物体相互作用的过程。逡逑在控制工程领域内，回报的最大化可以看作是控制指标的最小化。尽管强化逡逑学习（ＲＬ）的起源是从计算机科学领域发展而来，但它现在己经得到了控制领逡逑域科学家的理论验证。由于强化学习（ＲＬ）能够有效处理无模型／数据驱动的最逡逑４逡逑
【学位授予单位】：浙江工业大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP13

【相似文献】