数据驱动Q学习镇定控制
发布时间:2020-06-02 03:52
【摘要】:由于现代控制理论受制于系统的模型复杂程度与模型假设的可行性,无法对实际生产应用中越来越复杂的控制对象产生良好的镇定效果。系统复杂度提高的同时,由于计算机科学的发展,也使得这些复杂系统在生产运行中产生了大量的数据,这些数据相比较基于机理建立的系统模型包含了更多的被控对象动态信息。直接利用这些测量数据,跳过建模过程,即利用数据驱动(Data-Driven Control)的方式对复杂系统设计出满足性能要求的控制器具有十分现实的意义。针对数据驱动/无模型的控制器设计方法有很多,近似Q学习(Approximate Q-Learning,AQL)作为一种典型的强化学习(Reinforcement learning,RL)方法,由于其在被控对象的知识或者模型未知时求解非线性最优镇定控制问题的突出效果,近年来受到了广泛的关注。然而,由于函数逼近误差的存在,近似Q学习(AQL)算法只能给出非线性最优镇定控制问题的近似最优解。因此,最优性误差界的定量分析是一个十分关键的问题。这个问题在已发表的国内外文献中并没有被彻底的解决。本论文利用值迭代近似Q学习(AQL)方法求解数据驱动/无模型的最优镇定控制问题,并创新的提出了一种新的最优性误差界分析框架。主要研究内容如下:首先,为了便于可以清晰简洁地分析非线性动态系统最优镇定控制问题的最优性误差界,基于对被控对象闭环系统吸引域(Domain of Attraction,DOA)的估计,给出了非线性动态系统Q学习算子的概念,并给出了 Q学习算子的性质,对Q学习算子进行了严谨定义。其次,给出了值迭代近似Q学习(AQL)算法,该算法可以得到一个次优控制器。最后,高斯过程回归(Gaussian Processes Regression,GPR)是定义在函数分布上的贝叶斯建模过程,使用高斯过程回归(GPR)作为Q函数的函数估计器,高斯过程回归(GPR)可以将预测结果的标准差作为函数近似误差界。进而给出了 Q函数估计的误差范围以及值迭代近似Q学习闭环最优性误差界的定量分析结果,也就是最优指标与闭环系统近似Q学习(AQL)实际指标之间的误差界。本论文对线性被控对象、非线性被控对象和倒立摆模型分别进行了仿真实验,实验成果表明,基于值迭代近似Q学习(AQL)算法,通过本论文提出的最优性误差界分析框架,可以得到被控对象基于数据驱动控制的一个次优控制器,并给出了最优性误差界。从本文的主要成果中可以看出,当用于估计Q函数的有效数据数量和迭代算法迭代的次数都趋于无限的,最优性误差界为零。
【图文】:
逦数据驱动Q学习镇定控制逦逡逑显性地使用被控对象的物理化学模型,只通过被控对象在线或离线的数据经过处逡逑理后获得的知识和信息来实现控制目标的控制方法。同时在合理的假设下,闭环逡逑系统的稳定性和收敛性,能够被严格的分析。逡逑图1-2为数据驱动控制方法的基本结构,,正如上文中关于数据驱动控制的的逡逑定义所说,一方面,控制器的设计基于测量数据,模型不再在控制器设计的过程逡逑中起主导地位,被控系统的在线或离线数据才是控制器设计的核心因素,也就是逡逑说数据主导了控制系统的设计。另一方面,控制器的设计过程中仍然可能存在建逡逑模的过程,但这个过程只利用数据来获取模型知识,而不是物理化学原埋,只利逡逑用数据的建模过程可以避免引入过多的假设。然而,通过数据驱动控制方法得到逡逑的控制器,,仍然需要通过严格的理论分析来保证闭环系统的性能。逡逑
相互作用中有更大的可能和概率去使用这些成功的行为和决策[26]。这是一种启发逡逑式学习的过程,这个过程的目的在于尽量使未来在与环境的不断相互作用中的回逡逑报尽可能的大。图1-3展示了环境与生物体相互作用的过程。逡逑在控制工程领域内,回报的最大化可以看作是控制指标的最小化。尽管强化逡逑学习(RL)的起源是从计算机科学领域发展而来,但它现在己经得到了控制领逡逑域科学家的理论验证。由于强化学习(RL)能够有效处理无模型/数据驱动的最逡逑4逡逑
【学位授予单位】:浙江工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP13
【图文】:
逦数据驱动Q学习镇定控制逦逡逑显性地使用被控对象的物理化学模型,只通过被控对象在线或离线的数据经过处逡逑理后获得的知识和信息来实现控制目标的控制方法。同时在合理的假设下,闭环逡逑系统的稳定性和收敛性,能够被严格的分析。逡逑图1-2为数据驱动控制方法的基本结构,,正如上文中关于数据驱动控制的的逡逑定义所说,一方面,控制器的设计基于测量数据,模型不再在控制器设计的过程逡逑中起主导地位,被控系统的在线或离线数据才是控制器设计的核心因素,也就是逡逑说数据主导了控制系统的设计。另一方面,控制器的设计过程中仍然可能存在建逡逑模的过程,但这个过程只利用数据来获取模型知识,而不是物理化学原埋,只利逡逑用数据的建模过程可以避免引入过多的假设。然而,通过数据驱动控制方法得到逡逑的控制器,,仍然需要通过严格的理论分析来保证闭环系统的性能。逡逑
相互作用中有更大的可能和概率去使用这些成功的行为和决策[26]。这是一种启发逡逑式学习的过程,这个过程的目的在于尽量使未来在与环境的不断相互作用中的回逡逑报尽可能的大。图1-3展示了环境与生物体相互作用的过程。逡逑在控制工程领域内,回报的最大化可以看作是控制指标的最小化。尽管强化逡逑学习(RL)的起源是从计算机科学领域发展而来,但它现在己经得到了控制领逡逑域科学家的理论验证。由于强化学习(RL)能够有效处理无模型/数据驱动的最逡逑4逡逑
【学位授予单位】:浙江工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP13
【相似文献】
相关期刊论文 前10条
1 吕煜航;;探究大数据驱动的社会科学研究转型[J];科学技术创新;2019年14期
2 王学勇;费廷伟;史旭升;王文琦;;数据驱动的智慧企业管理新模式探索[J];军民两用技术与产品;2019年05期
3 李平;蒋君毅;;基于大数据驱动的高校学生就业服务效能提升研究[J];科技经济导刊;2019年17期
4 程梦瑶;;达索系统:数据驱动 助力城市复兴之路[J];软件和集成电路;2019年11期
5 周德立;;浅论基于数据驱动的智能舞台技术研究[J];传播力研究;2018年20期
6 方璐;;语料库数据驱动的外语学习:思想、方法和技术[J];课程教育研究;2017年29期
7 冯艳艳;;从判断性评价到专业化诊断[J];中小学信息技术教育;2017年10期
8 李睿;;基于语料库的数据驱动学习在外语教学中的前景[J];甘肃教育;2007年14期
9 姚琥;;数据驱动,智慧风控[J];金融电子化;2017年02期
10 王瑜;;大数据驱动“互联网+政务服务”模式创新[J];才智;2017年07期
相关会议论文 前10条
1 高欣;;基于元数据驱动的通信协议建模技术[A];全国冶金自动化信息网2015年会论文集[C];2015年
2 胡继华;;元数据驱动在信息资源管理中的应用研究——以城建行业为例[A];中国地理信息系统协会第三次代表大会暨第七届年会论文集[C];2003年
3 吴佳;王
本文编号:2692565
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2692565.html