基于数据驱动的离散系统迭代学习控制与强化学习控制的研究
本文关键词:基于数据驱动的离散系统迭代学习控制与强化学习控制的研究
更多相关文章: 数据驱动 不适定问题 Tikhonov正则化 迭代学习控制 强化学习控制
【摘要】:计算机技术的发展,使得数据易于存储和处理,这使运用基于数据驱动的控制方法成为可能。这种方法不需要分析系统内部的详细知识,也不需要知道系统运行的基本规律,仅仅涉及控制理论过程中的输入输出数据,因此适用于带非线性和不确定性的复杂控制模型。由于计算机所存储的数据是从实际系统中测量得到的,从而导致了这些数据不可避免地会受到外界噪声的扰动。这导致基于数据驱动的控制方法,在某些情况下会变得不适定。本文主要对基于数据驱动的离散系统迭代学控制与强化学习控制中出现的不适定性进行研究。所做工作主要有以下两点:1.针对于离散系统的迭代学习控制问题,提出了一个改进的算法。在使用迭代学习控制过程中,由于系统初始值发生偏移,导致控制输入序列的误差增大。针对这个问题,提出在迭代学习控制过程中对系统的脉冲响应序列进行修正的策略,同时采用正则化理论的方法,得到了一个改进的迭代学习控制算法。这个算法可以在一定程度上克服由系统初态的随机性而引起的扰动,提高迭代学习控制算法的稳定性。仿真算例说明了该算法的有效性。2.研究了基于数据驱动的离散系统强化学习控制中的正则化问题为了使性能指标达到最优,在求解最优控制序列的过程中,针对强化学习控制中出现的不适定性,采用Tikhonov正则化的方法,在线性二次型调节器的Bellman方程中加入正则化参数,从而得到改进的离散系统强化学习算法。所给出算法具有更好的稳定性。仿真实例表明该方法具有可行性和有效性。
【关键词】:数据驱动 不适定问题 Tikhonov正则化 迭代学习控制 强化学习控制
【学位授予单位】:辽宁科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP13
【目录】:
- 中文摘要5-6
- ABSTRACT6-9
- 1. 绪论9-12
- 1.1 研究背景及意义9
- 1.2 国内外研究现状9-11
- 1.2.1 控制理论及控制工程的研究现状及发展9-10
- 1.2.2 数据驱动控制的研究现状及发展10-11
- 1.3 论文研究内容及组织结构11-12
- 2. 基本理论知识12-19
- 2.1 最优控制的基本理论12-15
- 2.1.1 最优控制12-13
- 2.1.2 动态规划13-15
- 2.2 不适定问题和Tikhonov正则化15-19
- 2.2.1 不适定问题16-17
- 2.2.2 Tikhonov正则化17-19
- 3. 基于数据驱动的迭代学习控制19-32
- 3.1 迭代学习控制19-20
- 3.2 基于数据的迭代学习控制的不适定性20-24
- 3.2.1 模型知识20-22
- 3.2.2 基于正则化理论的迭代学习控制修正公式22
- 3.2.3 关于初值的进一步讨论22-24
- 3.2.4 基于正则化理论的迭代学习算法24
- 3.3 算例仿真24-31
- 3.4 本章小结31-32
- 4. 基于数据驱动的强化学习控制32-48
- 4.1 引言32
- 4.2 模型描述32-36
- 4.2.1 线性二次型调节器问题的不适定性32-34
- 4.2.2 差分,PI算法和VI算法34-36
- 4.3 基于输出反馈(OPFB)的PI算法和VI算法36-41
- 4.3.1 关于可测数据的价值函数[59]37-39
- 4.3.2 关于可测数据的差分误差和策略修正39-40
- 4.3.3 基于OPFB的PI算法40-41
- 4.3.4 基于OPFB的VI算法41
- 4.4 算例仿真41-47
- 4.4.1 OPFB VI算法的实例仿真41-45
- 4.4.2 OPFB PI算法的实例仿真45-47
- 4.5 本章小结47-48
- 5. 结论与展望48-49
- 5.1 结论48
- 5.2 展望48-49
- 参考文献49-53
- 攻读硕士学位期间发表学术论文情况53-54
- 致谢54-55
- 作者简介55
【相似文献】
中国期刊全文数据库 前10条
1 石成英 ,林辉;迭代学习控制的研究与应用进展[J];测控技术;2004年02期
2 李仁俊,韩正之;迭代学习控制综述[J];控制与决策;2005年09期
3 张兴国;林辉;;迭代学习控制理论进展与展望[J];测控技术;2006年11期
4 陈若珠;宋军伟;李战明;;迭代学习控制在大惯性系统中的应用[J];微计算机信息;2007年19期
5 孔祥波;郝晓弘;;迭代学习控制的研究与应用[J];甘肃科技;2008年07期
6 马航;杨俊友;袁琳;;迭代学习控制研究现状与趋势[J];控制工程;2009年03期
7 郝晓弘;胡振邦;朱洁;秦睿;;迭代学习控制的研究现状[J];微型机与应用;2010年11期
8 赵丽莉;孙明轩;金奎;;一类非线性不确定系统的迭代学习控制[J];浙江工业大学学报;2011年02期
9 苗静;;迭代学习控制理论[J];西安工业大学学报;2011年05期
10 阮小娥;朴光贤;卞增男;;迭代学习控制技术回顾与长期学习控制展望(英文)[J];控制理论与应用;2012年08期
中国重要会议论文全文数据库 前10条
1 毕胜;王福根;鄢达来;吴怀宇;章刚华;熊沈蜀;周兆英;;功能性电刺激P型迭代学习控制方法的研究[A];中国康复医学会第四届会员代表大会暨第三届中国康复医学学术大会论文汇编[C];2001年
2 高巍;孙明轩;俞立;;有界输入下的迭代学习控制[A];第二十四届中国控制会议论文集(上册)[C];2005年
3 孙小强;王银河;;一类组合大系统简单迭代学习控制的收敛性[A];2005全国自动化新技术学术交流会论文集(三)[C];2005年
4 刘山;林坚;;基于二自由度控制的鲁棒迭代学习控制设计[A];第二十六届中国控制会议论文集[C];2007年
5 沈栋;陈翰馥;;Hammerstein-Wiener系统的迭代学习控制[A];第二十九届中国控制会议论文集[C];2010年
6 兰永红;;基于二维模型的鲁棒D型迭代学习控制[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 孙明轩;王惠峰;毕宏博;;反馈辅助迭代学习控制[A];第25届中国控制与决策会议论文集[C];2013年
8 孙明轩;万伯任;;迭代学习控制系统的初始条件问题[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年
9 师佳;江青茵;曹志凯;周华;;一种基于2维鲁棒预测控制的迭代学习控制方案[A];第二十九届中国控制会议论文集[C];2010年
10 池荣虎;侯忠生;;基于学习自适应估计环的迭代学习控制[A];第三届全国信息获取与处理学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 张春丽;几类非线性系统的自适应迭代学习控制研究[D];西安电子科技大学;2014年
2 张瑞坤;受限非线性参数化系统的自适应迭代学习控制[D];北京交通大学;2016年
3 谢振东;非线性迭代学习控制理论及其在机器人控制中的应用[D];华南理工大学;2000年
4 姜晓明;迭代学习控制方法及其在扫描光刻系统中的应用研究[D];哈尔滨工业大学;2014年
5 王轶;基于迭代学习控制的几类列车自动控制问题研究[D];北京交通大学;2010年
6 杨胜跃;迭代学习控制算法设计与优化研究[D];中南大学;2004年
7 曹伟;迭代学习控制及其在故障诊断中的应用研究[D];哈尔滨工程大学;2013年
8 徐敏;基于迭代学习控制理论的励磁控制研究[D];西北工业大学;2005年
9 柳春平;迭代学习控制理论及其在网络控制系统中的应用[D];浙江大学;2013年
10 池荣虎;非线性离散时间系统的自适应迭代学习控制及应用[D];北京交通大学;2006年
中国硕士学位论文全文数据库 前10条
1 蔡丽;抗非重复性干扰的迭代学习控制研究[D];郑州大学;2011年
2 李彩丽;基于迭代域的迭代学习控制方法的研究[D];大连海事大学;2015年
3 魏少龙;二维LQG基准下迭代学习控制的性能评估[D];北京化工大学;2015年
4 赵丽娜;基于迭代学习控制的有限状态机在动力型假肢中的应用[D];河北工业大学;2015年
5 余剑平;非线性系统的自适应迭代学习控制[D];云南师范大学;2015年
6 张畅;具有重复特性系统的控制方法研究[D];东北石油大学;2015年
7 李广印;基于未知控制方向的非线性系统的自适应学习控制[D];云南师范大学;2015年
8 钱亚中;自适应鲁棒重复/迭代学习控制及其在电机上的应用[D];浙江工业大学;2015年
9 陈乐剑;约束自适应模糊迭代学习控制[D];浙江工业大学;2015年
10 顾伟国;几类非线性系统的迭代学习控制[D];苏州科技学院;2015年
,本文编号:705912
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/705912.html