当前位置:主页 > 科技论文 > 仪器仪表论文 >

基于模糊强化学习的柔性结构控制方法研究

发布时间:2017-09-04 02:29

  本文关键词:基于模糊强化学习的柔性结构控制方法研究


  更多相关文章: 大天线 柔性振动 强化学习 维数难 函数逼近 模糊推理 二型模糊系统 鲁棒性


【摘要】:随着深空探测、射电天文的不断发展,大型射电望远镜被广泛应用。新一代射电望远镜的口径也越来越大以获得更好的观测性能。但由于大天线的柔性、外界干扰等不利因素的存在,对天线控制系统提出了更高的指向精度、跟踪精度及鲁棒性等要求。本文以大天线控制问题为研究背景,将人工智能领域的强化学习作为柔性结构控制方法,在保证一定跟踪精度的同时,抑制柔性振动。但是,传统的强化学习方法适于处理小规模的离散状态或离散动作学习任务而不能求解连续状态空间和连续动作空间的问题。针对此不足,本文把模糊推理作为函数逼近器引入到强化学习中,利用模糊推理的广泛逼近性,使得提出的模糊强化学习算法能够较好地处理大规模或连续空间问题。与此同时,将基于模糊强化学习算法的柔性结构控制应用于连续空间柔性尺模型的控制中进行验证。本文主要工作如下:(1)针对传统Q值查找表型强化学习算法在处理连续空间学习任务时所面临的“维数难”以及输出动作策略不连续问题,提出基于一型模糊推理的强化学习算法。该算法首先将连续状态空间进行模糊划分;其次,以状态为模糊规则前件输入、动作及相应的Q值函数分量为规则后件输出构建模糊规则,通过模糊推理获得组合连续动作;最后由强化学习时间差分误差采用梯度下降法在线反向调节后件参数。(2)针对基于一型模糊推理的强化学习存在的鲁棒局限性,提出基于二型模糊推理的强化学习算法。以具有三维特性、能够更加贴切描述实际不确定性的二型模糊集合为基础的二型模糊系统,在处理干扰等不确定性问题时其相对于一型表现出更强的处理系统不确定性的能力。与此同时,考虑使用作为二型模糊集合特例的区间二型模糊集,结合其能够极大简化广义上二型模糊集合的运算量的优势,最终设计出一种基于区间二型模糊推理的强化学习算法。该算法在实现较好处理连续空间问题的基础上,对噪声干扰的鲁棒性得到了进一步的加强。(3)通过对柔性尺模型的仿真控制验证本文所提两种模糊强化学习算法。结果表明,基于一型模糊强化学习算法的柔性结构控制,相比于基于查找表型强化学习算法的柔性结构控制,其在保证一定跟踪精度的同时,较好地抑制了末端柔性振动;基于区间二型模糊强化学习算法的柔性结构控制,相比于基于一型模糊强化学习算法的柔性结构控制,其鲁棒性更强。
【关键词】:大天线 柔性振动 强化学习 维数难 函数逼近 模糊推理 二型模糊系统 鲁棒性
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TH743;TP18
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 符号对照表10-12
  • 缩略语对照表12-15
  • 第一章 绪论15-23
  • 1.1 研究背景及意义15-16
  • 1.2 国内外研究现状16-19
  • 1.3 本文的主要工作19-20
  • 1.4 论文结构20-23
  • 第二章 理论基础23-37
  • 2.1 强化学习23-29
  • 2.1.1 马尔科夫决策过程23-25
  • 2.1.2 探索与利用25-26
  • 2.1.3 时间差分算法26-29
  • 2.2 模糊控制理论29-33
  • 2.2.1 模糊集合29-31
  • 2.2.2 模糊控制器31-32
  • 2.2.3 模糊推理32-33
  • 2.3 模糊推理Q值函数33-35
  • 2.4 本章小结35-37
  • 第三章 基于一型模糊强化学习算法的柔性结构控制37-55
  • 3.1 柔性尺建模37-43
  • 3.2 一型模糊近似强化学习43-46
  • 3.3 T1FIS-SARSA算法流程46
  • 3.4 仿真实验46-53
  • 3.4.1 柔性尺仿真模型验证47-50
  • 3.4.2 T1FIS-SARSA控制仿真50-53
  • 3.5 本章小结53-55
  • 第四章 基于区间二型模糊强化学习算法的柔性结构控制55-67
  • 4.1 二型模糊55-59
  • 4.1.1 区间二型模糊集合55-57
  • 4.1.2 二型模糊推理57-59
  • 4.2 二型模糊近似强化学习59-62
  • 4.3 IT2FIS-SARSA算法流程62-63
  • 4.4 仿真实验63-65
  • 4.5 本章小结65-67
  • 第五章 总结与展望67-69
  • 5.1 总结67-68
  • 5.2 展望68-69
  • 参考文献69-73
  • 致谢73-75
  • 作者简介75-76

【参考文献】

中国期刊全文数据库 前2条

1 陈宗海;文锋;聂建斌;吴晓曙;;基于节点生长k-均值聚类算法的强化学习方法[J];计算机研究与发展;2006年04期

2 范波,潘泉,张洪才;多智能体学习中基于知识的强化函数设计方法[J];计算机工程与应用;2005年03期



本文编号:788836

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yiqiyibiao/788836.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4bdeb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com