当前位置:主页 > 科技论文 > 自动化论文 >

学习引导的高维优化方法研究

发布时间:2021-02-10 21:47
  在求解黑盒优化问题时,演化算法可以被看作是一类通用的优化器。不过随着待优化问题维度的增加,演化算法会遇到所谓的“维数灾难”问题。目前针对高维优化问题的研究仍是演化领域的难点和热点之一。本论文从学习的角度出发,试图通过学得关于问题的先验知识来帮助算法在高维优化中取得更好的效果。具体而言,本论文的研究工作和成果主要包含如下两个方面:1.针对大规模全局优化问题中CMA-ES算法计算代价大、优化效果差的问题,利用基于相关系数的分组(CCG)策略和模型复杂度控制(MCC)框架来移除高斯模型中冗余的自由度,以降低建模和采样的代价,提升优化效果。2.针对序列决策问题中规划长度选取的困境,引入策略网络和价值网络来从历史的经验中学习,进而指导搜索,使得智能体能以较短的规划长度和较少的搜索代价取得更好的规划结果。在CEC 2010大规模全局优化测试集上,本论文提出的MCC-CCG-CMAES算法统计显著地优于所对比的十种最先进的算法。在OpenAI Gym的运动控制测试环境中,本论文提出的p-RHEA算法的得分也统计显著地高于在线规划方法和强化学习方法。本论文的两个主要工作都具有普适的应用价值,对更加合理... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

学习引导的高维优化方法研究


图1.2智能体与环境交互过程??

挑战性,现实世界,仿真环境,难点


?第1章绪?论???v?‘1:'?“‘丨士—“二'‘?>??丨?^?二,',卜心馨^:遠-.??rir?]?F?mIC?^??(a)?Ant-v2?(b)?Humanoid-v2?(c)?HalfCheetah-v2??m_m-^??■ri^^5'3?■論??(d)?Hopper-v2?(e)?Swimmer-v2?(f)?Walker2d-v2??(g)?InvertedPendulum-v2?(h)?InvertedDoublePendulum-v2??图1.3?MuJoCo运动仿真环境??1.4研究难点及创新之处??高维的实值优化问题出现在很多现实世界的场景中[11,13_141它们在演化领??域一直是一类非常具有挑战性的任务。近些年,众多学者们做了一系列尝试来将??演化算法应用在高维优化问题中,并取得了一些重要的成果[151。考虑到CMA-ES??算法在低维优化中表现优异,但在高维优化中往往由于0(D2)的计算复杂度而??难以直接应用,本论文试图从以下两个角度做出一些改进,以期其能在高维优化??中同样有出色的表现。??1.在大规模全局优化问题中,待优化的问题的维度固定为D=?1000。要想准??确估计CMA-ES算法中协方差矩阵的参数,需要采样更多的个体,这样会??6??

序列,高斯分布


?第2章相关工作综述???特殊形式,即所有的子空间的大小均为^?=?1。虽然只使用了协方差矩阵的对角??线元素,即变量间所有的相关性都被丢弃了,但它们在高维优化问题中往往比全??相关的模型表现地更好,这是因为准确估计一个可靠的全相关模型需要更大的??样本数量,这会很快地消耗完适应度评估次数。??W?f(x)?W?W?f(s2)?W??图2.1高斯分布PDF的简化,/(x)?=?/(Sl)/(s2)??2.2序列决策??2.2.1基于模型的规划方法??基于模型的规划方法是一类在线的方法,智能体通过探索未来环境来进行??当前的决策。这类方法不需要事先训练,但需要一个前向模型(Forward?Model,??简称FM)以允许智能体直接跳转回它经历过的状态。??MCTS[3W71是一种典型的基于模型的规划方法,它通过仿真的方式构建起??—棵逐步增长的搜索树。MCTS中的每个结点对应一个状态s,其孩子结点为下??一步可能到达的状态/,连接结点的边对应两状态之间所采取的动作同时,??树中的每个结点保留着仿真过程中的统计信息:ATG,a)表示从状态s出发的路??径经过边a的次数;〇(S,4表示从状态s出发、经过边a的路径的平均累积奖??励。在每一次仿真中,MCTS首先从根结点(也就是当前状态S()?=?s)出发,按??照如下的上置信界[38]?(Upper?Confidence?Bounds?for?Tree,简称UCT)公式选择??下一个动作?<,直到到达叶子结点V:??llnHa,N(snat)??a'=7^rs^)?+?l?(2-6)??其中参数〇可以用来平衡算法的开发性(对应前一项)与探索性(对应后一项)。


本文编号:3028040

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3028040.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3709c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com