强化学习中基函数构造方法研究
本文关键词:强化学习中基函数构造方法研究
更多相关文章: 强化学习 函数逼近 基函数构造 大规模状态空间
【摘要】:强化学习是一种从环境状态到动作映射的学习方法。很多领域的实际问题都可以描述为强化学习问题,因而强化学习具有广阔的应用前景。但是,实际系统的空间往往是大规模或连续的,强化学习不可避免地会遇到状态变量的空间复杂度问题,即“维数灾难”。针对这一问题,本文以基函数构造方法为基点,提出了几种针对大规模或连续状态空间的强化学习算法。主要研究包括以下三部分内容:(1)针对大规模状态空间自适应Tile-Coding算法存在误划分,会导致存储空间增大以及学习速率减慢的问题,在原有自适应Tile-Coding算法的基础上,提出根据一定的阈值条件对划分后相邻的离散区域进行二次合并的算法。该算法消除了因为误划分所产生的不良影响,不仅能进一步地缩减存储空间,解决了“维数灾难”问题,而且能提高算法的学习效率.(2)针对在批量强化学习算法中遇到的所需样本集合容量过大以及样本选择的问题,提出一种适用于大规模状态空间的基于探索树的拟合Q迭代算法。该算法在传统单次采样的拟合Q迭代算法的基础上,在每轮迭代前根据各个区域的收敛程度、样本密度的不同进行局部采样,引入新的样本。该算法不仅解决了随机采样所带来的收敛效果不稳定的问题,而且在很大程度上提高了样本的有效性,避免了过度采样导致的计算量过大的问题。(3)针对传统的函数逼近方法难以适用于解决高维度的大规模状态空间的问题,提出在子特征空间上的核函数构造方法,间接地降低了问题的维度,并使得算法能够通过线性函数逼近的方法实现非线性逼近的特性。该算法解决了传统的函数逼近方法在高维度的大规模状态空间问题中,泛化能力差、逼近效果不理想等问题,提高了基函数的泛化能力以及逼近精度。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP181;O174
【相似文献】
中国期刊全文数据库 前10条
1 李毓荣;关于连续函数逼近命题条件的一点注记[J];天水师专学报;1987年00期
2 徐利治,杨家新;多元函数逼近研究近况述评[J];数学进展;1987年03期
3 李拃生;;瓦勒·布然算子对Z类函数逼近的阶[J];江西师范学院学报;1964年01期
4 施咸亮;;机械工程中的函数逼近问题[J];杭州大学学报(自然科学版);1977年01期
5 吴学谋;复函数逼近的一些研究(Ⅱ)[J];武汉建材学院学报;1980年04期
6 黄林颖;吴根秀;万宇文;李玮;;信任函数逼近方法的改进[J];江西师范大学学报(自然科学版);2006年01期
7 刘君尧;邱岚;;基于径向基函数神经网络的函数逼近[J];大众科技;2009年09期
8 樊建修;计算机常用函数逼近方法[J];包钢科技;1986年01期
9 李春鑫;李天伟;王孝通;;基于小波模糊网络的非线性函数逼近方法的研究[J];计算机测量与控制;2006年03期
10 ;在应用计算机的实时系统中函数逼近和预报的新方法[J];工学学报;1974年15期
中国重要会议论文全文数据库 前2条
1 冯英浚;翟军;李思彪;;基于CUSI神经元模型的函数逼近方法[A];1996中国控制与决策学术年会论文集[C];1996年
2 满洪高;袁向荣;高勇利;卜建清;;由广义正交多项式函数逼近法识别桥上移动载荷[A];第八届全国结构工程学术会议论文集(第Ⅲ卷)[C];1999年
中国硕士学位论文全文数据库 前10条
1 施梦宇;强化学习中基函数构造方法研究[D];苏州大学;2015年
2 朱文文;连续空间非参函数逼近方法研究[D];苏州大学;2014年
3 肖飞;用于强化学习的值函数逼近方法研究[D];苏州大学;2013年
4 朱稷涵;基于非参函数逼近的强化学习算法研究[D];苏州大学;2014年
5 陈桂兴;强化学习中值函数逼近方法的研究[D];苏州大学;2014年
6 李亚楠;高维小波函数逼近[D];北方工业大学;2012年
7 盛梦醒;基于TileCoding的函数逼近强化学习研究[D];苏州大学;2012年
8 段永柱;回归SDM模型及其在函数逼近和识别中的应用研究[D];南京航空航天大学;2002年
9 宋绪文;基于函数逼近的物流车辆路径规划方法及应用研究[D];苏州大学;2014年
10 戴芳;若干多元函数逼近的极值问题[D];华北电力大学;2013年
,本文编号:1173912
本文链接:https://www.wllwen.com/kejilunwen/yysx/1173912.html