最小二乘时序差分中的正则化:罚函数和贝叶斯的比较
【学位授予单位】:武汉大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O212
【图文】:
21,32).在这些实验中,环境设定为一个包含20个状态,2个动作的MDP,如图4.1邋.这些逡逑状态连成链状,在每个状态上,agent可以采取”左”或”右”这两个动作的其中一个,结果是有一逡逑定的概率成功转移到所选定的方向,失败则移到所选定方向的反方向.即agent在状态&上,采逡逑取”左”的动作时,有p的概率转移到状态Sh,有1邋-p的概率转移到状态si+1,同样”右”的动逡逑作的转移结果也是类似的设定.当agent在边界状态上,且所转移的方向不存在状态时,则保持现逡逑
number邋of邋noise邋features逡逑图4.2:实验人?噪声特征个数fc,lafae从0到㈨变化时近似状态价值函数与真值的误差逡逑图4.2是噪声特征个数fcn(5ise从0到1000变化时近似状态价值函数与真值的误差.该实验设逡逑定Avbf邋=邋9,噪声数fcn()ise从0到1000依次变化.每次实验的样本数n邋=邋500.每种方法同样的实逡逑验重复100次,以得到均值和标准差.为了图表的简洁性,这里选取了两种最优化带罚函数的方法逡逑LSTD-L邋(2.5)和邋LSTD-k邋(2.10),以及两种贝叶斯推断方法邋bLSTD-w邋(3.5)和邋bLSTD-w邋(3.6)作逡逑为代表.这里未画出结果的LSTD-/22方法的效果与LSTD七几乎相同,而LSTD七和带非凸惩逡逑罚的LSTD方法估计所得到的状态价值函数的近似结果,则与LSTD-i21相差无几.逡逑从中可以看到,当无关的噪声个数逐渐增加时,LSTD七估计对状态价值函数的近似误差很高,逡逑且方差随着无关特征个数的增多而变大,表明该方法越来越不稳定;而带稀疏约束的LSTD-;21和逡逑带有稀疏拉普拉斯先验的贝叶斯推断方法bLSTD-w和bLSTD-w都有较高的近似精度
逦30逡逑图4.3:实验人?估计系数w的稀疏程度逡逑图4.3由上至下是真实的系数u;和LSTD42,邋LSTD-L邋bLSTD-u;所得到的估计,横轴表示系逡逑数向量的指标.该实验设定样本数n邋=邋50;相关特征包括hbf邋=邋9个径向基函数和一个常数,无关逡逑噪声特征数Arnc)ise邋=邋20,总共30个特征;真实的系数逡逑w邋=邋(10,...,邋10,邋-10,...,-10,邋0逦0)T.逡逑v逦v逦,邋v逦V逦"邋vV?'逡逑5邋个邋10逦5邋个-10逦20邋个邋0逡逑从图中可以看到,LSTD七估计无法识别出这些噪声特征;LSTD-/,能将大部分噪声特征的系逡逑数完全收缩到0,但对于相关特征的系数,由于径向基函数造成的特征之间的相关性,没有Z2惩罚逡逑均匀分配系数质量,LSTD4估计将许多的相关特征的系数也收缩到0,只是将正负质量完全分配逡逑给一正一负两个相关的系数;贝叶斯推断方法bLSTD-W虽然没有将噪声特征的系数完全收缩到逡逑0
【相似文献】
相关期刊论文 前10条
1 吴聪伟;张辉;;非线性约束优化问题的乘子罚函数方法[J];数学学习与研究;2013年23期
2 陈祖浩;最优过程罚函数方法的数学理论[J];数学年刊A辑(中文版);1982年03期
3 房月华;;非线性方程组的一个不使用罚函数和filter的算法[J];西南师范大学学报(自然科学版);2018年05期
4 连淑君;唐加会;杜爱华;;带等式约束的光滑优化问题的一类新的精确罚函数[J];运筹学学报;2018年04期
5 程晓良;连续压力空间的有限元罚方法[J];杭州大学学报(自然科学版);1991年01期
6 吴聪伟;曹继平;朱亚红;;基于约束优化问题乘子罚函数方法的全局收敛性分析[J];萍乡高等专科学校学报;2013年03期
7 陈静静;刘三阳;丁毓;;基于罚函数方法的Leach协议[J];数学的实践与认识;2019年07期
8 赫振华;白富生;;二次罚函数的可分化方法[J];重庆师范大学学报(自然科学版);2010年01期
9 田占强;马志垒;李成;;复合材料纤维叠层织物弹道侵彻数值分析[J];机械设计与制造;2011年12期
10 田大钢;郭俐;;线性规划问题罚函数方法的一种统一形式[J];数学的实践与认识;2008年05期
相关会议论文 前1条
1 薛毅;姚富玲;;求解等式约束问题的一类修正罚函数方法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
相关博士学位论文 前1条
1 韩伯顺;非线性规划中的罚函数及填充函数方法[D];上海大学;2006年
相关硕士学位论文 前10条
1 严博宇;最小二乘时序差分中的正则化:罚函数和贝叶斯的比较[D];武汉大学;2018年
2 杨书涛(TOUNA YANG);约束优化问题的罚函数光滑化方法[D];大连理工大学;2018年
3 唐加会;等式约束优化与极大极小化问题的罚函数研究[D];曲阜师范大学;2017年
4 程桂香;非线性最优化问题的一族新的罚函数方法研究[D];首都师范大学;2006年
5 李秀慧;非凸规划的同伦—罚函数方法及其在稀疏投资组合优化中的应用[D];大连理工大学;2017年
6 刘佛祥;基于动态罚函数和多目标的人工蜂群算法求解约束优化问题的研究[D];南京师范大学;2017年
7 刘俊梅;混合差分进化算法及应用研究[D];北方民族大学;2010年
8 李会荣;融合粒子群的全局优化混合智能算法研究[D];北方民族大学;2009年
9 雷翻翻;非线性规划问题的粒子群优化算法研究[D];北方民族大学;2011年
10 杜爱华;约束优化问题的精确罚函数研究[D];曲阜师范大学;2017年
本文编号:2745400
本文链接:https://www.wllwen.com/kejilunwen/yysx/2745400.html