经典统计学与机器学习中变量选择方法的比较分析
【图文】:
逡逑其中7邋>邋0。图1.1显示了在P邋=邋2不同7取值时,桥估计惩罚函数的可行域。逡逑我们可以看到只有当7邋>1时可行域才是凸的。另一方面,只有当7邋<1时桥估逡逑计才会产生稀疏解。逡逑7=4逦7=3逦7=2逡逑:,r逦^。.:r邋1广邋1逡逑#0逦-T邋0逦rT邋of逡逑-0.5邋\逦-0.5邋\逦)\逦-0.5邋\逦/逡逑^邋-1邋^^.逡逑-1逦-0.5逦0逦0.5逦1逦-1逦-0.5逦0逦0.5逦1逦-1逦-0.5逦0逦0.5逦1逡逑?51逦4逡逑1逦7=1逦1逦7=0-5逦1逦*7=0.3逡逑05逦0.5逦y\逦0.5逦I逡逑#逦^邋0— ̄|邋#邋0■逦逦逡逑-0.5邋^逦-0.5逦\逦-0.5逦I逡逑1-1逦-0.5逦0逦0.5逦1逦%逦-0.5逦0逦0.5逦1逦-1逦-0.5逦0逦0.5逦1逡逑i3i逦.31逦卢邋1逡逑图1.1:邋p邋=邋2时不同7的桥估计可行域逡逑Fan和Li指出惩罚函数的选取要遵循下面三个原则丨1卟逡逑?连续性:对于数据集来说,估计出的参数需是连续的,这样才能模型更加逡逑的稳健。逡逑?无偏性:当真实的参数维数很大时,我们估计出的参数要差不多能保证无逡逑偏。逡逑?稀疏性:估计出的参数应该能自动的将较小的值估计为0。逡逑对于估计式(1.6)的惩罚项X^=1丨巧丨'邋当0邋<邋7邋<邋1时,;^=1丨r2丨7为一个凹逡逑函数,不满足上面的连续性;A惩罚不满足上面的无偏性;当7邋>邋1时,Eb邋W逡逑是一个凸函数,不满足上面的稀疏性丨17j。逡逑所以除了匕压缩方法外
区域与椭圆的第一次相交的点决定的。Lasso的条件区域在坐标轴上有拐角,所逡逑以图中的椭圆经常在坐标轴上与Lasso的条件区域相交。在这样的情形下,其中逡逑的一些系数就会变为0。在图2.1中,相交的点出现在了邋A邋=邋0处,所以这个模逡逑型将只有一个变量系数灸。当P邋>邋2时,菱形就变成了菱形体,会有许多的角,逡逑线和面,所以将会有更多的系数估计为0。逡逑将Lasso对比岭回归逡逑V逦V逡逑^Ridge邋=邋axgmin邋||y邋-^2^\\22邋si.二丨r2|2邋<邋s,逦(2.3)逡逑13逦j=i逦j=i逦?逡逑岭回归的限制区域是图1.1中7邋=邋2的情况,这个限制区域为一个圆形,这个圆逡逑形区域没有类似于Lasso边界的那些在坐标轴上的棱角,椭圆也就不会和岭回逡逑归的限制区域相交于坐标轴上,所以岭回归不会产生系数为0的估计,也就不能逡逑进行变量选择。逡逑:----f邋-逡逑?2邋?逡逑-3邋邋逦—逦逦J——……—…—— ̄邋逦1邋逦逦—逦-逡逑-3-2-10123逡逑图2.1:邋RSS等高线和Lasso的限制条件区域图逡逑2.1.2邋正交情况下的Lasso逡逑为了更好地理解Lasso的原理,,我们考虑正交设计,即XTX邋=邋Ipxp,且逡逑n邋=邋p的情况。在上述假定之下
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C8
【相似文献】
相关期刊论文 前10条
1 余鹏;经典统计学的缺陷[J];统计研究;1993年06期
2 张高魁,姚晨,徐勇勇;两种假设检验思想的比较[J];中国卫生统计;1999年02期
3 W.H.Klein ,张爱华;不同时间尺度的统计天气预报[J];广西气象;1983年03期
4 陈军科;;假设检验中的P值应用研究[J];价值工程;2011年25期
5 童光荣;卢铁庄;;在争论中不断发展与完善的统计学[J];统计研究;2010年01期
6 夏云;;浅谈贝叶斯统计学与经典统计学的差异性[J];学园;2017年17期
7 韩明旭;;有关统计学的发展探讨[J];金田;2013年02期
8 姜丽琴;;多元统计分析方法在宏观经济分析中的应用探讨[J];现代商业;2016年06期
9 高君亮;吴波;高永;罗凤敏;党晓宏;蒙仲举;;基于数字图像的风蚀地表颗粒粒度特征及空间异质性[J];干旱区资源与环境;2017年01期
10 刘君一;;多元统计分析方法在宏观经济分析中的运用[J];时代金融;2015年20期
相关博士学位论文 前2条
1 雷刚;电磁逆问题的统计分析方法[D];华中科技大学;2009年
2 刘刚;支持精细农业实践的农田空间分布信息处理的方法与试验研究[D];中国农业大学;2001年
相关硕士学位论文 前10条
1 田冰;经典统计学与机器学习中变量选择方法的比较分析[D];山东大学;2019年
2 谷恒明;经典统计学与贝叶斯统计学在回归模型中的比较研究[D];军事科学院;2018年
3 吴s
本文编号:2672983
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2672983.html