当前位置:主页 > 管理论文 > 统计学论文 >

经典统计学与机器学习中变量选择方法的比较分析

发布时间:2020-05-20 17:56
【摘要】:当今时代是一个大数据的时代。从计量生物学,基因组学到金融工程,风险管理等诸多学科,都面临着高维性问题。在高维数据面前,变量选择是知识发现的关键。经典统计学研究高维问题历史悠久,新兴的机器学习方法在高维数据处理方面向传统经典统计学发起了挑战。本文的目的在于比较经典统计学中变量选择方法和新兴的机器学习方法在变量选择问题上的表现情况。经典统计学的变量选择方法,我们选择了四种基于系数压缩的方法,分别是Lasso,Adaptive lasso,Elastic net,SCAD方法。机器学习中我们主要研究了决策树方法。论文的第一部分首先对经典统计学变量选择方法和机器学习变量选择方法做了一个比较全面的介绍。第二部分详细介绍了 Lasso,Adaptive lasso,Elastic net,SCAD方法能进行变量选择的原理,参数选择标准,求解算法与其统计性质。在求解算法上,对于前三种方法我们除了介绍了经典的最小角回归方法对问题进行求解之外,也将近端梯度下降算法用到了问题的求解中,而对SCAD方法则用了局部二次逼近对其进行了求解。并且细致的分析了这四种基于系数压缩的方法之间的区别与联系。第三部分我们介绍了决策树方法。决策树的变量选择准则主要介绍了信息增益,信息增益率,基尼指数,DKM准则和基于距离的方法,并比较了这些准则的性能。针对前三种准则我们介绍了其对应的决策树生成方法,分别是ID3算法,C4.5算法,CART算法。此外,我们将第二部分的压缩思想运用到了决策树的剪枝问题上。最后分析了决策树的优缺点,并针对分类树和回归树提出了其对应的性能加强算法。第四部分是数值模拟。数值模拟用了四个模型来生成数据。我们选择了全面且合理的模型评价指标。通过数值模拟我们发现,对于基于系数压缩的那四种方法来说,Lasso和Adaptive lasso选择的变量大致相同,但是Adaptive lasso比Lasso具有更小的标准差和均方误差;Elastic net倾向于选择更多的变量;SCAD方法不仅在其剔除无关变量方面要优于其他三种方法,标准差和均方误差也都要小于其他三种方法,并且样本量越大,SCAD方法选出的变量越接近于真实的模型,这也验证了其Oracle性质。决策树虽然并不擅长做回归问题,但是也能很准确的选出真正的变量,并且通过决策树的性能加强算法得出的变量重要性排序中,真正变量的得分要远远高于无关变量。第五部分是实证分析。数值模拟部分我们用的是回归模型,实证部分我们则选用的是分类模型。该部分首先介绍了如何用Lasso,Adaptive lasso,Elastic net,SCAD方法去做分类问题,即将这四种方法运用到logistic模型上。对于实证一,为了对变量加入模型的顺序进行分析,我们选用了变量个数较小的乳腺癌分类数据集。我们在测试集上拟合模型,在验证集上测试模型的分类正确率。对于经典统计学方法,我们首先给出了基于一次模拟的系数路径图和对应的CV误差图。之后重复模拟 100次,得出 Lasso,Adaptive lasso,Elastic net,SCAD在测试集上的分类正确率分别为96.5366%,96.5877%,96.4781%,96.7756%,并且前三个选入模型的变量都为变量2,3,6,最后加入模型的两个变量都为变量5,9。对于决策树方法,我们先在测试集生成一棵树,之后在验证集上测试得到分类正确率为94.7619%,对该决策树剪枝后得到了相同的结果。之后我们在训练集上生成100棵树,用决策树性能加强算法在测试集上的分类正确率提高到了96.1905%,并且该加强算法得出的前三个重要的变量与经典统计学方法得出的结果相同,为变量2,3,6,但是决策树认为最不重要要的两个变量为4,9,不同于经典统计学方法得出的变量5,9。实证二的实施过程与实证一基本相同,得出Lasso,Adaptive lasso,Elastic net,SCAD在测试集上基于100次模拟的分类正确率分别为90.5807%,91.7963%,90.9354%,99.8387%,决策树性能加强算法在测试集上的分类正确率为93.5484%,并且我们也详细的分析了每种方法选择的变量。第六部分为总结与展望。该部分对经典统计学方法和机器学习方法进行了比较总结,并对本文的不足提出了改进思路。
【图文】:

可行域


逡逑其中7邋>邋0。图1.1显示了在P邋=邋2不同7取值时,桥估计惩罚函数的可行域。逡逑我们可以看到只有当7邋>1时可行域才是凸的。另一方面,只有当7邋<1时桥估逡逑计才会产生稀疏解。逡逑7=4逦7=3逦7=2逡逑:,r逦^。.:r邋1广邋1逡逑#0逦-T邋0逦rT邋of逡逑-0.5邋\逦-0.5邋\逦)\逦-0.5邋\逦/逡逑^邋-1邋^^.逡逑-1逦-0.5逦0逦0.5逦1逦-1逦-0.5逦0逦0.5逦1逦-1逦-0.5逦0逦0.5逦1逡逑?51逦4逡逑1逦7=1逦1逦7=0-5逦1逦*7=0.3逡逑05逦0.5逦y\逦0.5逦I逡逑#逦^邋0— ̄|邋#邋0■逦逦逡逑-0.5邋^逦-0.5逦\逦-0.5逦I逡逑1-1逦-0.5逦0逦0.5逦1逦%逦-0.5逦0逦0.5逦1逦-1逦-0.5逦0逦0.5逦1逡逑i3i逦.31逦卢邋1逡逑图1.1:邋p邋=邋2时不同7的桥估计可行域逡逑Fan和Li指出惩罚函数的选取要遵循下面三个原则丨1卟逡逑?连续性:对于数据集来说,估计出的参数需是连续的,这样才能模型更加逡逑的稳健。逡逑?无偏性:当真实的参数维数很大时,我们估计出的参数要差不多能保证无逡逑偏。逡逑?稀疏性:估计出的参数应该能自动的将较小的值估计为0。逡逑对于估计式(1.6)的惩罚项X^=1丨巧丨'邋当0邋<邋7邋<邋1时,;^=1丨r2丨7为一个凹逡逑函数,不满足上面的连续性;A惩罚不满足上面的无偏性;当7邋>邋1时,Eb邋W逡逑是一个凸函数,不满足上面的稀疏性丨17j。逡逑所以除了匕压缩方法外

区域图,区域图,限制条件,等高线


区域与椭圆的第一次相交的点决定的。Lasso的条件区域在坐标轴上有拐角,所逡逑以图中的椭圆经常在坐标轴上与Lasso的条件区域相交。在这样的情形下,其中逡逑的一些系数就会变为0。在图2.1中,相交的点出现在了邋A邋=邋0处,所以这个模逡逑型将只有一个变量系数灸。当P邋>邋2时,菱形就变成了菱形体,会有许多的角,逡逑线和面,所以将会有更多的系数估计为0。逡逑将Lasso对比岭回归逡逑V逦V逡逑^Ridge邋=邋axgmin邋||y邋-^2^\\22邋si.二丨r2|2邋<邋s,逦(2.3)逡逑13逦j=i逦j=i逦?逡逑岭回归的限制区域是图1.1中7邋=邋2的情况,这个限制区域为一个圆形,这个圆逡逑形区域没有类似于Lasso边界的那些在坐标轴上的棱角,椭圆也就不会和岭回逡逑归的限制区域相交于坐标轴上,所以岭回归不会产生系数为0的估计,也就不能逡逑进行变量选择。逡逑:----f邋-逡逑?2邋?逡逑-3邋邋逦—逦逦J——……—…—— ̄邋逦1邋逦逦—逦-逡逑-3-2-10123逡逑图2.1:邋RSS等高线和Lasso的限制条件区域图逡逑2.1.2邋正交情况下的Lasso逡逑为了更好地理解Lasso的原理,,我们考虑正交设计,即XTX邋=邋Ipxp,且逡逑n邋=邋p的情况。在上述假定之下
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C8

【相似文献】

相关期刊论文 前10条

1 余鹏;经典统计学的缺陷[J];统计研究;1993年06期

2 张高魁,姚晨,徐勇勇;两种假设检验思想的比较[J];中国卫生统计;1999年02期

3 W.H.Klein ,张爱华;不同时间尺度的统计天气预报[J];广西气象;1983年03期

4 陈军科;;假设检验中的P值应用研究[J];价值工程;2011年25期

5 童光荣;卢铁庄;;在争论中不断发展与完善的统计学[J];统计研究;2010年01期

6 夏云;;浅谈贝叶斯统计学与经典统计学的差异性[J];学园;2017年17期

7 韩明旭;;有关统计学的发展探讨[J];金田;2013年02期

8 姜丽琴;;多元统计分析方法在宏观经济分析中的应用探讨[J];现代商业;2016年06期

9 高君亮;吴波;高永;罗凤敏;党晓宏;蒙仲举;;基于数字图像的风蚀地表颗粒粒度特征及空间异质性[J];干旱区资源与环境;2017年01期

10 刘君一;;多元统计分析方法在宏观经济分析中的运用[J];时代金融;2015年20期

相关博士学位论文 前2条

1 雷刚;电磁逆问题的统计分析方法[D];华中科技大学;2009年

2 刘刚;支持精细农业实践的农田空间分布信息处理的方法与试验研究[D];中国农业大学;2001年

相关硕士学位论文 前10条

1 田冰;经典统计学与机器学习中变量选择方法的比较分析[D];山东大学;2019年

2 谷恒明;经典统计学与贝叶斯统计学在回归模型中的比较研究[D];军事科学院;2018年

3 吴s

本文编号:2672983


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2672983.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户81890***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com