当前位置:主页 > 科技论文 > 数学论文 >

分类中的变量选择方法及应用

发布时间:2018-06-17 14:17

  本文选题:空气质量 + 测量误差 ; 参考:《华中科技大学》2015年硕士论文


【摘要】:随着信息大爆炸时代的到来,信息量在不断的呈几何分布地增长。但是,在实际问题的解决当中,由于庞大的信息量,可能会造成重要信息被众多次要的信息所掩埋,造成对具体问题的错误认识以及理解,因此这些庞大的信息量就需要被处理,找出主要的信息,来构建具体的模型对具体问题进行分析理解。而这一过程,也就是针对具体问题进行变量选择的过程。变量选择会有利于具体问题的研究,而对于在统计学中有深远意义的分类问题,更需要在分类前对变量进行选择。本文采用了UCI数据集中的威斯康辛州的乳腺癌数据以及兰州2014.1-2015.3一年的空气监测数据进行研究,找出这两个问题中的主要影响变量。目前最前沿的变量选择方法,都是利用变量系数的惩罚似然函数,并解出其最优参数估计值,即实现变量系数的压缩,以实现变量选择,而本文则是从测量误差入手,认为观测值是有测量误差的,构建关于测量精度的似然函数,再利用Lasso方法中通过解优化问题,实现变量系数的压缩的原理,将观测值的测量精度进行压缩,而其中为零的测量精度所对应的变量的测量误差方差无穷大,从而对应变量的误差波动较大,也就使得该变量在模型中失去了价值,被选出模型,从而实现变量选择。本文特别的是在非参数分类中来用此新的变量选择方法,而且在前一个实例中与现有的变量选择方法进行比较,发现两种方法下的变量构建的分类器,新方法下的分类器效果更优,即分类误差更小。而新方法在兰州空气质量数据中的应用,也进一步体现出了新方法的优越性,很清晰地给出了兰州去年空气中的主要污染物。
[Abstract]:With the arrival of the era of Big Bang Theory, the amount of information continues to grow in geometric distribution. However, in the solution of practical problems, due to the huge amount of information, important information may be buried by numerous secondary information, resulting in erroneous understanding and understanding of specific problems. Therefore, this huge amount of information needs to be processed, to find out the main information, to build specific models to analyze and understand the specific problems. This process is the process of variable selection for specific problems. Variable selection is beneficial to the study of specific problems, but for the classification problems with far-reaching significance in statistics, it is more necessary to select variables before classification. In this paper, the data of breast cancer in Wisconsin from UCI data set and air monitoring data of Lanzhou in 2014.1-2015.3 were used to find out the main influence variables of these two problems. At present, the most advanced method of variable selection is to use the penalty likelihood function of variable coefficient, and to solve its optimal parameter estimation value, that is, to realize the compression of variable coefficient to realize variable selection. It is considered that the observed value has measurement error. The likelihood function about measurement accuracy is constructed. The principle of variable coefficient compression is realized by solving the optimization problem in Lasso method, and the measurement precision of observation value is compressed. The measurement error variance of the variable corresponding to the zero measurement accuracy is infinite, which makes the variable lose its value in the model and select the model, thus realizing the variable selection. In this paper, the new variable selection method is used in nonparametric classification, and compared with the existing variable selection method in the previous example, the classifier constructed by the two methods is found. The effect of the new method is better, that is, the classification error is smaller. The application of the new method in Lanzhou air quality data shows the superiority of the new method, and the main pollutants in Lanzhou air last year are clearly given.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:O212

【参考文献】

相关期刊论文 前8条

1 张檑;李宏光;;基于KKT条件选择被控变量的自优化控制方法[J];北京化工大学学报(自然科学版);2013年S1期

2 苏岩;;多元分布拟合优度检验研究进展[J];保定学院学报;2011年03期

3 王大荣;张忠占;;线性回归模型中变量选择方法综述[J];数理统计与管理;2010年04期

4 李泽中;白勇;;核密度估计在分类问题中带宽参数的优化研究[J];计算机科学;2009年06期

5 王见勇;;凸性与广义凸性综述(1)[J];常熟理工学院学报;2007年10期

6 麻凯;陈塑寰;;结构优化中的海森矩阵的近似迭代方法[J];吉林大学学报(工学版);2006年S1期

7 安玮,李宏,徐晖,孙仲康;模式识别中的透射变换与仿射变换[J];系统工程与电子技术;1999年01期

8 陈敬锋;;回归自变量的选择:Cp准则所有变量子集的回归[J];八一农学院学报;1990年01期

相关博士学位论文 前5条

1 袁晶;贝叶斯方法在变量选择问题中的应用[D];山东大学;2013年

2 赵为华;变系数模型变量选择的稳健方法[D];华东师范大学;2013年

3 李腾飞;似然自适应惩罚变量选择方法研究[D];复旦大学;2012年

4 项燕彪;高维数据的统计推断[D];浙江大学;2011年

5 任允文;基于处罚经验似然和跳惩罚最小二乘的变量选择[D];复旦大学;2010年

相关硕士学位论文 前7条

1 杨海;SVM核参数优化研究与应用[D];浙江大学;2014年

2 周巍;L1范数最小化算法及应用[D];华南理工大学;2013年

3 王锐;多种变量选择方法在ARMA阶数确定中的比较[D];山东大学;2013年

4 马文浩;各种L_q惩罚在变量选择中的应用及其比较[D];山东大学;2012年

5 柯郑林;Lasso及其相关方法在多元线性回归模型中的应用[D];北京交通大学;2011年

6 邱潇钰;核函数的参数选择[D];山东师范大学;2008年

7 闻斌;通过交叉验证准则选择线性模型[D];东南大学;2006年



本文编号:2031341

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2031341.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户37612***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com