当前位置:主页 > 科技论文 > 数学论文 >

双指标重要性优先法在分类问题中的应用

发布时间:2018-12-11 07:59
【摘要】:本文的目的是对微矩阵数据Leukemia 72进行变量选择和类预测,首次将和双指标重要性优先降维的思想应用到分类数据的变量选择中来.文章首先采用假设检验的方法,验证了Robert Tibshirani文献[15]中提出的原假设是不合理的,并针对这些不合理之处进行修改提出了新的统计量(94)6),进而结合该统计量的统计意义和Sure Independent Screening()思想,针对不同的数据类型,不同的样本量提出了新的变量选择模型、、,由于思想忽略了变量间的相关性这一缺点,所以又进一步在之前提出的模型基础上加入重要性优先思想创造了双指标重要性优先降维方法().然后,选择支撑向量机((1),朴素贝叶斯法()和最近邻法()作为变量选择后的数据的分类器,利用错分率指标找到最佳的分类模型.最后,将上述模型分别应用到模拟数据和实际数据中,通过与秩和检验变量选择,快速筛选变量法的分类效果进行比较,证明了我们提出的模型的可行性与稳定性.
[Abstract]:The purpose of this paper is to select variables and predict classes for Leukemia 72 of micromatrix data. For the first time, the idea of priority reduction of the importance of sum and two indexes is applied to variable selection of classified data. In this paper, the hypothesis test method is used to verify that the original hypothesis proposed in Robert Tibshirani [15] is unreasonable, and a new statistic (94) 6 is proposed to correct these irrationality. Combined with the statistical significance of the statistic and the Sure Independent Screening () thought, a new variable selection model is proposed for different data types and different sample sizes. Therefore, the importance priority idea is added to the previous model to create a two-index importance priority dimensionality reduction method (). Then, support vector machine (1), naive Bayesian method () and nearest neighbor method () are selected as the classifiers of the data after variable selection, and the best classification model is found by using the error rate index. Finally, the above models are applied to the simulation data and the actual data respectively. The feasibility and stability of the proposed model are proved by comparing the classification effect of the method with the selection of rank sum test variables and the fast screening variable method.
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:O212

【相似文献】

相关期刊论文 前10条

1 白雪梅,赵松山;由指标重要性确定权重的方法探讨[J];江苏统计;1998年03期

2 秦肖;王秀丽;;销售人员胜任素质指标重要性的测评[J];统计与咨询;2007年02期

3 戴伯新;;回归变量选择中的数据诊断[J];应用概率统计;1992年04期

4 杨丽霞;魏立力;;基于粗糙集方法的有序尺度变量选择[J];宁夏大学学报(自然科学版);2009年02期

5 赵宇;黄思明;;带有变量选择过程的分类模型误差分析[J];数学的实践与认识;2010年17期

6 樊亚莉;徐群芳;;稳健的变量选择方法及其应用[J];上海理工大学学报;2013年03期

7 陶靖轩;多元分析中的变量选择问题研究[J];中国计量学院学报;2001年01期

8 李树军,纪宏金;对应聚类分析与变量选择[J];地球物理学进展;2005年03期

9 陈黎明;赵永红;;转换函数未知时转换模型的变量选择[J];四川大学学报(自然科学版);2011年05期

10 刘民千,张润楚;超饱和设计的变量选择[J];南开大学学报(自然科学版);2000年03期

相关会议论文 前4条

1 张俊华;方伟武;;调查表分析中变量选择的一些方法(英文)[A];中国运筹学会第六届学术交流会论文集(下卷)[C];2000年

2 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年

3 李慷;席裕庚;;复杂过程系统中操作变量选择与定位的方法研究[A];1993年控制理论及其应用年会论文集[C];1993年

4 云永欢;王为婷;梁逸曾;;迭代的保留有信息变量来筛选最佳变量子集的一种多元校正变量选择方法[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

相关博士学位论文 前10条

1 吕晶;几类半参数回归模型的稳健估计与变量选择[D];重庆大学;2015年

2 王康宁;几类高维复杂数据半参数模型的结构识别、变量选择及稳健估计[D];山东大学;2016年

3 李子林;高维基因数据中的统计方法[D];清华大学;2016年

4 王大荣;分散度量模型中的变量选择[D];北京工业大学;2009年

5 王明秋;高维数据下若干回归模型的变量选择问题研究[D];大连理工大学;2012年

6 刘吉彩;生存数据统计模型的变量选择方法[D];华东师范大学;2014年

7 樊亚莉;稳健变量选择方法的若干问题研究[D];复旦大学;2013年

8 唐凯临;变量选择和变换的新方法研究[D];同济大学;2008年

9 董莹;高维共线性统计模型的参数估计与变量选择[D];大连理工大学;2014年

10 叶飞;相对误差准则下的估计理论和变量选择方法的研究[D];清华大学;2013年

相关硕士学位论文 前10条

1 戚敏敏;双指标重要性优先法在分类问题中的应用[D];兰州大学;2017年

2 赵冬琦;基于变量选择的股指期货对股票市场影响的实证研究[D];兰州大学;2015年

3 程勇;多水平模型的变量选择在农户人均收入数据中的应用[D];云南财经大学;2015年

4 邓秋玲;SCAD和ADS方法在比例风险模型中的应用[D];广西大学;2015年

5 韦新星;几种变量选择方法在Cox模型中的应用[D];广西大学;2015年

6 王唯;部分线性模型的变量选择问题研究[D];湘潭大学;2015年

7 潘玉婷;含多元非线性结构的高维Logistic模型的同时变量选择及半参数估计[D];中国科学技术大学;2016年

8 刘丹;Cox模型及变系数Cox模型中的变量选择问题研究[D];暨南大学;2016年

9 罗昊;基于自适应LASSO变量选择的Logistic信用评分模型研究[D];东南大学;2016年

10 王双宝;基于变量选择偏差的变量选择过程[D];电子科技大学;2016年



本文编号:2372184

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2372184.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户35b7c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com