基于MIC的高维数据特征选择及应用研究
发布时间:2020-06-19 23:17
【摘要】:随着大数据时代的到来,高维数据的“维度灾难”问题也随之受到更多学者的广泛关注。高维数据通常指包含成千上百个特征且具有大量无关信息和冗余特征的数据集,如在自然语言处理领域、生物工程领域、医疗领域、金融领域和人脸识别领域等都存在着大量的高维数据,而其中包含的冗余特征会给后续的学习和研究带来极大的不便,更会降低最后分析结果的可信度,甚至会得到错误的结果。因此,高维数据的特征选择方法成为了国内外学者的研究重点,并且在多个领域都得到了广泛应用。本文提出利用最大信息系数(Maximal Information coefficient,简称MIC)的方法进行高维数据的特征选择。MIC是由哈佛大学的David N.Reshef等人在2011年提出的度量两个变量之间相互依赖程度的一个指标,且有基于观测数据的计算方法。传统的特征选择方法(如AIC、BIC)需要先确定模型,不同的模型选择出的特征集差异较大,且模型的可解释性较差。本文从理论角度证明了MIC的重要性质。在实验部分先基于MIC度量进行特征选择,MIC特征选择方法不依赖于所选模型,不论后面建模中使用什么模型以及如何使用这些特征,理论上均不会丢失真正有相依关系的特征,此特性充分体现了所选特征子集的稳定性。然后建立随机森林模型来检验所选特征的合适与否,首先使用组块3x2交叉验证来进行模型训练集和测试集的划分而非传统的k折交叉验证,接着在得到的6个训练集上训练随机森林模型并分别在对应的测试集上检验分类性能,采取袋外误差OOB(out-of-bag)作为随机森林模型调参的评价准则,并且将决策树的个数k和树结点的特征选择个数p双参数组合进行调参而非传统的单参数固定调参。最后,将6组实验结果取均值后与未进行特征选取的数据在模型性能上进行对比,结果表明模型分类的准确率由67%提高到82.5%,_1F值由65.26%提高到80.73%,充分说明利用MIC进行高维数据特征选择的有效性。
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C81
【图文】:
第二章 相关概念及理论变量相依性时主要有两个优点:以度量变量之间任意类型关系间的相依性:因为由互信基于变量之间的边缘和联合概率密度函数,而不是基于计特性;行空间维度的变换时,互信息具有不变性。熵的关系以等价的表示为:( , ) ( ) ( | )( ) ( | )( ) ( ) ( , )( , ) ( | ) ( | )I X Y H X H X YH Y H Y XH X H Y H X YH X Y H Y X H X Y .用 Veen 图表示如下:
基于 MIC 的高维数据特征选择及应用研究用的1F 值。12=P RFP R .(4)ROCROC 曲线是以指标“真正例率”(True Positive Rate,简称 TPR)为纵轴,以标“假正例率”(False Positive Rate,简称 FPR)为横轴进行作图描绘的曲线,它两的定义如下:TPTPRTP FN .FPFPRTN FP .
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C81
【图文】:
第二章 相关概念及理论变量相依性时主要有两个优点:以度量变量之间任意类型关系间的相依性:因为由互信基于变量之间的边缘和联合概率密度函数,而不是基于计特性;行空间维度的变换时,互信息具有不变性。熵的关系以等价的表示为:( , ) ( ) ( | )( ) ( | )( ) ( ) ( , )( , ) ( | ) ( | )I X Y H X H X YH Y H Y XH X H Y H X YH X Y H Y X H X Y .用 Veen 图表示如下:
基于 MIC 的高维数据特征选择及应用研究用的1F 值。12=P RFP R .(4)ROCROC 曲线是以指标“真正例率”(True Positive Rate,简称 TPR)为纵轴,以标“假正例率”(False Positive Rate,简称 FPR)为横轴进行作图描绘的曲线,它两的定义如下:TPTPRTP FN .FPFPRTN FP .
【相似文献】
相关期刊论文 前10条
1 张何辛;孙效华;郭炜炜;;高维数据的交互式沉浸可视化——以城市生活质量数据为例[J];装饰;2019年06期
2 陈红彬;;基于大数据的高维数据挖掘探究[J];通讯世界;2018年03期
3 于君;范文彬;杜永军;;智能电网中高维数据聚类方法研究[J];智能计算机与应用;2016年01期
4 张凌洁;;浅谈高维数据变量选择现状与方法[J];数码世界;2016年07期
5 李泽安;;浅谈高维数据挖掘的现状与方法[J];福建电脑;2014年07期
6 宋怀波;何东健;;面向精细农业的高维数据本征维数估计方法研究进展[J];中国科学:信息科学;2010年S1期
7 张航;PP型拟合优度检验[J];系统科学与数学;1988年03期
8 余立苹;李云飞;朱世行;;基于高维数据流的异常检测算法[J];计算机工程;2018年01期
9 虞翔;李青;;大数据环境下的高维数据挖掘在入侵检测中的有效应用[J];电脑编程技巧与维护;2016年22期
10 宋玉林;訾雪e
本文编号:2721479
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2721479.html