当前位置:主页 > 科技论文 > 自动化论文 >

基于MIC改进的PCA和CFS特征降维算法研究

发布时间:2021-03-11 03:21
  大数据时代的到来和信息技术的发展产生了大量数据,机器学习以及近年来的深度学习等技术是探索数据的重要手段和有力武器,其关键点在于特征的处理和提取上。特征工程是机器学习重要预备阶段,数据特征对模型学习的效果至关重要。数据中往往存在着对数据分析无关或者多余的特征,存在着冗余信息,这些冗余信息和噪声,不仅会影响分析数据的结果精度,还会增加较多的计算量。特征降维可精简数据结构,增加模型的可解释性,减少模型计算量,并提升模型学习效果。特征降维可分为两个大的方面:特征抽取和特征选择。本文旨在对特征降维算法进行改进优化和推广,提高特征降维的有效性,使其适用性更强。本文对特征降维中的特征抽取算法主成分分析(Principal component analysis,PCA)和特征选择算法中基于关联性的特征选择算法(Correlation-based Feature Selection algorithm,CFS),利用最大信息系数(Maximum information coefficient,MIC)的优势分别对这两者进行改进分析研究。本文主要研究工作如下:第一,针对主成分分析中协方差矩阵只能衡量变量之... 

【文章来源】:湖北工业大学湖北省

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于MIC改进的PCA和CFS特征降维算法研究


特征抽取分类本文第一个研究点是针对线性特征抽取算法中主成分分析(PCA)进行研究,

框架图,特征选择,框架,过程


湖北工业大学硕士学位论文8图2-1特征抽取分类本文第一个研究点是针对线性特征抽取算法中主成分分析(PCA)进行研究,首先分析其原理、根据算法只能度量变量间存在的线性关系的局限和数据服从高斯分布的假设特点,对数据变换,然后对计算中矩阵进行改进和推广,使其能度量变量间的复杂关系,从而提出一种更优的算法,使其更有效,提高算法特征抽取能力,最后通过模拟和实验来对比改进前后,以及对比和其他常用算法的效果。2.1.2特征选择特征选择通常分为四个阶段过程:(1)特征子集产生,(2)特征子集评估,(3)评估停止,(4)结果验证。特征选择基本框架如下面图形表示:图2-2特征选择过程框架特征子集生成主要的搜索策略有三种:全局最优搜索,如分支界定法;随机搜索策略,如模拟退火算法,遗传算法,粒子群算法;启发式搜索,如序列向前选择算法、序列向后选择算法、增l去r法等等。特征选择根据特征间不同的评价度量方式可以分为过滤式、封装式、嵌入式三种。过滤式特征选择是先选择出特征,再将这些特征送入模型学习,特征选择过程和训练模型是分开先后进行的,一般计算速度较快,可操作性较大,缺点是可能选择的特征正确率可能不高,常

示意图,示意图,蓝色,正方形


湖北工业大学硕士学位论文13其中((1),(2),,())nTiiiixxxx,((1),(2),,(n))Tjjjjxxxx向量。p1时,距离称为曼哈顿距离,p2时,就是常用的欧氏距离,且使用较多。然后选择K个距离最近的实例进行判断。若是分类任务问题,输出的就是待分类样本所属的类别,对其最近的K个实例的类别进行投票表决,属于哪个类别的样本点多则新样本则属于哪个类别,一般K是选择奇数;若是回归任务问题,则对其最近的K个距离最近的实例进行取平均作为新样本的预测值。K近邻算法示意图如下:图2-3KNN示意图如上图所示,分别用蓝色正方形和红色三角形表示两类样本数据,中间绿色小圆圈表示待分类的数据。用K近邻的思想来进行分类:若K=3,则绿色圆点的最邻近的3个点在上面实线圆圈内,是2个红色三角形和1个蓝色正方形,根据投票方式,红色的三角形数量比蓝色正方形多,因此待分类的绿点属于红色的三角形一类;同理,若K=5,绿色圆点的最邻近的5个点见上图虚线圆圈内,是2个红色三角形和3个蓝色的正方形,根据投票的方式,蓝色正方形数量多于红色三角形数量,判定绿色的点属于蓝色的正方形一类。K值选择过小,模型容易过拟合,特别是当有噪声存在时误差更大;同时如果K值选择过大,模型过于简单,预测误差会变大,K值一般可通过交叉验证来选择。KNN算法原理较简单,容易实施,新的数据可以直接加入数据集而不必重新训练,经常被使用;当数据量较大时,计算量较大,对样本不平衡数据得到预测误差会偏大,合适K值不容易选择。KNN一般在文本分类、模式识别、聚类分析、多分类领域应用较多。

【参考文献】:
期刊论文
[1]基于主成分分析的唐山市新型城镇化水平研究[J]. 张思佳,许沁怡,王天瑞,张春玲.  现代商贸工业. 2018(31)
[2]基于信息量改进主成分分析的高光谱图像特征提取方法[J]. 任智伟,吴玲达.  兵器装备工程学报. 2018(07)
[3]ReliefF和APSO混合降维算法研究[J]. 陈俊颖,陆慧娟,严珂,叶敏超.  中国计量大学学报. 2017(02)
[4]基于对数变换和最大信息系数PCA的过程监测[J]. 王中伟,宋宏,李帅,周晓锋.  科学技术与工程. 2017(16)
[5]基于对称不确定性和SVM递归特征消除的信息基因选择方法[J]. 叶明全,高凌云,伍长荣,万春圆.  模式识别与人工智能. 2017(05)
[6]粮食主产区新型城镇化发展水平综合评价[J]. 姚旭兵,罗光强,吴振顺,段超群.  商业经济研究. 2017(05)
[7]基于归一化互信息的FCBF特征选择算法[J]. 段宏湘,张秋余,张墨逸.  华中科技大学学报(自然科学版). 2017(01)
[8]主成分分析与线性判别分析两种数据降维算法的对比研究[J]. 董虎胜.  现代计算机(专业版). 2016(29)
[9]一种基于改进的遗传算法的癌症特征基因选择方法[J]. 范方云,孙俊,王梦梅.  江南大学学报(自然科学版). 2015(04)
[10]一种基因表达数据的混合特征选择方法[J]. 黄道斌,叶明全,张玲,胡天寒,杨利.  宿州学院学报. 2014(08)

硕士论文
[1]基于稳健主成分回归的润滑油产量预测模型[D]. 程娴.大连理工大学 2017
[2]最大信息系数及其在脑网络分析中的应用[D]. 蒋杭进.中国科学院研究生院(武汉物理与数学研究所) 2013



本文编号:3075771

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3075771.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a8504***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com