基于信息粒化的高效Relief算法研究

发布时间：2021-01-16 13:33

　　随着互联网技术的飞速发展,信息的多样化及产生速度有着质的飞跃,促使数据呈现爆发式的增长。大量的数据中势必蕴含着很多有价值的信息,数据挖掘就是在这些数据中“沙里淘金”的过程。在数据挖掘领域中,分类问题受到广泛关注。特征选择是数据挖掘中一个重要的预处理过程,通过剔除冗余或不相关的特征,从而达到提高模型精度、减少特征以及提高运行效率的目的,便于研究人员获取有用的信息。事实证明,Relief及其衍生算法是一类成功的特征选择器。与全局搜索和启发式搜索方法不同,Relief算法依据分类间隔来度量特征对样本的区分能力,是一种简单有效的特征加权方法,但当处理大规模数据时,仍存在计算成本较高的问题。本文以信息粒化为基础,从样本粒化和支持向量粒化的角度出发,结合Relief算法固有的特征加权机制,针对提高Relief算法的效率开展研究工作,主要内容如下:（1）从样本粒化的角度出发,结合Relief算法的特征加权机制与样本空间存在的潜在联系,提出了基于样本粒化的快速Relief算法。该算法克服了传统Relief算法依赖全部数据的局限,以知识粒度和Shannon熵共同作为评价指标,从信息粒化的角度对原始数据进...

【文章来源】：山西大学山西省

【文章页数】：59 页

【学位级别】：硕士

【部分图文】：

基于信息粒化的高效Relief算法研究

图3.1分类问题的分类决策（4）对于一个多分类问题，ReliefF的做法是随机选取一个样本点Ri，然后从

基于信息粒化的高效Relief算法研究

多分类问

工作流程图,工作流程,算法,随机抽样

基于信息粒化的高效Relief算法研究18表3.1数据集描述数据集名称缩写样本数条件特征数类别数UserKnowledgeModelingUserKM40354BreastCancerWisconsinBreastCW68392BanknoteAuthenticationBanknoteA137242WineQuality-WhiteWineQW4898115WaveformWaveform5000213PageBlocksPageB5473105ElectricalGridStabilitySimulatedElectricalGridSS10000132MagicGammaTelescopeMagicGT19020102图3.3上、下方分别为FSSMC和SGF-ReliefF算法的工作流程算法的另一个主要参数为筛选粒的阈值θ，当θ太大时，筛选的粒的数量太少，容易受噪声点影响，且粒的代表性不够。当θ太小时，筛选的粒数量过多，导致运行成本仍很高，且在随机抽样时易抽到代表性不高的点。实际上，根据训练数据的实际情况来设定阈值θ会得到较好的结果，由于本章的中心思想在于论述基于样本粒化的快速Relief算法的可行性，所以阈值θ只简单设定为全部颗粒数目的1/4。此外，SGF-ReliefF算法、ReliefF-RS算法和FSSMC算法一个共同的参数为随机抽样的个数m，m的大小同样也影响着运算的效率，当m太小时，抽取的样本可能包含不了足够的信息；当m太大时，运行成本会很高。在进行实验测试时，m值的设定与训练样本集的大小有关，通常设为全部训练样本数的5%或10%。

本文编号：2980919

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/2980919.html

上一篇：转向架轴距尺寸与平行度三维检测技术研究
下一篇：面向二维形状识别的轮廓和骨架序列编码方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|