基于信息粒化的高效Relief算法研究
发布时间:2021-01-16 13:33
随着互联网技术的飞速发展,信息的多样化及产生速度有着质的飞跃,促使数据呈现爆发式的增长。大量的数据中势必蕴含着很多有价值的信息,数据挖掘就是在这些数据中“沙里淘金”的过程。在数据挖掘领域中,分类问题受到广泛关注。特征选择是数据挖掘中一个重要的预处理过程,通过剔除冗余或不相关的特征,从而达到提高模型精度、减少特征以及提高运行效率的目的,便于研究人员获取有用的信息。事实证明,Relief及其衍生算法是一类成功的特征选择器。与全局搜索和启发式搜索方法不同,Relief算法依据分类间隔来度量特征对样本的区分能力,是一种简单有效的特征加权方法,但当处理大规模数据时,仍存在计算成本较高的问题。本文以信息粒化为基础,从样本粒化和支持向量粒化的角度出发,结合Relief算法固有的特征加权机制,针对提高Relief算法的效率开展研究工作,主要内容如下:(1)从样本粒化的角度出发,结合Relief算法的特征加权机制与样本空间存在的潜在联系,提出了基于样本粒化的快速Relief算法。该算法克服了传统Relief算法依赖全部数据的局限,以知识粒度和Shannon熵共同作为评价指标,从信息粒化的角度对原始数据进...
【文章来源】:山西大学山西省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图3.1分类问题的分类决策(4)对于一个多分类问题,ReliefF的做法是随机选取一个样本点Ri,然后从
多分类问
基于信息粒化的高效Relief算法研究18表3.1数据集描述数据集名称缩写样本数条件特征数类别数UserKnowledgeModelingUserKM40354BreastCancerWisconsinBreastCW68392BanknoteAuthenticationBanknoteA137242WineQuality-WhiteWineQW4898115WaveformWaveform5000213PageBlocksPageB5473105ElectricalGridStabilitySimulatedElectricalGridSS10000132MagicGammaTelescopeMagicGT19020102图3.3上、下方分别为FSSMC和SGF-ReliefF算法的工作流程算法的另一个主要参数为筛选粒的阈值θ,当θ太大时,筛选的粒的数量太少,容易受噪声点影响,且粒的代表性不够。当θ太小时,筛选的粒数量过多,导致运行成本仍很高,且在随机抽样时易抽到代表性不高的点。实际上,根据训练数据的实际情况来设定阈值θ会得到较好的结果,由于本章的中心思想在于论述基于样本粒化的快速Relief算法的可行性,所以阈值θ只简单设定为全部颗粒数目的1/4。此外,SGF-ReliefF算法、ReliefF-RS算法和FSSMC算法一个共同的参数为随机抽样的个数m,m的大小同样也影响着运算的效率,当m太小时,抽取的样本可能包含不了足够的信息;当m太大时,运行成本会很高。在进行实验测试时,m值的设定与训练样本集的大小有关,通常设为全部训练样本数的5%或10%。
本文编号:2980919
【文章来源】:山西大学山西省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图3.1分类问题的分类决策(4)对于一个多分类问题,ReliefF的做法是随机选取一个样本点Ri,然后从
多分类问
基于信息粒化的高效Relief算法研究18表3.1数据集描述数据集名称缩写样本数条件特征数类别数UserKnowledgeModelingUserKM40354BreastCancerWisconsinBreastCW68392BanknoteAuthenticationBanknoteA137242WineQuality-WhiteWineQW4898115WaveformWaveform5000213PageBlocksPageB5473105ElectricalGridStabilitySimulatedElectricalGridSS10000132MagicGammaTelescopeMagicGT19020102图3.3上、下方分别为FSSMC和SGF-ReliefF算法的工作流程算法的另一个主要参数为筛选粒的阈值θ,当θ太大时,筛选的粒的数量太少,容易受噪声点影响,且粒的代表性不够。当θ太小时,筛选的粒数量过多,导致运行成本仍很高,且在随机抽样时易抽到代表性不高的点。实际上,根据训练数据的实际情况来设定阈值θ会得到较好的结果,由于本章的中心思想在于论述基于样本粒化的快速Relief算法的可行性,所以阈值θ只简单设定为全部颗粒数目的1/4。此外,SGF-ReliefF算法、ReliefF-RS算法和FSSMC算法一个共同的参数为随机抽样的个数m,m的大小同样也影响着运算的效率,当m太小时,抽取的样本可能包含不了足够的信息;当m太大时,运行成本会很高。在进行实验测试时,m值的设定与训练样本集的大小有关,通常设为全部训练样本数的5%或10%。
本文编号:2980919
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2980919.html