基于信息差异性分析的特征选择算法研究
发布时间:2021-01-08 02:26
随着获取信息技术的飞速发展,信息数据以前所未有的速度增长和积累,信息社会进入“大数据”时代。这些数据往往呈现出样本多、维度高的特点,对机器学习和数据挖掘带来了巨大的挑战。高维数据集中往往存在大量冗余的、无关的甚至是噪声的信息,这些信息可能对机器学习算法的建模造成困扰,如增加计算成本、降低学习模型的泛化性能和准确率等。特征选择技术通过剔除原始高维数据集中的噪声、无关和冗余特征,实现对数据集的预处理,良好的特征选择结果可以高效地生成精度更高的机器学习模型,因此,针对高维数据特征选择方法的研究具有重要的研究价值和应用意义。本文从信息差异性分析的角度出发,在聚类特征选择、启发式特征选择、深度特征选择和集成特征选择方面开展了一系列研究工作。信息差异性可以很好地度量变量之间的分布差异,研究工作采用信息距离度量及其变换和信息交叉熵等信息差异性分析指标作为评价判据,研究和设计新的特征选择准则和方法,实验证明在分类建模中应用所提出的特征选择算法,获得了良好的分类预测准确率。本文研究工作的主要内容和贡献包括以下几个方面:(1)针对聚类特征选择算法中特征差异表达不足的问题,利用信息距离作为差异性分析指标,提...
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:122 页
【学位级别】:博士
【部分图文】:
特征选择方法
基于信息差异性分析的特征选择算法研究ClustercenterfifjfkfpInformationdistancespaceoffeaturesCfj"fi"fk"图3.1基于密度峰值的特征聚类示例设fi’、fj’和fk’分别为三个簇类中互信息最大的特征,如图3.1中黄色的点。分类标签C,fi’与C的有如下关系:"""2(;)()()(,)iiiIfC=HC+HfdfC(3.8)公式(3.8)中H(C)是分类标签熵值,是个固定常量,因而fi’的在信息距离空间的位置受(")(",)iiHfdfC控制,fi’可解释为与C信息距离较近而熵值较大的特征点。考察fi’、fj’和fk’,由于信息距离空间中类标签C与聚类中心位置无关,使得fi’、fj’和fk’与所在簇类的聚类中心的位置关系是随机的,因而它们的两两信息距离和可以由聚类中心的两两信息距离和近似表示,即""",{,,},{,,}(,)(,)rsijkuvijkrsuvffffffffffdffdff∈∈∑≈∑(3.9)由于在密度峰值聚类中,聚类中心的距离被最大化,因而选取的fi’、fj’和fk’之间的距离也被近似最大化,即""",{,,},{,,}max(,)max(,)rsijkuvijkrsuvffffffffffdffdff∈∈∑∑(3.10)同时它们是各自簇类中与类标签互信息最大的特征,因此,特征子集{fi’,fj’,fk’}可看作是公式(3.4)的一个近似解。设S为每个簇类中与类标签互信息最大特征组成的特征子集,CS为每个簇类中聚类中心组成的特征子集,将公式(3.10)一般化,有,,max(,)max(,)rsuvrsuvffSffCSdffdff∈∈∑∑(3.11)27
基于信息差异性分析的特征选择算法研究(g)(h)图5.4噪声比率对分类准确率的影响整体而言,对于所有的数据集,四个分类器的大部分准确率峰值都大于0.9。其中,NervousSystem、BreastCancer、ALLLeukemia、Prostate和Gliomas数据集在KNN1和NBC分类器上取得了接近或等于1的最优准确率;BreastCancer、ALLLeukemia和Prostate数据集在SVM和C4.5分类器上取得了接近或等于1的最优准确率。参考前面章节的这些数据集在SVM、KNN1、NBC和C4.5上分类准确率的表现,可以看到HDAECE算法的表现更为优异,这主要是由于降噪自动编码获取了分类能力强的高层特征,即使在噪声比率为0,即在普通自动编码的情况下,HDAECE算法也有不错的表现。同时,注意到对于所有数据集,SVM和KNN1分类器的最优准确率值都不在噪声比率为0的位置上,大部分数据集的最优准确率值处于0.02或0.03位置。但随着噪声比率的增大,大于0.1后,绝大部分准确率曲线急剧下降,甚至在噪声比率为0.2时准确率下降10个百分点以上。这主要是由于表达谱数据都是小样本集造成的,过多的噪声添加改变了隐藏的分类模式。综合起来看,对于数据表数据采用降噪自动编码器(噪声比率小于0.05)能够得到分类能力强和鲁棒性好的高层特征,进而可以构建更准确的分类器。5.5.3不同高层特征选择数对算法的影响本节考查高层特征选择数||gF对分类器分类性能的影响,在此考查高层特征选择率(||/||ggFF)为0.2、0.4、0.6、0.8和1的情况下HDAECE算法的准确率。注意当||/||ggFF为1时,表示高层特征没有进行特征选择。另外一个重要参数噪声比率(CorruptionLevel)取固定值,考虑到图5.4中SVM和KNN1分类器的最优准确率值大都位于0.02或0.03,故噪声比率取为(0.02+0.03)/2=0.025。实验结果用图的形式给出
本文编号:2963723
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:122 页
【学位级别】:博士
【部分图文】:
特征选择方法
基于信息差异性分析的特征选择算法研究ClustercenterfifjfkfpInformationdistancespaceoffeaturesCfj"fi"fk"图3.1基于密度峰值的特征聚类示例设fi’、fj’和fk’分别为三个簇类中互信息最大的特征,如图3.1中黄色的点。分类标签C,fi’与C的有如下关系:"""2(;)()()(,)iiiIfC=HC+HfdfC(3.8)公式(3.8)中H(C)是分类标签熵值,是个固定常量,因而fi’的在信息距离空间的位置受(")(",)iiHfdfC控制,fi’可解释为与C信息距离较近而熵值较大的特征点。考察fi’、fj’和fk’,由于信息距离空间中类标签C与聚类中心位置无关,使得fi’、fj’和fk’与所在簇类的聚类中心的位置关系是随机的,因而它们的两两信息距离和可以由聚类中心的两两信息距离和近似表示,即""",{,,},{,,}(,)(,)rsijkuvijkrsuvffffffffffdffdff∈∈∑≈∑(3.9)由于在密度峰值聚类中,聚类中心的距离被最大化,因而选取的fi’、fj’和fk’之间的距离也被近似最大化,即""",{,,},{,,}max(,)max(,)rsijkuvijkrsuvffffffffffdffdff∈∈∑∑(3.10)同时它们是各自簇类中与类标签互信息最大的特征,因此,特征子集{fi’,fj’,fk’}可看作是公式(3.4)的一个近似解。设S为每个簇类中与类标签互信息最大特征组成的特征子集,CS为每个簇类中聚类中心组成的特征子集,将公式(3.10)一般化,有,,max(,)max(,)rsuvrsuvffSffCSdffdff∈∈∑∑(3.11)27
基于信息差异性分析的特征选择算法研究(g)(h)图5.4噪声比率对分类准确率的影响整体而言,对于所有的数据集,四个分类器的大部分准确率峰值都大于0.9。其中,NervousSystem、BreastCancer、ALLLeukemia、Prostate和Gliomas数据集在KNN1和NBC分类器上取得了接近或等于1的最优准确率;BreastCancer、ALLLeukemia和Prostate数据集在SVM和C4.5分类器上取得了接近或等于1的最优准确率。参考前面章节的这些数据集在SVM、KNN1、NBC和C4.5上分类准确率的表现,可以看到HDAECE算法的表现更为优异,这主要是由于降噪自动编码获取了分类能力强的高层特征,即使在噪声比率为0,即在普通自动编码的情况下,HDAECE算法也有不错的表现。同时,注意到对于所有数据集,SVM和KNN1分类器的最优准确率值都不在噪声比率为0的位置上,大部分数据集的最优准确率值处于0.02或0.03位置。但随着噪声比率的增大,大于0.1后,绝大部分准确率曲线急剧下降,甚至在噪声比率为0.2时准确率下降10个百分点以上。这主要是由于表达谱数据都是小样本集造成的,过多的噪声添加改变了隐藏的分类模式。综合起来看,对于数据表数据采用降噪自动编码器(噪声比率小于0.05)能够得到分类能力强和鲁棒性好的高层特征,进而可以构建更准确的分类器。5.5.3不同高层特征选择数对算法的影响本节考查高层特征选择数||gF对分类器分类性能的影响,在此考查高层特征选择率(||/||ggFF)为0.2、0.4、0.6、0.8和1的情况下HDAECE算法的准确率。注意当||/||ggFF为1时,表示高层特征没有进行特征选择。另外一个重要参数噪声比率(CorruptionLevel)取固定值,考虑到图5.4中SVM和KNN1分类器的最优准确率值大都位于0.02或0.03,故噪声比率取为(0.02+0.03)/2=0.025。实验结果用图的形式给出
本文编号:2963723
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2963723.html