基于互信息的特征选择方法研究
发布时间:2021-09-04 00:56
特征选择一直是模式识别领域的研究热点之一。模式识别是对数据进行分类,分类的过程可以在原始数据空间中完成,也可以对原始数据进行变换,将数据映射到更能反映分类本质的特征空间中进行。在特征空间中得到的分类模型无论是模型的训练时间还是模型的可解释性都优于直接从原始数据得到的分类模型。所以特征选择的研究是模式识别的一项重要任务。论文详细介绍了基于互信息的过滤式特征选择算法的基本概念,在分析了已有的特征选择算法的优缺点之后,提出了两种新的特征选择算法。(1)提出了一种基于最小条件相关和最小条件冗余的特征选择算法-MCRMCR(Minimum Conditional Relevancy and Minimum Conditional Redundancy)算法。通过对RelaxFS(Feature Selection based on Relaxing Max-relevance and Min-redundancy)算法的分析发现,RelaxFS算法在特征选择过程中,使用所有的已选特征对新特征进行评价,这样会在计算特征与类的相关性和特征与已选特征集合的冗余性过程中耗费大量的时间。因此为了更精确地刻...
【文章来源】:西安理工大学陕西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
熵和互信息之间的关系
特征的评价由两项组成,第一项为特征mX 与类的相关性,第二项合中的特征sX 之间的冗余性。参数 用来权衡相关和冗余之间的权更倾向于选择高类相关低特征间冗余的特征。体例如 mRMR,和 MIFS 很像,这里将参数 设置为了|S|1。将候选集合中的每个sX 的冗余值进行均值化,更具体的表示了特征mX 和已趋势。 XSmRMRmmmssJ XIXCI(X;X)|S|1( )(;)特征选择评价准则中引入了冗余,但是评价冗余的工具仍然是二维互的 CIFE,其将冗余扩展为了类内冗余。 XScifemmmsmssJ (X)I(X;C){I(X;X)I(X;X|C)} I( X;X)I(X;X|C)msms 表示类内冗余,CIFE 使用条件互信息将冗与类相关的冗余,一种是与类部分相关的冗余。区别如下:
COIL20 62.27±0.24 87.39±0.18 88.69±0.18 90.13±0.19 90.34±0.19 91.00±0.19warpPIE10p 79.93±0.19 92.16±0.14 93.02±0.14 86.07±0.12 93.50±0.14 93.34±0.14TOX 171 65.81±0.09 78.17±0.12 79.44±0.13 84.73±0.14 85.10±0.13 78.59±0.12Average 63.66±0.16 74.79±0.14 75.39±0.14 70.98±0.12 77.72±0.14 78.56±0.15表 3-5 为 6 种特征选择算法在 KNN 分类器上的平均分类准确率值。表现最好的三个特征选择算法分别是 CIFE 算法,RelaxFS 算法和 MCRMCR 算法。其中 CIFE 算法在两个数据集上获得最高的分类准确率,RelaxFS 算法在四个数据集上获得最高的分类准确率,MCRMCR 算法在五个数据集上可以获得最高的分类准确率。结合表格的最后一行可以看出,不 同 的 特 征 选 择 算 法 在 KNN 分 类 器 上 的 分 类 准 确 率 具 有 这 样 的 趋 势 :MCRMCR>RelaxFS>mRMR>JMI>CIFE>MIM。比较表 3-4 和表 3-5,我们依然可以得到不同分类器对 MCRMCR 算法和其他特征选择算法的影响。比较 MCRMCR 算法使用两种分类器的结果,可以看出,MCRMCR算法在SVM分类器上可以获得更好结果的数量大于MCRMCR算法在 KNN 分类器上得到的最好结果数量。而 RelaxFS 算法在 KNN 分类器上可以获得更好结果的数量小于其在 KNN 分类器上得到的最好结果数量。所以 MCRMCR 算法更适合作为 SVM 分类器的预处理过程。
本文编号:3382224
【文章来源】:西安理工大学陕西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
熵和互信息之间的关系
特征的评价由两项组成,第一项为特征mX 与类的相关性,第二项合中的特征sX 之间的冗余性。参数 用来权衡相关和冗余之间的权更倾向于选择高类相关低特征间冗余的特征。体例如 mRMR,和 MIFS 很像,这里将参数 设置为了|S|1。将候选集合中的每个sX 的冗余值进行均值化,更具体的表示了特征mX 和已趋势。 XSmRMRmmmssJ XIXCI(X;X)|S|1( )(;)特征选择评价准则中引入了冗余,但是评价冗余的工具仍然是二维互的 CIFE,其将冗余扩展为了类内冗余。 XScifemmmsmssJ (X)I(X;C){I(X;X)I(X;X|C)} I( X;X)I(X;X|C)msms 表示类内冗余,CIFE 使用条件互信息将冗与类相关的冗余,一种是与类部分相关的冗余。区别如下:
COIL20 62.27±0.24 87.39±0.18 88.69±0.18 90.13±0.19 90.34±0.19 91.00±0.19warpPIE10p 79.93±0.19 92.16±0.14 93.02±0.14 86.07±0.12 93.50±0.14 93.34±0.14TOX 171 65.81±0.09 78.17±0.12 79.44±0.13 84.73±0.14 85.10±0.13 78.59±0.12Average 63.66±0.16 74.79±0.14 75.39±0.14 70.98±0.12 77.72±0.14 78.56±0.15表 3-5 为 6 种特征选择算法在 KNN 分类器上的平均分类准确率值。表现最好的三个特征选择算法分别是 CIFE 算法,RelaxFS 算法和 MCRMCR 算法。其中 CIFE 算法在两个数据集上获得最高的分类准确率,RelaxFS 算法在四个数据集上获得最高的分类准确率,MCRMCR 算法在五个数据集上可以获得最高的分类准确率。结合表格的最后一行可以看出,不 同 的 特 征 选 择 算 法 在 KNN 分 类 器 上 的 分 类 准 确 率 具 有 这 样 的 趋 势 :MCRMCR>RelaxFS>mRMR>JMI>CIFE>MIM。比较表 3-4 和表 3-5,我们依然可以得到不同分类器对 MCRMCR 算法和其他特征选择算法的影响。比较 MCRMCR 算法使用两种分类器的结果,可以看出,MCRMCR算法在SVM分类器上可以获得更好结果的数量大于MCRMCR算法在 KNN 分类器上得到的最好结果数量。而 RelaxFS 算法在 KNN 分类器上可以获得更好结果的数量小于其在 KNN 分类器上得到的最好结果数量。所以 MCRMCR 算法更适合作为 SVM 分类器的预处理过程。
本文编号:3382224
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3382224.html