基于谱特征分析和卡方检验的特征选择方法研究
发布时间:2022-01-05 15:43
维度降低是处理大型高维度数据必须面临的一个重要问题。特征选择就是在大型数据集上选择原始特征的一个子集,预处理数据以获得一组较小的有代表性的特征集合。从有无类标签参与特征选择的角度,将特征选择方法分为监督型特征选择、无监督特征选择和半监督特征选择。由于无监督特征选择方法只考虑了特征之间的相关性,而忽略了特征与类别之间的相关性,导致了无监督特征选择获得的特征子集的分类能力较弱,比如基于谱图理论的谱特征选择。而一些监督特征选择方法只考虑了特征与分类类别之间的相关性,不能很好的考虑到特征之间的冗余,造成了特征子集中有很多特征是相互关联的,影响了特征的独立性以及分类的准确性。因此本文提出了一种基于谱特征分析和卡方检验的特征选择方法。使用谱分析评价特征之间的相关性,使用卡方检验评价特征与类别标签之间的相关性。监督学习部分的卡方检验通过观察值和理论值之间的偏差来判断理论值的正确率,特征选择时应该更优先选择卡方值更高的特征。无监督学习部分的谱聚类方法首先需要计算给定的样本数据集中每对样本点之间的相似性,来得到一个相似性矩阵,进而构建出一个邻接图,最后通过图的归一化切分(Normalized Cut)得...
【文章来源】:天津师范大学天津市
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
图1.1特征选择分类??
首先来描述谱特征分析部分,谱特征分析主要应用谱聚类算法,使用谱图理??论将聚类问题转化为图的最优切分问题来找到最佳特征子集。为了方便描述谱分??析,我们用如下图3.1的样本分布来描述。图中每个图形(三角形和圆形)表示??一个样本,不同的形状表示这些样本在同一特征上的不同取值,補圆J和椭圆J5??表示类J和类别5,?F1和F2表示两个特征。左图中,相同类别的样本在特征F1??上取值相同,而具有不同类别的样本在特征F1上取值不同,此时称特征F1的取值??分布与类别结构一致,具有更好的判别能力。而右图中,特征F2判别能力要明显??弱于F1。??图3.1谱特征分析??19??
?30??num?of?features??图3.3?Ionosphere数据集实验结果??1.在三个工程领域的数据集上的实验结果??图3.3显示了在Ionosphere数据集上使用不同特征选择方法的实验结果比??较,可以看出,当取前5个特征时,SpeChi方法的分类准确率首先达到了最高,??并且在取前10个特征进行实验时,SpeChi方法基本占据压倒性优势,对于这个??数据集特征选择优势特别明显,可以有效地降低数据维度,并保证了分类器的正??确率达到90%以上。??average?ACC?of?sonar??^一^!?7?上??*Tj?IG??j?;?|MCFS??so-?/?——一一??'--—--——?SSi??A?-X-?SPEC??0?10?20?30?40?50?60??num?of?features??图3.4?sonar数据集实验结果??图3.4显示了在sonar数据集上使用不同特征选择方法的实验结果比较,可??以看出,在前期取前20个特征过程中,SpeChi方法基本可以和SPEC方法抗衡,??并且要优于ReliefF,在取20个到40个特征时,己经优于SPEC方法,并且可??以和ReliefF对抗
【参考文献】:
期刊论文
[1]基于最大相关信息系数的FCBF特征选择算法[J]. 张俐,袁玉宇,王枞. 北京邮电大学学报. 2018(04)
[2]谱聚类算法综述[J]. 蔡晓妍,戴冠中,杨黎斌. 计算机科学. 2008(07)
[3]基于互信息的文本特征选择方法研究与改进[J]. 刘健,张维明. 计算机工程与应用. 2008(10)
[4]基于条件信息熵的自主式朴素贝叶斯分类算法[J]. 邓维斌,黄蜀江,周玉敏. 计算机应用. 2007(04)
本文编号:3570620
【文章来源】:天津师范大学天津市
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
图1.1特征选择分类??
首先来描述谱特征分析部分,谱特征分析主要应用谱聚类算法,使用谱图理??论将聚类问题转化为图的最优切分问题来找到最佳特征子集。为了方便描述谱分??析,我们用如下图3.1的样本分布来描述。图中每个图形(三角形和圆形)表示??一个样本,不同的形状表示这些样本在同一特征上的不同取值,補圆J和椭圆J5??表示类J和类别5,?F1和F2表示两个特征。左图中,相同类别的样本在特征F1??上取值相同,而具有不同类别的样本在特征F1上取值不同,此时称特征F1的取值??分布与类别结构一致,具有更好的判别能力。而右图中,特征F2判别能力要明显??弱于F1。??图3.1谱特征分析??19??
?30??num?of?features??图3.3?Ionosphere数据集实验结果??1.在三个工程领域的数据集上的实验结果??图3.3显示了在Ionosphere数据集上使用不同特征选择方法的实验结果比??较,可以看出,当取前5个特征时,SpeChi方法的分类准确率首先达到了最高,??并且在取前10个特征进行实验时,SpeChi方法基本占据压倒性优势,对于这个??数据集特征选择优势特别明显,可以有效地降低数据维度,并保证了分类器的正??确率达到90%以上。??average?ACC?of?sonar??^一^!?7?上??*Tj?IG??j?;?|MCFS??so-?/?——一一??'--—--——?SSi??A?-X-?SPEC??0?10?20?30?40?50?60??num?of?features??图3.4?sonar数据集实验结果??图3.4显示了在sonar数据集上使用不同特征选择方法的实验结果比较,可??以看出,在前期取前20个特征过程中,SpeChi方法基本可以和SPEC方法抗衡,??并且要优于ReliefF,在取20个到40个特征时,己经优于SPEC方法,并且可??以和ReliefF对抗
【参考文献】:
期刊论文
[1]基于最大相关信息系数的FCBF特征选择算法[J]. 张俐,袁玉宇,王枞. 北京邮电大学学报. 2018(04)
[2]谱聚类算法综述[J]. 蔡晓妍,戴冠中,杨黎斌. 计算机科学. 2008(07)
[3]基于互信息的文本特征选择方法研究与改进[J]. 刘健,张维明. 计算机工程与应用. 2008(10)
[4]基于条件信息熵的自主式朴素贝叶斯分类算法[J]. 邓维斌,黄蜀江,周玉敏. 计算机应用. 2007(04)
本文编号:3570620
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3570620.html