基于术语离散因子的特征选择算法在文本分类中的研究
发布时间:2021-06-07 02:56
随着社会的发展,如今到处充满着互联网“大数据”的气息,这就使得电子文本数据信息变得越来越多。对于这些大量的文本数据信息如何处理,并从中快速、准确地找到有用的信息是当前需要解决的问题。文本分类技术的出现可以解决这一问题,但是数据维度过高会使文本分类的效率降低。特征选择作为文本分类技术最关紧要的步骤,它可以降低特征空间的维度,并提高文本分类的精确率。因此,本论文主要是对文本分类中的特征选择算法进行研究。论文主要是对文本分类的详细过程以及相关的技术进行了阐述,其中主要包含文本预处理、文本表示模型、用于降低特征空间维度的特征选择算法、以及用于文本分类的分类算法和用于评估其分类性能的评价指标,并对每一个步骤中的方法和模型都依次进行了详细地介绍。对于数据维度过高的问题,论文深入地分析、研究了相关的特征选择算法,并根据术语的分布情况提出了两个特征选择算法。实验结果证明,这两个算法可以有效提高文本分类的精确性。(1)提出了一种基于术语正率的特征选择算法(MTFS)。根据分析比较常用的特征选择算法,可以发现大多数特征选择算法都没有综合地考虑过文档频率、词频和术语在类中及类间的分布问题。根据此发现本文所提...
【文章来源】:西安理工大学陕西省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
文本分类过程图
西安理工大学硕士学位论文14的线性分类器。在文本分类中使用SVM分类器是一个很好的选择,分类效果是非常不错的。图2-3是SVM算法解决线性分类问题的情况,图中的圆形和方形代表的是两个不同的类别,图中的线是分离超平面,其中实线是间隔最大的分离超平面并且是唯一的。因此在使用SVM分类算法时,选择间隔最大的分离超平面作为决策面。图2-3支持向量机示意图Figure2-3Schematicdiagramofsupportvectormachine2.5.2朴素贝叶斯算法朴素贝叶斯(NB)算法是依据数学领域中贝叶斯定理的一种分类算法[43]。它的基本思想是假设特征之间是相互独立的,对于未被分类的文本,计算该文本在各个类别中的概率,文本概率最大的就是该文本所在的类别并对其进行分类。由于该分类算法既简单又高效,所以称之为“朴素”贝叶斯算法。假定给出文本d以及一个类的集合C,其中},,,{21ncccC,要对文本d分类,就必须先计算文本d在各个类别中的概率dcP)|(n,其公式如下:NnnnnnnccdPPccdPPdcP1)|()()|()()|((2-12)PcdddcPc)|(max)|(|nnn(2-13)公式中,类nc中包含的文本数与语料库中所有文本数的比值用)(ncP来表示。公式(2-13)代表的是找出文本所属类别概率的最大值。2.5.3K近邻算法K近邻(KNN)算法的基本思想是根据对样本间的距离进行计算来判断样本间的相似性,进而对特征空间中的样本进行分类[46]。K近邻直观上来看就是为分类的文本依据与它最近的相邻的K个文本的相似性来预测它所属的类别。K近邻算法是最简单的分类算法之一。其中K值的不同,实验结果也将不同,因此K值是根据实验所需来设置的。
西安理工大学硕士学位论文24于1000时,MTFS算法的Micro-F1的值渐渐高于其他算法的Micro-F1值。图3-2(b)显示了MTFS算法维度高于1000是Macro-F1的值高于其他算法。总的来说,当维度越高时,算法MTFS的效果越好。图3-120newsgroups数据集在NB分类器上的性能曲线Figure3-1Performancecurveof20newsgroupsdatasetonNBclassifier图3-2显示5种不同的特征选择算法在20newsgroups数据集上使用SVM分类器时Micro-F1和Macro-F1的性能曲线。从图3-2(a)中可以看出,我们所提出的MTFS算法在任何维度下Micro-F1值几乎都高于其他算法,效果较好。图3-2(b)中显示,在维度低于200时,算法MTFS的Macro-F1值低于NDM算法的值。在维度高于400时,算法MTFS的Macro值明显高于其他算法。总而言之,在使用SVM分类器时,MTFS算法的Micro-F1值和Macro-F1值都是随着特征词数量的增加而变大的。图3-220newsgroups数据集在SVM分类器上的性能曲线Figure3-2Performancecurveof20newsgroupsdatasetonSVMclassifier
本文编号:3215707
【文章来源】:西安理工大学陕西省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
文本分类过程图
西安理工大学硕士学位论文14的线性分类器。在文本分类中使用SVM分类器是一个很好的选择,分类效果是非常不错的。图2-3是SVM算法解决线性分类问题的情况,图中的圆形和方形代表的是两个不同的类别,图中的线是分离超平面,其中实线是间隔最大的分离超平面并且是唯一的。因此在使用SVM分类算法时,选择间隔最大的分离超平面作为决策面。图2-3支持向量机示意图Figure2-3Schematicdiagramofsupportvectormachine2.5.2朴素贝叶斯算法朴素贝叶斯(NB)算法是依据数学领域中贝叶斯定理的一种分类算法[43]。它的基本思想是假设特征之间是相互独立的,对于未被分类的文本,计算该文本在各个类别中的概率,文本概率最大的就是该文本所在的类别并对其进行分类。由于该分类算法既简单又高效,所以称之为“朴素”贝叶斯算法。假定给出文本d以及一个类的集合C,其中},,,{21ncccC,要对文本d分类,就必须先计算文本d在各个类别中的概率dcP)|(n,其公式如下:NnnnnnnccdPPccdPPdcP1)|()()|()()|((2-12)PcdddcPc)|(max)|(|nnn(2-13)公式中,类nc中包含的文本数与语料库中所有文本数的比值用)(ncP来表示。公式(2-13)代表的是找出文本所属类别概率的最大值。2.5.3K近邻算法K近邻(KNN)算法的基本思想是根据对样本间的距离进行计算来判断样本间的相似性,进而对特征空间中的样本进行分类[46]。K近邻直观上来看就是为分类的文本依据与它最近的相邻的K个文本的相似性来预测它所属的类别。K近邻算法是最简单的分类算法之一。其中K值的不同,实验结果也将不同,因此K值是根据实验所需来设置的。
西安理工大学硕士学位论文24于1000时,MTFS算法的Micro-F1的值渐渐高于其他算法的Micro-F1值。图3-2(b)显示了MTFS算法维度高于1000是Macro-F1的值高于其他算法。总的来说,当维度越高时,算法MTFS的效果越好。图3-120newsgroups数据集在NB分类器上的性能曲线Figure3-1Performancecurveof20newsgroupsdatasetonNBclassifier图3-2显示5种不同的特征选择算法在20newsgroups数据集上使用SVM分类器时Micro-F1和Macro-F1的性能曲线。从图3-2(a)中可以看出,我们所提出的MTFS算法在任何维度下Micro-F1值几乎都高于其他算法,效果较好。图3-2(b)中显示,在维度低于200时,算法MTFS的Macro-F1值低于NDM算法的值。在维度高于400时,算法MTFS的Macro值明显高于其他算法。总而言之,在使用SVM分类器时,MTFS算法的Micro-F1值和Macro-F1值都是随着特征词数量的增加而变大的。图3-220newsgroups数据集在SVM分类器上的性能曲线Figure3-2Performancecurveof20newsgroupsdatasetonSVMclassifier
本文编号:3215707
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3215707.html