当前位置:主页 > 科技论文 > 软件论文 >

基于文档层词频重排序的特征选择方法的研究与应用

发布时间:2021-01-12 13:36
  随着信息技术的快速发展,文本数据量不断增长,如何高效、准确地定位有效信息成为当今时代下的迫切需求。文本分类作为信息处理的核心技术成为解决这类问题的关键手段。在文本分类过程中,高维数据容易引起分类过程中的维度灾难,特征选择是解决维度灾难,实现维数约减的有效方法,因此论文以文本分类过程中的特征选择方法作为主要研究内容。论文首先简要概述了文本分类技术,并介绍了其详细过程,在每个步骤中都列举了一些常用的方法。其次为解决文本分类过程中的维度灾难,提出了两种新的特征选择算法。(1)提出一种基于NDM改进的特征选择算法(T F-NDM)。通过分析常见的特征选择算法,发现大部分算法都依赖于文档频率,未考虑词条频率,因此本文以表现优秀的NDM算法的文档频率为基础,引入词频权重,充分考虑类别信息和词条占比的情况。最后通过在五个数据集上不同的实验结果证明,T F-N DM算法性能良好,能够有效地提高分类性能。(2)提出一种基于文档专一化和词条多样化的特征选择算法(D S T D)。该算法在宏观上统一文档频率的多种计算方式,在微观上从多个角度考虑了词条分布的情况,提出文档专一性和词条多样性两个全新的影响因子。... 

【文章来源】:西安理工大学陕西省

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

基于文档层词频重排序的特征选择方法的研究与应用


图2-2支持向量机Fig.2-2SupportVectorMachine

等值线图,等值线,词条,算法


发现词条2t 、3t 和4t 的正负类差值的影响因子,即 tpr 最小值的影响,我们可以选出词条 更具有区分能力,这些。可以看出,NDM 算法避免了高频词与低频词具有相据集中也可以看出,当我们使用 NDM 算法时,1t ,3t 和个词条更具有区分能力。图 3-1 显示了 NDM 等值线,颜关于对角线对称,可以看出,在该算法中仍然存在大量的特征排序,所以 NDM 算法具有一定的局限性。表 3-1 归一化差值测量法的样本数据集Tab.3-1 The Sample Data Set of Normalized Difference Measure词条1t2t3t4tr0.32 0.1 0.5 0.8r0.2 0.4 0.8 0.5 fpr0.12 0.3 0.3 0.3M0.6 3.0 0.6 0.6

性能曲线,数据集中,分类器,性能曲线


图 3-2 WAP 数据集中 NB 分类器上的性能曲线Fig.3-2 Performance Curve on WAP Data Set for NB图 3-3 显示了六种不同特征选择算法在 WAP 数据集上使用支持向量机分类器时Macro-F1 值和 Micro-F1 值的变化趋势。从图 3-3(a)中可以看出,本章提出的 TF-NDM算法仅在特征维度为50的情况下,Macro-F1值不是最高的,在其他维度下都是最优秀的。从图 3-3(b)中可以看出,TF-NDM 的 Micro-F1 值在 20、50 和 500 维度下不是最优秀的,在其他维度下表现优秀。从图 3-3 中可以看出,在使用支持向量机分类算法时,TF-NDM相比其他特征选择算法 Macro-F1 和 Micro-F1 值都提高的并不多,但是所有算法的Macro-F1 和 Micro-F1 值随着特征词数量的增多而增大。

【参考文献】:
期刊论文
[1]基于词干的混合策略维吾尔语文本聚类特征选择方法研究[J]. 刘源,吐尔根·依布拉音,阿力木江·艾沙,张亚军.  计算机应用与软件. 2012(12)
[2]面向层次分类的文本特征选择方法[J]. 祝翠玲,马军,张冬梅.  模式识别与人工智能. 2011(01)
[3]TFIDF算法研究综述[J]. 施聪莺,徐朝军,杨晓江.  计算机应用. 2009(S1)
[4]中文文本分类中的特征选择研究[J]. 周茜,赵明生,扈旻.  中文信息学报. 2004(03)
[5]最优特征子集选择问题[J]. 陈彬,洪家荣,王亚东.  计算机学报. 1997(02)
[6]模式识别中的特征选择方法[J]. 杨喜寿.  信息与控制. 1987(05)
[7]模式识别中欧氏距离特征选择新方法[J]. 宣国荣.  计算机应用与软件. 1985(06)



本文编号:2972944

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2972944.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77296***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com