中文文本局部特征选择方法研究

发布时间:2024-03-12 01:42
  如今互联网的快速发展,各领域都产生了大量的数据,如何充分的利用这些数据,是目前最需解决的问题。在处理文档数据的过程中,常常采用文本自动分类技术,来实现文档数据的量化存储工作,如此分类技术也应当加以改进,其中特征维度的降低显得尤为的重要,通过局部特征选择方法来降低特征空间维度,去除冗余关键词,准确选取能够代表各类别的关键词,对分类器本身的性能进行改进,从而提高文本分类精度。本文针对传统的卡方统计量(CHI)进行特征选择时,仅考虑特征词在该类别是否出现的缺点,提出引入词频权重和负相关修正因子,得到一种新的改进后CHI特征选择方法,记为CHI-NFID特征选择方法,在此基础上,考虑引入共现矩阵,提出一种新的局部特征选择方法,既考虑特征词与类别之间的相关关系,又考虑特征词之间的语义关系,确保文本特征含有尽可能少的冗余信息,从而降低特征向量维度。首先,将改进的卡方特征选择方法与传统的卡方特征选择方法进行对比,进行模拟分类实验。其次,利用XGBoost(梯度提升法)计算关键词在分类过程中的重要度,根据篇词矩阵,得到类词频数矩阵,利用改进后的卡方特征选择方法,计算类词卡方矩阵,选出各个关键词的最大卡...

【文章页数】:51 页

【学位级别】:硕士

【部分图文】:

图1.1局部特征选择文本分类流程

图1.1局部特征选择文本分类流程

中文文本局部特征选择方法研究4图1.1局部特征选择文本分类流程Figure1.1localfeatureselectiontextclassificationprocess本文主要研究内容为以下三大部分:1)研究传统卡方统计量与改进后卡方统计量的区别。传统卡方统计量(CHI)方法....


图2.1支持向量机与超平面

图2.1支持向量机与超平面

第二章文本分类描述理论及方法13计算间隔最大的超平面,其目标函数为:,2,..()1||||Tiiwbmaxstywxbw(2.15)其中,y表示样本所属的类别,分为正类和负类。当样本属于正类时,1Twxb,当样本属于负类时,1Twxb。图2.1支持向量机与超平面Figure2.....


图4.1局部特征选择算法主要思想图示

图4.1局部特征选择算法主要思想图示

第四章基于梯度上升和共现分析的局部特征选择方法23的共现强度,当共现强度大于事先设定好的阈值时,删除两个关键词中对分类作用小的词,依次计算得到每个类别下的关键词子集,最后将所有类别下的关键词合并得到最终结果。图4.1局部特征选择算法主要思想图示Figure4.1mainidead....


图4.2词共现强度分块操作示意图

图4.2词共现强度分块操作示意图

中文文本局部特征选择方法研究24Step6将词共现强度矩阵nnQ按照类别的顺序进行分块,从而得到多个局部词共现强度矩阵,其中ijQ为第i个类别的代表关键词和第j个类别的代表关键词之间的共现强度矩阵。图4.2词共现强度分块操作示意图Figure4.2wordco-occurrenc....



本文编号:3926342

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3926342.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b9249***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com