基于特征选择方法的新闻文本分类研究
发布时间:2021-05-14 02:04
当前,随着计算机技术的不断普及以及互联网的快速发展,人们可以接触到不同行业的各种信息,这些户预先定义的不同类别中,进而帮助人们快捷、高效地找到所需要的信息。本文对新闻文本经过分词,去停用词后,得到一个词语集合,该集合包含5万多个词语。词语集合中词语数目太多会导致向量空间维数太高,以至于影响分类器的性能和效率,因此需要对词语进行特征选择,即选取对分类性能影响较大的词语。本文对特征选择方法进行了改进,第一种是对卡方统计特征选择方法进行了改进。该方法只考虑了特征词出现的文本数,而没有考虑特征词的词频,并且对于高词频的词语,需要考虑其在文本集中普遍出现的现象,因此本文引入特征词的TF-IDF权重对CHI进行了改进。第二种是对XGBoost重要性评估思想进行了研究,该思想一般用在风控领域,对属性重要性进行解释及属性选择。在风控领域迭代地选择属性进行模型训练,但是在文本分类中,文本中包含的特征词的数量很多,不可能一一进行选择。针对这种不足,本文提出了适合于文本分类的XGBoost特征选择方法。针对效率低的缺点,本文提出了采用XGBoost进行特征选择前,采用词语的权重进行筛选。其中重要性值的计算,...
【文章来源】:山西大学山西省
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
中文摘要
ABSTRACT
第一章 绪论
1.1 研究的背景和意义
1.2 国内外研究现状
1.3 研究内容
1.4 结构安排
第二章 相关理论
2.1 文本预处理
2.2 文本表示模型
2.3 分类算法
2.3.1 支持向量机
2.3.2 朴素贝叶斯
2.3.3 神经网络
2.4 模型评价标准
2.5 本章小结
第三章 特征选择方法的研究
3.1 卡方特征选择方法的研究
3.2 基于XGBoost的特征选择方法
3.2.1 XGBoost原理
3.2.2 基于TF-IDF权重的特征选择方法
3.2.3 混合特征选择方法
3.3 本章小结
第四章 实验的结果及分析
4.1 数据集
4.2 实验设计
4.3 SVM实验结果
4.4 朴素贝叶斯实验结果
4.5 神经网络实验结果
4.6 综合分析
4.7 本章小结
第五章 总结与展望
参考文献
攻读学位期间取得的研究成果
致谢
个人简况及联系方式
【参考文献】:
期刊论文
[1]词间相关性在贝叶斯文本分类中的应用研究[J]. 章舜仲,王树梅,黄河燕,陈肇雄. 计算机工程与应用. 2009(16)
[2]基于Labeled-LDA模型的文本分类新算法[J]. 李文波,孙乐,张大鲲. 计算机学报. 2008(04)
[3]三种分类算法的实验比较[J]. 蔡巍,王永成,李伟,尹中航. 上海交通大学学报. 2004(04)
[4]中文文档自动分类系统的设计与实现[J]. 邹涛,王继成,黄源,张福炎. 中文信息学报. 1999(03)
[5]分类法的发展趋势简论[J]. 侯汉清. 情报科学. 1981(01)
[6]K-NN与SVM相融合的文本分类技术研究[J]. 王强,王晓龙,关毅,徐志明. 高技术通讯. 2005 (05)
本文编号:3185058
【文章来源】:山西大学山西省
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
中文摘要
ABSTRACT
第一章 绪论
1.1 研究的背景和意义
1.2 国内外研究现状
1.3 研究内容
1.4 结构安排
第二章 相关理论
2.1 文本预处理
2.2 文本表示模型
2.3 分类算法
2.3.1 支持向量机
2.3.2 朴素贝叶斯
2.3.3 神经网络
2.4 模型评价标准
2.5 本章小结
第三章 特征选择方法的研究
3.1 卡方特征选择方法的研究
3.2 基于XGBoost的特征选择方法
3.2.1 XGBoost原理
3.2.2 基于TF-IDF权重的特征选择方法
3.2.3 混合特征选择方法
3.3 本章小结
第四章 实验的结果及分析
4.1 数据集
4.2 实验设计
4.3 SVM实验结果
4.4 朴素贝叶斯实验结果
4.5 神经网络实验结果
4.6 综合分析
4.7 本章小结
第五章 总结与展望
参考文献
攻读学位期间取得的研究成果
致谢
个人简况及联系方式
【参考文献】:
期刊论文
[1]词间相关性在贝叶斯文本分类中的应用研究[J]. 章舜仲,王树梅,黄河燕,陈肇雄. 计算机工程与应用. 2009(16)
[2]基于Labeled-LDA模型的文本分类新算法[J]. 李文波,孙乐,张大鲲. 计算机学报. 2008(04)
[3]三种分类算法的实验比较[J]. 蔡巍,王永成,李伟,尹中航. 上海交通大学学报. 2004(04)
[4]中文文档自动分类系统的设计与实现[J]. 邹涛,王继成,黄源,张福炎. 中文信息学报. 1999(03)
[5]分类法的发展趋势简论[J]. 侯汉清. 情报科学. 1981(01)
[6]K-NN与SVM相融合的文本分类技术研究[J]. 王强,王晓龙,关毅,徐志明. 高技术通讯. 2005 (05)
本文编号:3185058
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3185058.html