基于词向量的文本分类算法研究与改进
发布时间:2017-11-05 02:34
本文关键词:基于词向量的文本分类算法研究与改进
更多相关文章: 文本分类 特征选择 词向量 word2vec 相似度
【摘要】:随着信息技术的日益发展,人类面临的数据量迅速增长。如何从海量数据资源中,准确、快速、全面地找到所需的相关信息,已经成为信息技术领域的重点研究课题。文本分类是文本挖掘领域的重要技术之一,为信息检索和高效管理海量数据提供了便利,具有重要的研究价值和意义。本文主要研究了文本分类的若干关键技术,包括文本预处理、文本表示模型、特征选择算法和分类算法。本文在详细了解和深入研究了上述过程的基础上,还重点研究了Google开源的基于深度学习的词向量训练工具word2vec工作原理,并将其应用到传统特征选择算法的改进上。特征选择是文本分类中非常重要的一个部分,如果不进行特征选择达到降维的目的,面对高维文本特征很容易产生“维数灾难”问题。特征选择的好坏不仅影响分类器的分类效果,还会影响分类器训练时间。本文详细研究了目前常用经典的特征选择算法,包括信息增益、卡方检验、互信息等算法,并分析了各自的优缺点。本文针对卡方检验特征选择算法存在的“特征词不完备”缺陷,提出了基于词向量的文本特征选择改进算法,并提出“与具有较强类别区分能力的特征项最相似的特,征项也同样具有较强的类别区,分能力”这一假设。本文将word2vec训练得到的词向量应用到传统的特征选择过程中,研究了词向量之间存在的相似性关联,对特征词进行了适当的扩充,以弥补“特征词不完备”的不足。本文还针对卡方检验特征选择算法存在的“低频词缺陷”问题,结合集中度和分散度概念对其进行了改进。本文以卡方检验作为特征选择算法,SVM作为分类算法开发了文本自动分类系统,并将其作为实验平台,进行了大量对比实验,以考察本文提出的改进算法是否有效可行。实验数据采用的是搜狗实验室公开的中文文本分类语料库,本文使用准确率、召回率和F值作为实验效果衡量指标。实验结果表明,本文提出的基于词向量的特征选择算法分类效果相比于传统算法有明显的提升。结合集中度和分散度改进后的特征选择算法,实验分类效果也有一定程度的改进。
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前3条
1 奉国和;;文本分类性能评价研究[J];情报杂志;2011年08期
2 何莘;王琬芜;;自然语言检索中的中文分词技术研究进展及应用[J];情报科学;2008年05期
3 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
中国硕士学位论文全文数据库 前1条
1 王小青;中文文本分类特征选择方法研究[D];西南大学;2010年
,本文编号:1142238
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1142238.html