当前位置:主页 > 科技论文 > 软件论文 >

基于关键词策略和卷积神经网络的中文文本分类算法研究

发布时间:2021-01-20 06:55
  随着互联网技术的不断发展和成熟,各种数字化信息的产生和发布速度呈爆炸式增长,海量文本数据占据较大比例。如何在海量文本数据中进行自动快速分类,已经成为了一项值得深入研究的课题。传统的人工文本分类方法是以人工方式按规则来构建分类器,已无法应对当前的数据量。近些年,随着深度学习技术的快速发展,因其强大的表征能力,使得能够更好的提取文本中的主要信息,在文本分类中取得优异的成果。因此,本文利用深度学习的方法通过对中文文本分类中数据预处理、文本特征表示及分类器模型进行研究,提出一种新框架,具体研究内容及结果如下:本文首先介绍了文本分类相关理论,主要从文本分类定义及流程、文本预处理、中文文本特征向量表示模型、特征词提取算法等方面进行了详细介绍。其次,针对中文文本存在噪声多、特征稀疏的问题,在输入分类模型前,有必要去除无用特征词,提出一种基于关键词策略和卷积神经网络的中文文本分类框架。在该框架中,首先基于Word2Vec构建词向量模型,然后采用分词频文档频率(Segmentation Term Frequency-Document Frequency,STF-DF)筛选出类别区分能力强的关键词,来作为... 

【文章来源】:厦门理工学院福建省

【文章页数】:72 页

【学位级别】:硕士

【部分图文】:

基于关键词策略和卷积神经网络的中文文本分类算法研究


图2.2?Word2Vec的简要流程图??首先假设,?词库里的词数为20000,词向量的维数为128,下面以单个训练样??

示意图,超平面,样本空间,表达式


?第二章文本分类相关理论???wT?x-\-b?=?1?2????r=iMi??:??,+?6?=-1??/Z?/★?★?★??/??XI???>??图2-3?SVM示意图??在样本空间中,分类超平面的表达式如下:??w1?x+b?=?0?(2-6)??样本空间中某一点x到分类超平面(w,b)之间距离的计算公式为:??\wTx?+?b\??,,???'?(2-7)??丨卜II??假设图中分类超平面正确区分了样本类别,则可得到如下公式:??f?wTxi?+?6?>?+1,?v;?=?+1??\?T?(2-8)??[wTxi?+?b?>?-\,yi?=?-1??在图中的样本点中,距离分类超平面最近的样本为“支持向量”,两个不同??类别的支持向量到分类超平面之间的距离和称为支持向量机的“间隔”,计算公??式如下:??r?=?^i?^??支持向量机的目标就是是间隔最大化,最大化间隔可以转换为最小化||叫|2,??计算公式如下:??1?,??min?,*-?||?w||?(2-10)??SVM既可以处理文本二分类问题,也可以处理文本多分类问题,其将线性??不可分低纬度向量空间转化成线性可分的高纬度向量空间,使得文本多分类问题??变成处理一系列二分类问题。??15??

过程图,卷积核,理工学院,硕士学位


图2-4卷积核的计算过程??、

【参考文献】:
期刊论文
[1]卷积神经网络CNN算法在文本分类上的应用研究[J]. 侯小培,高迎.  科技与创新. 2019(04)
[2]基于word2vec和双向LSTM的情感分类深度模型[J]. 黄贤英,刘广峰,刘小洋,阳安志.  计算机应用研究. 2019(12)
[3]面向大规模中文文本分类的朴素贝叶斯并行Spark算法(英文)[J]. 刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫.  Journal of Central South University. 2019(01)
[4]机器学习方法在文本分类中的应用[J]. 韩琪恒.  电子制作. 2018(18)
[5]基于LSTM-Attention的中文新闻文本分类[J]. 蓝雯飞,徐蔚,汪敦志,潘鹏程.  中南民族大学学报(自然科学版). 2018(03)
[6]基于关键词的文本向量化与分类算法研究[J]. 苏玉龙,张著洪.  贵州大学学报(自然科学版). 2018(03)
[7]融合多策略的中文分词算法研究[J]. 王一成,马宁,万福成.  西北民族大学学报(自然科学版). 2018(02)
[8]基于fastText的中文文本分类[J]. 代令令,蒋侃.  计算机与现代化. 2018(05)
[9]文本分类中一种特征选择方法研究[J]. 赵婧,邵雄凯,刘建舟,王春枝.  计算机应用研究. 2019(08)
[10]基于深度学习的文本分类研究进展[J]. 刘婷婷,朱文东,刘广一.  电力信息与通信技术. 2018(03)

硕士论文
[1]基于分词频的特征选择算法在文本分类中的研究[D]. 刘艺彬.西安理工大学 2018
[2]基于卷积神经网络的文本分类器的设计与实现[D]. 白璐.北京交通大学 2018
[3]基于深度神经网络的文本表示与分类研究[D]. 刘腾飞.北京交通大学 2018
[4]中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究[D]. 姚海英.吉林大学 2016
[5]基于机器学习的中文文本分类方法研究[D]. 刘依璐.西安电子科技大学 2009



本文编号:2988600

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2988600.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0e21c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com