当前位置:主页 > 科技论文 > 软件论文 >

融合主题模型与词向量的短文本分类方法研究

发布时间:2022-01-13 09:00
  互联网技术在近年来得到了飞速的发展,人们学习与生活的方式也不断发生着变化,由互联网产生的内容信息数量呈现爆炸式的增长。为适应移动端碎片化的使用场景,以网络新闻、商品评论等形式出现的短文本内容信息成为文本数据在互联网内容中的主要呈现形式。面对海量的短文本数据,对短文本进行有效的分类不仅可以显著的缩小数据规模,精确的理解文本信息的内容,也对新闻推送、流量分发等领域有着重要的影响。由于短文本数据具有词汇量少,信息单元不密集的特点,传统的长文本分类方法难以直接取得良好的分类效果。针对此问题,本文提出了一种融合主题模型与词向量模型的短文本分类方法,该方法使用改进后的TF-IDF模型与词向量模型构建类别关键词集,并利用类别关键词集对待扩展词汇的类别辨识度进行判断,最后通过词向量余弦相似度的计算完成对短文本内容上的扩充。使用LDA模型构建类别主题分布集,完成对短文本词汇表征在主题粒度下的扩展,由于将类别特征引入至短文本扩充中来,本文所提出的方法在一定程度上避免了传统短文本内容扩展方法中的无效扩充问题,提升了短文本扩充的有效性。在文本分类阶段,本文改进了基于深度学习网络TextCNN文本分类方法,对卷... 

【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校

【文章页数】:82 页

【学位级别】:硕士

【部分图文】:

融合主题模型与词向量的短文本分类方法研究


LDA模型图

模型图,模型图,词汇,对词


3)词向量模型经网络语言模型(NeuralNetworkLanguageModel,NNLM)是 Bengio[44]在 出的,由于该模型复杂性较高,许多学者在其基础上进行了修改与优化v[20]所提出的词向量模型(word2vec)就是其中最具有代表性的模型,word过对词语的上下文关系进行建模,用一个较小维数的向量表征文本中的词 模型相比,词向量模型不仅能够解决向量的稀疏问题,还将语义引入到中,有助于文本词汇特征的构建。向量包含了 CBOW 以及 Skip-gram 两种方式,两种模型的主要区别在于汇的选择,令文本集用 D 表示,文本集中的第 m 篇文档用mDoc 来进行表mc 的词汇构成用(m1w ,m2w …mnw )进行表示,其中mnw 代表文档mDoc 。如下图 2.3 所示,CBOW 模型是利用词mnw 的临近词汇m wn c至m +wn操作,并对词mnw 进行推导(其中 c 为给定词汇mnw 的前后词汇个数),而 型是在已知词mnw 的前提下,对该给定词汇的临近词汇m wn c至m +c wn

模型结构


卷积神经网络(Convolutional Neural Networks, CNN)深度学习的发展,各类神经网络得到了广泛的应用与发展,其中广泛的模型为卷积神经网络模型,卷积神经网络通过卷积、池化征,由于 CNN 在图像领域的广泛成功,开始有学者将其引入至试。NN 模型是卷积神经网络在文本分类任务中应用最为广泛的一个模型由 Kim Y[26]于 2014 年所提出,模型如图 2.4 所示,左侧的特征表征形式,该模型通过将前文所述的文本词汇特征表达矩阵输入,通过多个卷积核在特征矩阵中的滑动,得到卷积后的输入层操作输出最具代表性的特征,并将这些具有代表性的特征进行全连接层与 softmax 层,完成对文本的分类任务,卷积神经网络类中文本特征构建的复杂过程,可以有效的提取更多的文本内容分类的准确率。

【参考文献】:
期刊论文
[1]基于知识图谱扩展的短文本分类方法[J]. 丁连红,孙斌,张宏伟.  情报工程. 2018(05)
[2]基于卷积神经网络和XGBoost的文本分类[J]. 龚维印,王力.  通信技术. 2018(10)
[3]基于改进CHI的新的短文本混合特征选择方法[J]. 张强强,苏变萍,李敏.  信息与电脑(理论版). 2018(16)
[4]基于词向量特征扩展的中文短文本分类研究[J]. 雷朔,刘旭敏,徐维祥.  计算机应用与软件. 2018(08)
[5]融合CNN和LDA的短文本分类研究[J]. 张小川,余林峰,桑瑞婷,张宜浩.  软件工程. 2018(06)
[6]基于k最近邻和改进TF-IDF的文本分类框架[J]. 龚静,黄欣阳.  计算机工程与设计. 2018(05)
[7]基于LDA特征扩展的短文本分类方法研究[J]. 胡朝举,徐永峰.  软件导刊. 2018(03)
[8]基于维基百科的多种类型文献自动分类研究[J]. 李湘东,阮涛,刘康.  数据分析与知识发现. 2017(10)
[9]基于卷积神经网络和KNN的短文本分类算法研究[J]. 殷亚博,杨文忠,杨慧婷,许超英.  计算机工程. 2018(07)
[10]基于CP-CNN的中文短文本分类研究[J]. 余本功,张连彬.  计算机应用研究. 2018(04)

博士论文
[1]文本分类及其相关技术研究[D]. 尚文倩.北京交通大学 2007

硕士论文
[1]半监督自训练方法的研究[D]. 黎隽男.重庆师范大学 2018
[2]基于协同训练的半监督短文本分类方法研究[D]. 韩战豪.西南大学 2017
[3]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[4]基于领域知识库的短文本分类研究[D]. 陈佳.东北师范大学 2012



本文编号:3586124

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3586124.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f7909***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com