基于LDA和深度学习的短文本分类算法研究

发布时间:2021-08-26 01:39
  随着互联网的极速发展,人们获得信息的方式不单单通过现实生活,更多的是以网络的形式。网络信息在日常生活中带来了巨大的便捷性却离不开文本分类技术的发展,如何将大规模杂乱无序的数据信息挖掘出其中的规律是迫切且有必要的。本文研究的方向为利用主题模型和深度学习模型将网络上的短文本数据进行类别分类。本文提出的基于特征扩展的短文本分类算法中,对大规模的文本数据进行分词过后,没有直接采用常规停用词表进行过滤,而是采用特定停用词表的方式进行过滤。特定停用词表是通过常规停用词表、语料库词表以及主题模型共同产生的,使得文本保留了更多的有效语义特征。针对文档集里存在特征稀疏以及文本词数各不相同的问题,模型采用了基于短文本最大概率主题下对词向量矩阵进行填充和融合层卷积神经网络,一定程度上增加了短文本的有效语义特征。在基于特征扩展的短文本分类算法的基础上进行了部分改进,将其中的卷积神经网络换成了双向长短期记忆网络,并且增加了其余两条特征通路,分别为潜在主题特征通路和加权表示通路。潜在主题特征通路由主题模型产生文本-主题特征向量。加权表示特征通路由词频-逆文档频率和词向量加权求和,并一定程度上避免了分词带来的错误。... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于LDA和深度学习的短文本分类算法研究


文本分类方式

文本分类,文本数据,监督学习,标签


重庆邮电大学硕士学位论文第1章引言31.2国内外研究现状1.2.1文本分类发展阶段文本分类经历了几个非常重要的时期,大致上可以分为三个阶段,如图1.2所示。图1.2文本分类发展阶段它是一种有监督学习,在事先将有标签的文本数据集进行预处理过后,通过文本分类学习器进行训练。然后将经过训练的学习器运用在未标注的测试集上,将测试集里的数据进行正确的归类。文本分类技术能够将海量的文本数据进行正确的归类具有十分重要的意义,能够帮助人们管理和挖掘重要的信息,如分类管理和信息抽取,是当下非常热门的研究方向。在初期的可行性研究阶段,随着科技的不断发展,信息检索领域得到极大的发展。正是这个时期,文本分类也发展成为一门重要的学科,但是由于早期理论知识比较浅薄,所以在理论知识方面的探究占据主要部分。经过不断的探究,神经网络模型和空间向量模型相继被提出,反向传播的思想也正是这个时候应运而生,这为以后的实践发展打下了一个良好的基矗在中期的辅助分类研究阶段,由于理论知识得到极大的丰富,慢慢的在文本分类实践领域也得以发展。以专家知识和传统知识工程相结合的有关技术,虽然在性能上存在较大的不足,但是此套人工规则建立的算法为文本分类技术下一个阶段的发展提供了有力的技术支持。

流程图,文本,预处理,流程


重庆邮电大学硕士学位论文第2章相关基础理论介绍9第2章相关基础理论介绍本章介绍在进行短文本分类中需要运用的一些关键技术,主要包括短文本表示方法以及基础的深度学习分类模型,在此基础上,详细介绍了在模型训练中,主要采用的模型优化方法,以此作为本文的理论基矗2.1短文本表示模型计算机语言与文本语言存在着巨大的差异,它是不能直接理解文本中的语义,所以计算机是不能够直接对原始文本进行处理的。在对短文本进行分类之前,应该将其进行数字化、向量化,即文本表示。在目前的文本向量化发展历程中,有词袋模型(BagsofWords,BOW)、词嵌入模型等方法。2.1.1预处理文本的预处理是整个文本分类模型的基础,文本预处理主要分为三个流程,分别为数据清洗阶段、分词阶段、去除停用词阶段。这三个阶段缺一不可,它们能够有效的将冗余繁杂的原始文本数据精简化,如图2.1所示。图2.1文本预处理流程在预处理的数据清洗阶段,主要是针对数据中无意义的部分进行滤除。在获得带有标题、摘要、正文、来源等属性的数据过后,在特定任务的基础上,通过

【参考文献】:
期刊论文
[1]基于类别特征扩展的短文本分类方法研究[J]. 邵云飞,刘东苏.  数据分析与知识发现. 2019(09)
[2]面向不平衡数据集的一种改进的k-近邻分类器[J]. 刘鹏,杜佳芝,吕伟刚,窦明武.  东北大学学报(自然科学版). 2019(07)
[3]基于多部情感词典与SVM的电影评论情感分析[J]. 吴杰胜,陆奎,王诗兵.  阜阳师范学院学报(自然科学版). 2019(02)
[4]深度学习在文本表示及分类中的应用研究[J]. 崔莹.  电脑知识与技术. 2019(16)
[5]面向大规模中文文本分类的朴素贝叶斯并行Spark算法(英文)[J]. 刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫.  Journal of Central South University. 2019(01)
[6]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华.  计算机科学. 2018(12)
[7]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌.  计算机应用. 2018(11)
[8]卷积神经网络下的Twitter文本情感分析[J]. 王煜涵,张春云,赵宝林,袭肖明,耿蕾蕾,崔超然.  数据采集与处理. 2018(05)
[9]融合CNN和LDA的短文本分类研究[J]. 张小川,余林峰,桑瑞婷,张宜浩.  软件工程. 2018(06)
[10]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生.  计算机与现代化. 2017(04)

硕士论文
[1]基于卷积神经网络的新闻文本分类研究[D]. 陶文静.北京交通大学 2019



本文编号:3363283

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3363283.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户de771***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com