当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的中文文本多标签分类研究

发布时间:2021-08-24 22:35
  随着互联网和计算机技术的快速发展与推广,网络中的文本信息呈现出爆炸性的增长趋势,信息过载现象严重。为了对文本信息内容进行高效的管理,实现准确地文本信息定位、文本信息过滤和文本数据的即时处理都离不开文本分类技术的快速发展。基于深度学习的多标签文本分类方法实现了文本内容标签的自动化处理,可以有效地利用和管理文本信息。本文针对多标签文本分类任务进行研究,获取带标签的文本数据为后续多标签文本分类研究提供实验数据支持。数据来源于悟空问答网站和百度知道网站。由于网站上的数据是用户根据自己的需求进行提问和标签标注,因此数据具有多样性、噪声大等特点。为确保通过网络爬虫技术获取的多标签文本数据的可用性,首先对数据进行清洗,包括敏感词过滤、长度比过滤、零宽字符过滤、无意义文本过滤和语义完整性判断;而后采用Niutrans分词工具对文本数据进行分词处理;最后通过word2vec工具对分词后的数进行词向量转换,便于输入模型进行训练。TextRNN和Text CNN作为解决多标签文本分类问题的主要模型架构,存在各自的优点和局限性。由于Text RNN模型采用Bilstm结构,后一个时间步的输出依赖于前一个时间步... 

【文章来源】:辽宁科技大学辽宁省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于深度学习的中文文本多标签分类研究


本文逻辑框架图

流程图,文本分类,流程,文本数据


辽宁科技大学硕士学位论文92.1.2深度学习文本分类过程在研究文本分类过程中,使用深度学习的方法对文本分类技术领域的研究涵盖多个分支科目。机器学习和模式识别的过程结合也就是多标签文本分类的过程。图2.1为基于深度学习方法的多标签文本分类的基本过程,从图2.1中可知,深度学习模型在多标签文本分类任务中,首先将带标签的文本数据进行预处理,而后将文本向量化表示。通过对文本特征降维,获取对分类结果影响较大的特征,最后通过分类器分类输出进行性能评价。训练模型的分类性能由测试集对模型进行测试,将测试集中未知类别的文本数据经过预处理得到文本表示后输入到多标签文本分类模型中,经过分类器输出文本数据所属的标签类别,将输出结果与真实的结果进行对比衡量,对模型的准确性进行最终评估。图2.1文本分类流程Fig.2.1Textclassificationprocess多标签文本分类的流程由训练和测试两个部分组成,训练阶段与模型分类的整体性能相关,因此尤为重要。而测试阶段是衡量模型准确率的标准。在训练阶段,主要由数据预处理、文本数据表示、数据特征及分类器的选择、文本分类的准确率性能评价组成。具体处理过程如下所示:(1)数据预处理:是对文本数据进行细致的清洗和处理、数据清洗包括对不相干的内容过滤,如:广告信息、网站域名信息,敏感词过滤、文本语义完整性过滤、零宽字符过滤等操作。经过清洗后的数据进行分词处理,在处理中文文本数据时,则需要根据语义进行分词。分词后的数据需要进行去除停用词等一系列操作,保证数据的质量。数据经过预处理操作之后,使得文本数据的质量有所

模型结构


2.相关工作12图2.2Skip-Gram模型结构图2.3CBOW模型结构Fig.2.2Skip-GrammodelstructureFig.2.3CBOWmodelstructure关于Skip-gram和CBOW两个模型,作者Mikolov为了提高训练的效率,提出了两种优化方法:层次Softmax和负采样。(1)层次Softmax:Bengio早在2005年时将层次Softmax[32]引入到神经网络语言模型中。它的基本思想是将复杂的归一化概率分解为单个条件概率的乘积形式:)),(),...,(|)(()|(111contextvbvbvbpcontextvpmiii(2.3)层次Softmax策略是优化神经网络模型的输出层,输出层利用哈夫曼树计算概率值。所谓哈夫曼树,实质就是二叉树,将其结果作为输出,词频越高的词,距离根节点就越近。将每一层的条件概率转为二分类问题,用二项Logistic回归函数对模型进行拟合,将目标概率的计算复杂度从由V降低到了logV的量级。(2)负采样:负采样[33]是指在训练神经网络过程中,模型接受每一个训练样本时,需要通过调整所有神经单元权重参数,使得神经网络模型预测的准确率更高。并且词汇表的大小决定了神经网络模型会有非常大的权重参数,所有的权重参数随着数十亿训练样本不断调整,这个过程不仅耗时,而且影响模型分类的准确性。因此采用负采样方法的原理,使得单个训练文本数据只优化部分的权重参数,从而降低梯度下降过程中的计算量。负采样的最终目的就是用来加快模型的训练速度并且使得词向量得到更完整的表示,随机负采样能大幅度提高模型性能和计算效率。

【参考文献】:
期刊论文
[1]基于Dopout与ADAM优化器的改进CNN算法[J]. 杨观赐,杨静,李少波,胡建军.  华中科技大学学报(自然科学版). 2018(07)
[2]基于深度学习的文本分类研究进展[J]. 刘婷婷,朱文东,刘广一.  电力信息与通信技术. 2018(03)
[3]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生.  计算机与现代化. 2017(04)
[4]《反不正当竞争法》一般条款在互联网领域的适用[J]. 蒋舸.  电子知识产权. 2014(10)
[5]论爬虫协议的法律性质[J]. 杨华权,曲三强.  法律适用. 2013(04)
[6]基于HTMLParser和HttpClient的网络爬虫原理与实现[J]. 张亮.  电脑编程技巧与维护. 2011(20)
[7]网络爬虫的优化策略探略[J]. 李志义.  现代情报. 2011(10)
[8]高性能网络爬虫:研究综述[J]. 周德懋,李舟军.  计算机科学. 2009(08)
[9]几种文本特征降维方法的比较分析[J]. 高茂庭,王正欧.  计算机工程与应用. 2006(30)
[10]基于机器学习的文本分类技术研究进展[J]. 苏金树,张博锋,徐昕.  软件学报. 2006(09)

博士论文
[1]汉语文本自动分类[D]. 郝立柱.吉林大学 2008

硕士论文
[1]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[2]EM算法及其应用[D]. 张宏东.山东大学 2014
[3]论Robots协议下搜索引擎数据挖掘行为的法律责任[D]. 陈笑.北京邮电大学 2014



本文编号:3360845

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3360845.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fe443***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com