当前位置:主页 > 科技论文 > 自动化论文 >

新闻文本分类系统的深度学习对比实验研究与系统实现

发布时间:2021-01-29 19:35
  随着信息时代的来临,大数据时代的急速发展,文字信息越来越丰富,冗余信息也随之增多,如何获取有价值的信息,提高获得信息的效率,是非常重要的问题,因此对这些文本进行分类就变得不可或缺了起来,其中文本分类包括情感分析,标签分类等,新闻文本分类也是很重要的一环。近年来,国内外学者先后研究了RNN、CNN、Transformer框架下的自然语言处理任务,发现了RNN并行能力差,严重依赖序列顺序,而CNN针对长文本分类又特别依赖叠加的卷积层,而过深的卷积层会导致深层网络参数优化不足这个问题。而Transformer内部构件多,以self-attention机制作为文本内容的特征抽取器,对比于CNN和RNN来说是不同的。本文基于以上背景,针对新闻文本数据集,主要进行了以下工作:比较了三者框架下的差距,对新闻文本的数据集以召回率、精确率、F1值作为评价指标,研究了流行的六种框架,通过新闻文本数据集的对比实验,得到了它们之间的优劣,首先FastText、TextCNN和DPCNN的对比,并对其中的DPCNN做出了改进,得到了km-DPCNN模型,F1值在92.3%,可以解决卷积进一步加深的问题,这个F1... 

【文章来源】: 唐习哲 北方民族大学

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

新闻文本分类系统的深度学习对比实验研究与系统实现


n-gram示意图

模型图,模型,向量,架构


北方民族大学2020届硕士学位论文第二章相关理论与技术-9-图2.2n-gram示意图FastText是一种快速文本分类算法,在2016年由faceboook公司的ArmandJ等人提出[27],即使FastText属于浅层网络,FastText与其他的基于神经网络的分类算法相比有着很明显的两个有点,一是FastText可以保持高精度的情况下加快了训练速度与测试速度,二是FastText不需要预训练好的词向量,FastText会自己训练词向量。FastText模型架构和word2vec中的CBOW很相似,不同之处是FastText预测标签而CBOW预测的是中间词,即模型架构类似但是模型的任务不同。FastText模型架构:其中NN,,...,,xxxx121表示一个文本中的n-gram向量,每个特征是词向量的平均值。这和前文中提到的CBOW相似,CBOW用上下文去预测中心词,而此处用全部的n-gram去预测指定类别,如图2.3所示图2.3FastText模型根据FastText的模型结构,在输入NN,,...,,xxxx121后,隐藏层的输出是样本类别,并且通过Softmax函数就可以计算这个概率分布。输出值的每一个Softmax的计算公式如下2.6:

模型图,叶子,结点,向量


北方民族大学2020届硕士学位论文第二章相关理论与技术-10-jjiieeSoftmax(2.6)在标准的Softmax中,计算一个类别的Softmax概率时,我们需要对所有类别概率做归一化,在这类别很大情况下非常耗时,因此提出了分层Softmax(HierarchicalSoftmax),思想是根据类别的频率构造霍夫曼树来代替标准Softmax,通过分层Softmax可以将复杂度从N降低到logN,下图2.4中给出分层Softmax示例:图2.4分层softmax在层次softmax模型中,叶子结点的词没有直接输出的向量,而非叶子节点都有响应的输在在模型的训练过程中,通过Huffman编码,构造了一颗庞大的Huffman树,同时会给非叶子结点赋予向量。我们要计算的是目标词w的概率,这个概率的具体含义,是指从root结点开始随机走,走到目标词w的概率。因此在途中路过非叶子结点(包括root)时,需要分别知道往左走和往右走的概率。例如到达非叶子节点n的时候往左边走和往右边走的概率分别是:hleftnp)(),(Tn(2.7)hhrightnp)()(1),(TnTn(2.8)以上图2.4中目标词为2w为例,)),3,(()),2,(()),1,(()(2222rightwnpleftwnpleftwnpwp))()()()3,()2,()1,(222hhhTwnTwnTwn(2.9)到这里可以看出目标词为w的概率可以表示为:

【参考文献】:
期刊论文
[1]pandas大数据技术在央行监管中的应用[J]. 聂杲.  金融科技时代. 2020(01)
[2]深度学习研究综述[J]. 尹宝才,王文通,王立春.  北京工业大学学报. 2015(01)
[3]文本分类及算法综述[J]. 张征杰,王自强.  电脑知识与技术. 2012(04)
[4]基于SVM的分类方法综述[J]. 张小艳,李强.  科技信息. 2008(28)
[5]基于Labeled-LDA模型的文本分类新算法[J]. 李文波,孙乐,张大鲲.  计算机学报. 2008(04)
[6]文本分类综述[J]. 靳小波.  自动化博览. 2006(S1)
[7]使用KNN算法的文本分类[J]. 张宁,贾自艳,史忠植.  计算机工程. 2005(08)
[8]基于密度的kNN文本分类器训练样本裁剪方法[J]. 李荣陆,胡运发.  计算机研究与发展. 2004(04)
[9]一种文本处理中的朴素贝叶斯分类器[J]. 李静梅,孙丽华,张巧荣,张春生.  哈尔滨工程大学学报. 2003(01)

硕士论文
[1]情感文本的识别与分类算法的研究与实现[D]. 刘丹.北京交通大学 2019
[2]基于条件随机场的中文分词研究[D]. 姜锋.大连理工大学 2006



本文编号:3007481

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3007481.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户777b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com