基于RNN在文本分类中的改进及应用

发布时间:2021-01-18 02:20
  所谓文本分类,就是针对一段文本信息,在所给定的类别中,选出与该文本相匹配的类别作为输出的一个重要手段。文本分类属于自然语言处理领域的一个基本问题,是机器学习等领域中非常活跃的研究方向,并有许多重要的实际应用。因此,研究具有较高精度与较强鲁棒性的文本分类算法有着重要的理论意义与实际意义。本文选择经典RNN的变体LSTM(Long Short-Term Memory)作为文本分类的基础工具有以下原因:一方面,LSTM模型由于引入新的“门”结构,可以很好的解决文本训练过程中样本长度过长学习能力不足的问题,使得与关键词距离较远的词语在学习过程中也可以得到很好的保留。当数据集较大时,就可以更好的对原文本想表达的意思进行学习,从而增强该算法的鲁棒性,并有效地提高了模型的泛化能力。另一方面,该模型在实验过程中可以表现出较高的准确精度,使我们的预测过程从一开始就更加接近事实情况。本文主要针对神经网络方面有监督学习对比研究了one-hot模型、word2vec模型等词嵌入模型、text CNN、Bi LSTM等神经网络框架、注意力模型等,最后部分还对Google最新提出的一些无监督学习模型,如BERT算... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:47 页

【学位级别】:硕士

【部分图文】:

基于RNN在文本分类中的改进及应用


文本分类如果可以更精准的对于文本信息进行分类,那么不仅对于对应事物的判断将更加准

例句


第2章词嵌入层5图2.1例句1中的one-hot编码图图2.2例句2中的one-hot编码图图2.3例句3中的one-hot编码图经过这样的处理,最终可以得到每句话的特征向量为:我喜欢游泳:(1,1,1,0,0)爸爸妈妈喜欢游泳:(0,1,1,1,1)爸爸妈妈喜欢我:(1,1,0,1,1)这样处理数据的优势:可以更方便的扩充要补充的特征;增强了模型的非线性能力;不需要对变量进行归一化;加速参数的更新速度;降低了特征值扰动对模型稳定性的影响。然而这个预处理的方式有个缺点,就是它对文本的刻画方式仅仅是存在或不存在,因此对于词与词之间的相似性关系,这个处理方式所产生的结果均为线性无关,从而不能进行很好的描述。除此之外,还有一个很大的问题,就是当数据集足够大时,对于整个语料库的特征提取组成的包则会很占内存,即维度会过高。当最开始对几个句子进行预处理的

例句


第2章词嵌入层5图2.1例句1中的one-hot编码图图2.2例句2中的one-hot编码图图2.3例句3中的one-hot编码图经过这样的处理,最终可以得到每句话的特征向量为:我喜欢游泳:(1,1,1,0,0)爸爸妈妈喜欢游泳:(0,1,1,1,1)爸爸妈妈喜欢我:(1,1,0,1,1)这样处理数据的优势:可以更方便的扩充要补充的特征;增强了模型的非线性能力;不需要对变量进行归一化;加速参数的更新速度;降低了特征值扰动对模型稳定性的影响。然而这个预处理的方式有个缺点,就是它对文本的刻画方式仅仅是存在或不存在,因此对于词与词之间的相似性关系,这个处理方式所产生的结果均为线性无关,从而不能进行很好的描述。除此之外,还有一个很大的问题,就是当数据集足够大时,对于整个语料库的特征提取组成的包则会很占内存,即维度会过高。当最开始对几个句子进行预处理的


本文编号:2984074

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2984074.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户00504***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com