基于深度神经网络的文本建模算法研究

发布时间:2021-09-22 05:01
  互联网和物联网的全面化加速了人类进入人工智能时代,随之而来的各种终端设备上产生了大量的文本数据,将文本数据信息化需要很好的表征这些文本。文本表示是从文本中提取和学习其蕴含的语义信息,并将文本表征成计算机可运算的数值向量,该任务作为自然语言处理领域中所有下游任务的关键环节,如文本分类、信息抽取、机器翻译、自动问答等任务,因此近年来引起了诸多学者的关注。文本主要有词、句子、文档三种存在形式,现有的文本表示方法主要有传统的文本表征算法和基于神经网络的文本表征算法两个流派的方法论。本文基于深度神经网络构建了三个针对不同语言、不同领域的轻量级文本表征算法,并结合文本分类下游任务构建了端到端(end-to-end)的模型,具体如下:1)针对英文语料,探究了字符亚词信息给文本表征带来的提升。基于CNN网络,引入了单词的字符信息,并将卷积网络中的池化操作优化成Self-Attention网络,构建了基于字符的分层注意力卷积模型(E-HAC)。在通用的6个文本分类数据集上进行了实验,与baseline CNN模型效果相比,准确率均有所提升,尤其在MR数据集上提升近2个百分点。2)针对中文特定领域,探究了... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于深度神经网络的文本建模算法研究


文本表示方法分类

示意图,递归神经网络,示意图,向量


第二章相关文本建模表示算法综述132.2.1基于递归神经网络(RecNN)的文本表示方法在文本NLP中的递归神经网络(RecNN)模型将文本树/图结构信息自下而上的编码为语义向量,即是把文本特征信息映射到低维语义向量空间。通过训练构造的文本向量空间应满足以下属性:语义相似的文本在语义向量空间中的点距离更近。即如果把两个语义相似的文本(尽管原始文本内容不同)输入到ReCNN[36]中,那么他们分别编码后落在语义向量空间中的点应当距离相近;反之,如果两个文本的语义截然相反,那么编码后的点距离应当较远。在NLP领域中,递归神经网络算法也隶属于表示学习方法的范畴,其将词、句子、文档等文本形式按照它们各自的语义投影到同一向量假设空间中,也即是把可组合的信息经由结构上的递归全连接网络表示为一个具体实数数值的向量,如图2-2所示:图2-2递归神经网络(RecNN)示意图递归神经网络是通过构建一棵二叉树来实现结构上的递归,假设如下中的两个子节点的向量用21,xx来表示,父节点的向量用p来表示。子节点和父节点之间构成一个全连接网络(FullyConnected,FC),也就是子节点的每个神经元都和父节点的神经元按照如下公式(2-12)进行全连接方式计算:bxxwp21tanh(2-12)然后再次使用生成的父节点向量和其他子节点向量或父节点向量作为某子网络的输入,然后递归获取相应子网络部分的父节点,直至建立完整的文本语义树为止,最终得到的根节点向量(rootnodevector)即可认为是对整棵树(文本)的语义矢量化表示,从而借助递归树实现了文本的递归向量化表示。

递归图,神经网,递归,示例


电子科技大学硕士学位论文14图2-3递归神经网(RecNN)示例借助图2-3中的例子进行阐述,递归神经网络将词、句子都映射到一个2维的语义向量空间中。句子[theplacewhereIwasborn]和句子[thecountryofmybirth]的语义非常接近,均表示‘我的出生地’的含义,因此它们的向量2维语义向量空间中的距离相近。而另外两个词[France]和[Germany]因为也都代表地点,它们在该语义空间中的向量与两个代表‘我的出生地’句子的语义向量的距离,比与另外两个表示时间的词[Tuesday]和[Monday]的向量的距离更近。2.2.2基于循环神经网络(RNN)的文本表示方法循环神经网络(RNN)[37]是一种经典的深度神经网络算法,它是一个内部高度自连接的网络,在时间轴上呈现重复递归的网络结构。不同于递归神经网络这种树结构上的递归结构,循环神经网络是一种时间序列上的递归形式,RNN可以捕捉文本序列当前的输出值与序列中之前的所有历史信息的关系,当然反向RNN网络可以捕捉文本序列当前的输出值与序列中其后的文本序列所包含的后续信息的关系。从网络结构图2-4所示,右侧的展开图可看出:RNN会自动保留历史中重要的信息,并利用历史保留的信息去影响后面节点的隐藏层状态信息的生成,进而影响输出值。即循环神经网络的隐藏层之间的节点是按照时间轴序列进行递归连接的,隐藏层的值不仅依赖当前时刻输入层的输入值,还依赖上一时刻隐藏层的输出值,因此能在一定程度上保留了历史中重要的信息。RNN这种时间轴上串联的结构对于挖掘文本序列数据中的信息非常友好,可以有效捕捉序列中数据与数据之间的相互依赖关系。因此诸多学者在处理音频、视频和文本等序列数据是常利用RNN作为基础架构。

【参考文献】:
期刊论文
[1]深度学习视域下的文本表示方法研究[J]. 聂维,刘小豫.  科技资讯. 2019(18)
[2]基于深度学习的文本表示方法[J]. 李枫林,柯佳.  情报科学. 2019(01)
[3]中文分词算法研究综述[J]. 汪文妃,徐豪杰,杨文珍,吴新丽.  成组技术与生产现代化. 2018(03)
[4]结合注意力机制的长文本分类方法[J]. 卢玲,杨武,王远伦,雷子鉴,李莹.  计算机应用. 2018(05)
[5]文本分类及分类算法研究综述[J]. 张磊.  电脑知识与技术. 2016(34)

博士论文
[1]结合知识和神经网络的文本表示方法的研究[D]. 李一鸣.浙江大学 2018

硕士论文
[1]文本的分层表示及情感分类方法研究[D]. 胡均毅.中国科学技术大学 2019
[2]基于注意力机制的文本表示研究[D]. 徐若易.中国科学技术大学 2019
[3]基于注意力机制的文本分类研究[D]. 徐旭程.电子科技大学 2019
[4]基于Attention-Based Bi-GRU模型的文本分类方法研究[D]. 冀文光.电子科技大学 2019
[5]融合句法信息的句子嵌入表示学习方法及应用研究[D]. 陶兰.华东交通大学 2018
[6]文本语义的向量表示与建模方法研究[D]. 陈培新.中国科学技术大学 2018
[7]基于Attention Bi-LSTM的文本分类方法研究[D]. 王恰.华南理工大学 2018
[8]基于Attention-Based C-GRU模型的文本分类研究[D]. 杨东.北京交通大学 2018
[9]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016



本文编号:3403186

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3403186.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c69a7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com