基于神经网络和多头自注意力机制的中文机器阅读理解研究
发布时间:2021-08-03 09:55
互联网的发展促进了文本数据的大量积累,对文本数据进行理解并返回用户需要的信息,已成为自然语言处理研究领域的热点问题。然而,当前搜索引擎仅仅根据网页和问题的相关性返回搜索结果,并不能充分理解用户意图。随着深度学习技术的不断发展创新,机器阅读理解模型成为人们高效获取有效信息的首选算法,能够满足用户快速、高效的搜索需求,从而节约时间成本。机器阅读理解是衡量文本理解的一项重要任务,它的发展与深度学习技术密切相关,并在一定程度上取得了很好的效果。但仍然存在以下问题:在模型上,目前机器阅读理解模型大都面临随着网络深度的加深,原始信息丢失的问题,从而降低模型对答案的预测能力;在数据集上,面对越来越多面向真实应用场景的大规模阅读理解数据集,目前很多机器阅读理解技术已不能对这类数据集做出很好的回答。此外,尽管目前很多阅读理解技术已在英文数据集上取得了很好的效果,但在中文场景下并未得到充分验证。基于上述问题,为了更好地完成机器阅读理解任务,本文在现有机器阅读理解模型的研究基础上,针对片段抽取型阅读理解任务,提出了基于深度学习的中文机器阅读理解模型。本文主要工作和贡献如下:(1)针对传统堆叠的BiLSTM网...
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
CBOW的定义方式示例
西南大学硕士学位论文10图2.1Skip-gram的定义方式示例图2.2CBOW的定义方式示例由于Word2Vec只考虑词的局部信息,忽略了词与窗口外信息的关联。在此基础上,GloVe[31]利用共现矩阵,同时将局部信息和整体信息纳入考虑范围。以“Bereftoflifeherestsinpeace”为例,采用一个窗口宽度为5(左右长度都为2)的统计窗口,可以得到如表2.5的内容。表2.5GloVe词向量表示实例窗口标号特征值独热表示0BereftBereftoflife1ofBereftoflifehe2lifeBereftoflifeherests3heoflifeherestsinpeace4restslifeherestsinpeace5inherestsinpeace6peacerestsinpeaceGloVe中使用的代价函数如公式(2-1)所示。2,,,()(log())NTijijijijijL=fXvv+b+bX(2-1)其中,共现矩阵元素为Xi,j,Xi,j表示单词i和单词j共同出现在一个窗口中的次数。iv和jv是单词i和单词j的词向量,ib和jb是两个偏置项,N是词汇表的大小,f为控制词对的出现频率的权重系数。GloVe模型中使用的权重系数如公式(2-2)所示。max0.75maxmax1,()(/),xxfxxxxx=(2-2)
第2章相关理论与技术11Word2Vec和GloVe存在一个问题:词在不同语境下具有不同的含义。但在这两个模型中视为相同,即每个单词的词向量训练完成后,单词的词嵌入不再变化。实际上,一个单词在不同的上下文中具有不同的含义。ELMO[32]针对这点对模型进行了改进,使得模型能够学习到单词更加复杂的特性和在不同上下文的变化。图2.3是ELMO语言模型的结构图。图2.3ELMO模型结构图ELMO(EmbeddingfromLanguageModels)根据单词的上下文对词嵌入进行动态调整,可以很好地解决一词多义问题。ELMO中使用了双向的LSTM语言模型,目标函数取这两个方向的最大似然函数。具体地说,在前向过程中,用1~k1的词去预测第k个词,后向过程用k+1~N的词去预测第k个词。计算方式如公式(2-3)和(2-4)所示。121211(,,...,)(|,,...,)NNkkkptttptttt==(2-3)12121(,,...,)(|,,...,)NNkkkNkptttptttt++==(2-4)ELMO中使用的最大似然函数如公式(2-5)所示。121121(log(|,,...,)log(|,,...,))NkkkkkNkpttttptttt++=+(2-5)继attention机制提出之后,加入attention机制的seq2seq模型在各个任务上都有很大的提升。2017年,谷歌提出了解决seq2seq问题的Transformer模型[34]。Transformer模型中用attention机制代替了LSTM,完全依靠attention机制来刻画输入与输出之间的全局依赖关系。同时Transformer允许模型进行并行计算,在翻译任务上取得了很好的成绩。BERT[4]模型使用Transformer[34]进行编码,通过综合考虑上下文的双向特征去预测词。相较于ELMO,BERT中使用Transformer的双向训练,可以提取比单向语言模型更深的语义环境。BERT受完形填空的启发,遮
【参考文献】:
期刊论文
[1]T-Reader:一种基于自注意力机制的多任务深度阅读理解模型[J]. 郑玉昆,李丹,范臻,刘奕群,张敏,马少平. 中文信息学报. 2018(11)
[2]N-Reader:基于双层Self-attention的机器阅读理解模型[J]. 梁小波,任飞亮,刘永康,潘凌峰,侯依宁,张熠,李妍. 中文信息学报. 2018(10)
硕士论文
[1]基于神经网络和注意力机制的阅读理解式问答模型研究[D]. 肖林龙.西南大学 2019
本文编号:3319414
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
CBOW的定义方式示例
西南大学硕士学位论文10图2.1Skip-gram的定义方式示例图2.2CBOW的定义方式示例由于Word2Vec只考虑词的局部信息,忽略了词与窗口外信息的关联。在此基础上,GloVe[31]利用共现矩阵,同时将局部信息和整体信息纳入考虑范围。以“Bereftoflifeherestsinpeace”为例,采用一个窗口宽度为5(左右长度都为2)的统计窗口,可以得到如表2.5的内容。表2.5GloVe词向量表示实例窗口标号特征值独热表示0BereftBereftoflife1ofBereftoflifehe2lifeBereftoflifeherests3heoflifeherestsinpeace4restslifeherestsinpeace5inherestsinpeace6peacerestsinpeaceGloVe中使用的代价函数如公式(2-1)所示。2,,,()(log())NTijijijijijL=fXvv+b+bX(2-1)其中,共现矩阵元素为Xi,j,Xi,j表示单词i和单词j共同出现在一个窗口中的次数。iv和jv是单词i和单词j的词向量,ib和jb是两个偏置项,N是词汇表的大小,f为控制词对的出现频率的权重系数。GloVe模型中使用的权重系数如公式(2-2)所示。max0.75maxmax1,()(/),xxfxxxxx=(2-2)
第2章相关理论与技术11Word2Vec和GloVe存在一个问题:词在不同语境下具有不同的含义。但在这两个模型中视为相同,即每个单词的词向量训练完成后,单词的词嵌入不再变化。实际上,一个单词在不同的上下文中具有不同的含义。ELMO[32]针对这点对模型进行了改进,使得模型能够学习到单词更加复杂的特性和在不同上下文的变化。图2.3是ELMO语言模型的结构图。图2.3ELMO模型结构图ELMO(EmbeddingfromLanguageModels)根据单词的上下文对词嵌入进行动态调整,可以很好地解决一词多义问题。ELMO中使用了双向的LSTM语言模型,目标函数取这两个方向的最大似然函数。具体地说,在前向过程中,用1~k1的词去预测第k个词,后向过程用k+1~N的词去预测第k个词。计算方式如公式(2-3)和(2-4)所示。121211(,,...,)(|,,...,)NNkkkptttptttt==(2-3)12121(,,...,)(|,,...,)NNkkkNkptttptttt++==(2-4)ELMO中使用的最大似然函数如公式(2-5)所示。121121(log(|,,...,)log(|,,...,))NkkkkkNkpttttptttt++=+(2-5)继attention机制提出之后,加入attention机制的seq2seq模型在各个任务上都有很大的提升。2017年,谷歌提出了解决seq2seq问题的Transformer模型[34]。Transformer模型中用attention机制代替了LSTM,完全依靠attention机制来刻画输入与输出之间的全局依赖关系。同时Transformer允许模型进行并行计算,在翻译任务上取得了很好的成绩。BERT[4]模型使用Transformer[34]进行编码,通过综合考虑上下文的双向特征去预测词。相较于ELMO,BERT中使用Transformer的双向训练,可以提取比单向语言模型更深的语义环境。BERT受完形填空的启发,遮
【参考文献】:
期刊论文
[1]T-Reader:一种基于自注意力机制的多任务深度阅读理解模型[J]. 郑玉昆,李丹,范臻,刘奕群,张敏,马少平. 中文信息学报. 2018(11)
[2]N-Reader:基于双层Self-attention的机器阅读理解模型[J]. 梁小波,任飞亮,刘永康,潘凌峰,侯依宁,张熠,李妍. 中文信息学报. 2018(10)
硕士论文
[1]基于神经网络和注意力机制的阅读理解式问答模型研究[D]. 肖林龙.西南大学 2019
本文编号:3319414
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3319414.html