融合外部知识的机器阅读理解方法研究
发布时间:2021-07-01 15:15
人类阅读理解和机器阅读理解一个很大的差异是,人类很善于利用除了文本之外的一些外部知识,来辅助自己理解获取答案。然而当前的很多机器阅读理解方法更多的是在文本匹配层面,仅仅是根据阅读理解所提供的文本和问题来寻找答案。但是现实世界中的机器阅读理解任务很复杂,仅仅根据所提供的文本和问题,无法获得问题的答案,需要借助一些常识性的外部知识信息。本文以为机器阅读理解引入外部知识为切入点,通过检索机器阅读理解任务相关的外部知识信息,然后设计某种方法将其加入到机器阅读理解的获取问题答案的过程中,从而提高机器阅读理解获取问题的答案的性能。主要进行了以下三项研究工作:(1)基于预训练语言模型的隐式的引入外部知识的方法。由于预训练语言模型借助优秀的深度学习架构,能够很好的利用大量的无标注的文本,而这些大量的无标注的文本中已经包含很多的知识,因此,直接使用预训练模型构建机器阅读理解模型来隐式地引入外部知识,相比于的传统的阅读理解方法,在实验的测试集合上取得了很不错的效果。(2)基于注意力机制的显式的引入外部知识的方法。针对当前很多外部知识库如NELL、Word Net等都包含丰富的知识信息,使用适当的方法检索出...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
ReCoRD例子
哈尔滨工业大学工程硕士学位论文-12-语言模型,即在估计条件概率的大小时,不需要对当前词的前面所有的词进行计算,只需要对当前词的前面N个词进行计算,公式表示如下:(|1,2,…,1)≈(|(1),…,1)(22)(|(1),…,1)=((1),…,1,)((1),…,1)(23)在N-gram语言模型当中,传统的方法估算N元条件概率一般采用频率计数的比例来估算。然而这个方法也有很大的缺陷,当N较大的时候,会有数据稀疏的问题,这会导致估算结果不准确,因此在实际中,一般常采用二元语言模型和三元语言模型,然而该方法所起到的作用仍然有限。2003年Bengio等人为了缓解N-gram语言模型估计概率时所碰到的数据稀疏的问题,提出了经典的神经网络语言模型[41],该语言模型使用了前馈的全连接的神经网络建模,首层参数可以作为词向量表示。图2-2NNLM模型结构图词向量可看作是NNLM的一个副产品,2013年Mikolov等人提出word2vec[42],该方法使用一些优化技巧专注于词向量的产生。在这基础之上,研究者又提出通过共现语料矩阵进行高效分解产生的glove词向量。然而word2vec、glove[43]等传统的语言模型训练方法,产生的是静态词向量,未考虑一词多义、无法理解复杂语境,这将导致在很多NLP任务上不能达到一个很好的效果。针对这个问题,研究者提出了新的预训练语言模型的方法,能够产生上下文相关的特征表示,即动态词向量,下一节将介绍新的预训练语言模型的方法。
哈尔滨工业大学工程硕士学位论文-13-2.3.2预训练语言模型第一个最具有代表性的预训练语言模型应该是华盛顿大学的研究者的工作。2018年,他们提出了有名的ELMo[15],该模型主要是为了解决词向量的一词多义的问题,而且词向量编码的信息应该包含句法信息和语义信息。因此,ELMo借助语言模型来获得一个上下文相关的预训练的表示。而且ELMo的基本结构使用的是一个双向的LSTM语言模型,该模型由一个前向和一个后向语言模型构成,目标函数是这两个方向语言模型的最大似然估计。具体的,给定一个包含N个词的句子,前向语言模型计算的概率为:(1,2,…,)=∏(|1,2,…,1)=1(24)后向语言模型计算的概率为:(1,2,…,)=∏(|+1,+2,…,)=1(25)取前向和后向语言模型两个方向的最大似然:∑((|1,2,…,1;,→,)=1+(|+1,+2,…,;,←,)(26)在训练好这个语言模型之后,对于每个词,ELMo计算双向语言模型的每一个中间层的和作为该词的表示,也可以直接使用最上层的表示。另外,如果是有监督NLP任务,可以直接以特征添加的方式来使用。图2-3ELMo模型结构图
【参考文献】:
期刊论文
[1]问答系统研究综述[J]. 毛先领,李晓明. 计算机科学与探索. 2012(03)
[2]基于层叠条件随机场的旅游领域命名实体识别[J]. 郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明. 中文信息学报. 2009(05)
[3]基于规则的中文阅读理解问题回答技术研究[J]. 李济洪,杨杏丽,王瑞波,张娜,李国臣. 中文信息学报. 2009(04)
[4]基于最大熵模型的中文阅读理解问题回答技术研究[J]. 李济洪,王瑞波,王凯华,李国臣. 中文信息学报. 2008(06)
[5]中文阅读理解语料库构建技术研究[J]. 郝晓燕,李济洪,由丽萍,刘开瑛. 中文信息学报. 2007(06)
本文编号:3259377
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
ReCoRD例子
哈尔滨工业大学工程硕士学位论文-12-语言模型,即在估计条件概率的大小时,不需要对当前词的前面所有的词进行计算,只需要对当前词的前面N个词进行计算,公式表示如下:(|1,2,…,1)≈(|(1),…,1)(22)(|(1),…,1)=((1),…,1,)((1),…,1)(23)在N-gram语言模型当中,传统的方法估算N元条件概率一般采用频率计数的比例来估算。然而这个方法也有很大的缺陷,当N较大的时候,会有数据稀疏的问题,这会导致估算结果不准确,因此在实际中,一般常采用二元语言模型和三元语言模型,然而该方法所起到的作用仍然有限。2003年Bengio等人为了缓解N-gram语言模型估计概率时所碰到的数据稀疏的问题,提出了经典的神经网络语言模型[41],该语言模型使用了前馈的全连接的神经网络建模,首层参数可以作为词向量表示。图2-2NNLM模型结构图词向量可看作是NNLM的一个副产品,2013年Mikolov等人提出word2vec[42],该方法使用一些优化技巧专注于词向量的产生。在这基础之上,研究者又提出通过共现语料矩阵进行高效分解产生的glove词向量。然而word2vec、glove[43]等传统的语言模型训练方法,产生的是静态词向量,未考虑一词多义、无法理解复杂语境,这将导致在很多NLP任务上不能达到一个很好的效果。针对这个问题,研究者提出了新的预训练语言模型的方法,能够产生上下文相关的特征表示,即动态词向量,下一节将介绍新的预训练语言模型的方法。
哈尔滨工业大学工程硕士学位论文-13-2.3.2预训练语言模型第一个最具有代表性的预训练语言模型应该是华盛顿大学的研究者的工作。2018年,他们提出了有名的ELMo[15],该模型主要是为了解决词向量的一词多义的问题,而且词向量编码的信息应该包含句法信息和语义信息。因此,ELMo借助语言模型来获得一个上下文相关的预训练的表示。而且ELMo的基本结构使用的是一个双向的LSTM语言模型,该模型由一个前向和一个后向语言模型构成,目标函数是这两个方向语言模型的最大似然估计。具体的,给定一个包含N个词的句子,前向语言模型计算的概率为:(1,2,…,)=∏(|1,2,…,1)=1(24)后向语言模型计算的概率为:(1,2,…,)=∏(|+1,+2,…,)=1(25)取前向和后向语言模型两个方向的最大似然:∑((|1,2,…,1;,→,)=1+(|+1,+2,…,;,←,)(26)在训练好这个语言模型之后,对于每个词,ELMo计算双向语言模型的每一个中间层的和作为该词的表示,也可以直接使用最上层的表示。另外,如果是有监督NLP任务,可以直接以特征添加的方式来使用。图2-3ELMo模型结构图
【参考文献】:
期刊论文
[1]问答系统研究综述[J]. 毛先领,李晓明. 计算机科学与探索. 2012(03)
[2]基于层叠条件随机场的旅游领域命名实体识别[J]. 郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明. 中文信息学报. 2009(05)
[3]基于规则的中文阅读理解问题回答技术研究[J]. 李济洪,杨杏丽,王瑞波,张娜,李国臣. 中文信息学报. 2009(04)
[4]基于最大熵模型的中文阅读理解问题回答技术研究[J]. 李济洪,王瑞波,王凯华,李国臣. 中文信息学报. 2008(06)
[5]中文阅读理解语料库构建技术研究[J]. 郝晓燕,李济洪,由丽萍,刘开瑛. 中文信息学报. 2007(06)
本文编号:3259377
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3259377.html
最近更新
教材专著