基于双向注意力和标签软化的抽取式阅读理解研究
发布时间:2021-06-05 17:28
机器阅读理解是人工智能和自然语言处理领域的一个重要研究课题,是自动问答模型的关键支撑技术,有着重要的研究意义和广泛的应用价值。随着互联网的发展和技术的进步,研究者提出了各种阅读理解模型,在部分数据集上可以达到超越人类的效果。然而,机器阅读领域仍然有大量未解决的问题需要继续探索,研究机器阅读理解模型的进一步优化对学术界和工业界都有重要意义。得益于技术的发展和运算速度的提升,大规模预训练语言模型被提出并在许多自然语言理解任务上都有亮眼表现。然而,这些模型在抽取式阅读理解任务中的应用方法仍然较为简单,在模型结构和数据构成上都有可以优化之处。本文主要从一种预训练语言模型—ALBERT入手,从模型和数据两方面分别基于双向注意力和标签软化对该模型进行优化,使其在抽取式阅读理解任务中能有更好的表现。首先,本文对ALBERT在抽取式阅读理解任务中的应用效果进行了验证。分析了ALBERT的模型特点和主要优势,并在SQu AD 2.0、News QA、QUOREF三个数据集上进行了实验验证。实验结果表明该模型在三个基准数据集上都有较好的表现,在SQu AD和News QA上可以超越人类,在News QA和...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
Transformer模型结构[45]
哈尔滨工业大学工学硕士学位论文图2-2Transformer中的多头注意力结构[45]题。预训练阶段的目的是得到高质量、高适用性的编码器,更好地捕捉输入文本中的语义关系,并服务于下游应用。得到编码器之后,对于不同的下游任务,再配以针对此任务的解码器,就可以将预训练语言模型应用到不同的任务上了。因此预训练语言模型的主体往往是编码器部分,并没有通用的解码部分,解码器通常设计的比较简单。当我们提起BERT模型时,一般也指的是BERT的编码器部分。BERT的编码器部分非常简单,就是之前说明的Transformer编码器,网络结构没有任何改动,只是在一些细节上有一定区别,如加入了分段信息,位置向量的实现出现区别,使用GELU激活函数[49]替代ReLU等。而在关于如何预训练BERT模型的问题上,不同于ELMo[3]等传统语言模型给定句子上文预测下一个词的任务,作者进行了富有启发性的探索。BERT模型使用两个任务进行预训练,一是着重于句子内部上下文关系的词预测任务—MaskedLanguageModeling(MLM),二是着重于句对之间交互关系的二分类任务—NextSentencePrediction(NSP)。MLM任务形式类似于完形填空(Cloze)[50]。对于一个完整的单语句子,在预处理阶段随机去除句子中的某些单词,并在这个位置留下空位。其中部分空位会被填充为随机词,要求模型根据输入的句子恢复原来的句子。由于存在句子空位已经被填充的情况,模型不能简单地判断出要预测的是哪一个单词,这就要求模型对输入文本中每一个词都进行高质量的建模,保证了任务不会退化。在自然语言处理领域-11-
本文编号:3212596
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
Transformer模型结构[45]
哈尔滨工业大学工学硕士学位论文图2-2Transformer中的多头注意力结构[45]题。预训练阶段的目的是得到高质量、高适用性的编码器,更好地捕捉输入文本中的语义关系,并服务于下游应用。得到编码器之后,对于不同的下游任务,再配以针对此任务的解码器,就可以将预训练语言模型应用到不同的任务上了。因此预训练语言模型的主体往往是编码器部分,并没有通用的解码部分,解码器通常设计的比较简单。当我们提起BERT模型时,一般也指的是BERT的编码器部分。BERT的编码器部分非常简单,就是之前说明的Transformer编码器,网络结构没有任何改动,只是在一些细节上有一定区别,如加入了分段信息,位置向量的实现出现区别,使用GELU激活函数[49]替代ReLU等。而在关于如何预训练BERT模型的问题上,不同于ELMo[3]等传统语言模型给定句子上文预测下一个词的任务,作者进行了富有启发性的探索。BERT模型使用两个任务进行预训练,一是着重于句子内部上下文关系的词预测任务—MaskedLanguageModeling(MLM),二是着重于句对之间交互关系的二分类任务—NextSentencePrediction(NSP)。MLM任务形式类似于完形填空(Cloze)[50]。对于一个完整的单语句子,在预处理阶段随机去除句子中的某些单词,并在这个位置留下空位。其中部分空位会被填充为随机词,要求模型根据输入的句子恢复原来的句子。由于存在句子空位已经被填充的情况,模型不能简单地判断出要预测的是哪一个单词,这就要求模型对输入文本中每一个词都进行高质量的建模,保证了任务不会退化。在自然语言处理领域-11-
本文编号:3212596
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3212596.html