多层注意机制下阅读理解问答模型研究与应用
发布时间:2021-09-15 22:50
机器阅读理解是使人类能够通过自然语言与机器交互的关键技术,也是人工智能的核心任务。机器阅读理解任务通常以问答的形式呈现,要求算法模型根据提出的问题,通过理解相关文章的内容来给出正确答案。随着深度学习的发展,基于神经网络的机器阅读理解模型不断推陈出新。广泛地使用层次化交互注意力机制和基于大规模无监督语料预训练(pre-training)的迁移学习模型似乎已经成为机器阅读理解算法的标准模式,并且在一些基准任务的数据集上取得了超越人类的表现。然而进一步的研究表明,这些基于多层注意机制的机器阅读理解问答模型在面对推理问题和干扰文本攻击时表现得十分脆弱。除此之外,深度模型在少样本条件下训练时的不稳定性,也阻碍了其在现实环境中的应用。本文针对以上几个关键问题进行了研究,并在此基础上提出了全新的解决方案。该课题的研究内容和贡献主要有以下几个方面。第一,对问题—文章交互注意力机制的学习特点以及作用原理等问题,进行细粒度研究,并对交互查询式机器阅读理解模型,训练前后编码层的编码特点进行比较。方案使用了经过结构简化的BiDAF模型,在语义推理关系清晰的Facebook The(20)QA bAbI tas...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
BiDAF模型结构[15]
六个阈值梯度下的片段化数据集分割情况
电子科技大学硕士学位论文30降。相反在task3中,模型在以0.2为阈值的片段化测试数据上,取得了比完整文本数据上更高的答案预测准确率。据此我们可以得出一个初步的结论,交互查询注意力机制的作用原理如下:在模型训练过程中,编码层学习了如何将文本正确地映射到高维语义编码空间。在高维语义空间中,交互注意力机制所采用的运算方式能够对语义相关性进行良好的识别,从而通过注意权重抽取出问答问题所必须的语义特征。输出层通过这些经过筛选的,特征明确的信息,对答案进行直接地预测。图3-4Task1~3片段化数据集上模型训练后的答案预测准确率变化在此之后,我们对在原始完整数据集上,训练后的模型预测错误但在片段化精简数据集上模型训练后能够正确预测答案的样本做了筛选,并对这些样本进行了人工分析。满足这一条件的样本,Task1中发现了0个,在Task2中发现了59个,Task3中发现了77个,三个task数据中共有136个。通过对比我们发现,在这些样本中,通常问题的答案所依赖的多个事实陈述在原文本中相距较远,中间夹杂了大量的无关文本,即使是人来阅读文本对问题进行回答也需要一句问题线
本文编号:3396965
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
BiDAF模型结构[15]
六个阈值梯度下的片段化数据集分割情况
电子科技大学硕士学位论文30降。相反在task3中,模型在以0.2为阈值的片段化测试数据上,取得了比完整文本数据上更高的答案预测准确率。据此我们可以得出一个初步的结论,交互查询注意力机制的作用原理如下:在模型训练过程中,编码层学习了如何将文本正确地映射到高维语义编码空间。在高维语义空间中,交互注意力机制所采用的运算方式能够对语义相关性进行良好的识别,从而通过注意权重抽取出问答问题所必须的语义特征。输出层通过这些经过筛选的,特征明确的信息,对答案进行直接地预测。图3-4Task1~3片段化数据集上模型训练后的答案预测准确率变化在此之后,我们对在原始完整数据集上,训练后的模型预测错误但在片段化精简数据集上模型训练后能够正确预测答案的样本做了筛选,并对这些样本进行了人工分析。满足这一条件的样本,Task1中发现了0个,在Task2中发现了59个,Task3中发现了77个,三个task数据中共有136个。通过对比我们发现,在这些样本中,通常问题的答案所依赖的多个事实陈述在原文本中相距较远,中间夹杂了大量的无关文本,即使是人来阅读文本对问题进行回答也需要一句问题线
本文编号:3396965
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3396965.html
最近更新
教材专著