散文观点类问题的自动解答方法研究
发布时间:2020-12-15 12:38
机器阅读理解要求机器拥有理解、推断文本能力,依据给定背景材料,回答对应的问题。现有的阅读理解研究大多集中于各大开放域的语料库,背景材料描述简洁直白,问题清晰明了。而散文背景材料语句含蓄优美,含义深刻,问题更加抽象概括,更具有挑战性。本文针对高考散文阅读理解观点类问答题的自动解答方法展开研究,主要研究工作如下:(1)阅读理解观点类问题分析。通过对历年高考语文阅读理解题型进行统计,观察到观点类问题分值比较高。进行进一步实例分析后,本文观察到观点类问题中的背景材料所属的散文体裁语句表达含蓄、有意境,问题表达较抽象、概括性较强,且提问方式多样,经过人工归类,本文将其分为证据类与原因类。另外,为了支撑机器对观点类问题的研究,本文构建了观点类问答题的语料库。(2)基于问题词汇扩展的证据类问题解答方法。由于证据类问题的表达复杂抽象,而背景材料的内容表达丰富且含蓄,导致问题与答案之间出现语义鸿沟。针对该问题,本文提出了基于Multi-HLSTM模型的问题词汇扩展方法。首先将背景材料与问题进行交互注意,同时构建预测原问题和预测问题扩展两个任务,使模型对问题进一步扩展。最后将扩展后的问题与原问题同时应用于...
【文章来源】:山西大学山西省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
基于Multi-HLSTM的问题词汇扩展模型
第四章融合情感特征的原因类问题解答方法21第四章融合情感特征的原因类问题解答方法基于第二章节的分析,观察到的原因类问答题中答案句与问题句情感极性一致现象,提出融合情感特征的原因类问题解答方法,将情感信息融入模型,帮助原因类问题答案句的抽龋4.1融合情感特征的BERT句对识别方法(1)模型整体框架BERT(BidirectionalEncoderRepresentationsfromTransformers)[48]是Google开发的一种NLP领域的预训练语言表示模型,BERT的出现彻底改变了预训练产生词向量和下游具体NLP任务相互独立的关系,使得对11项下游任务都有极大地提升。它是基于Transformer-Encoder的神经网络结构,可以通过联合调节所有层中的左右上下文来预训练深度双向表示,对于下游任务,我们只需将特定的目标输出层加以改造引入,对预训练好的BERT语言模型进行微调,可以获得更符合真实语义的表示,进而得到更优的任务表现。本文设计了基于BERT的句对识别方法,帮助解答原因类问题,具体见图4.1所示。图4.1基于BERT的句对识别模型中,将<问题句-候选答案句>成对输入,利用BERT中的[CLS]字段进行判别是否候选答案句为真正答案句。另外,为了利用原因类问题问题句与答案句情感极性一致的特点,在BERT语言模型的输入层中,加入文本的情感信息。对于中文字wi的表示有四个Embedding,包括当前字的字嵌入TokenEmbeddings(TE)、情感嵌入SentimentEmbedding(SE)、当前字所在句子的嵌入表示SegmentEmbeddings(SegE)和当前字的位置嵌入PositionEmbeddings(PE)。见图4.2所示。
散文观点类问题的自动解答方法研究22图4.2BERT的输入表示(2)情感向量表示为了使用情感极性信息帮助模型更有效地正确识别句对,经过语料分析,本文总结了用于识别情感极性的情感特征词,其中正面词集(Positive)、负面词集(Negative)、中性词集(Neutral)分别包含词汇109个,145个,67个,具体示例如表4.1所示。表4.1识别情感特征的情感词示例极性情感词示例正面(POSITIVE)着迷、屹立、散步、积淀、脊梁、豪迈、天然、顽强、淡雅、温厚、肃然起敬……负面(NEGATIVE)坠落、呻吟、挽歌、聒噪、孤寂、焦虑、停滞、缥缈、无处躲藏……中性(NEUTRAL)细微、寻常、震动、清醒……鉴于BERT模型的底层输入是基于字级的表示,对输入文本分词后,与表4.1中特征词匹配,对匹配到的词语的字赋予情感特征表示,见公式(4.1)所示。NegativePositiveNeural,2,1,0SEiiiicharcharcharcharwordwordword(4.1)其中,ichar为文本中字,icharword为ichar所在的词。(3)输入层表示将字嵌入TE引入情感特征SE,对应融入情感特征的字嵌入表示~TE见公式(4.2)所示。SETETE~(4.2)
本文编号:2918279
【文章来源】:山西大学山西省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
基于Multi-HLSTM的问题词汇扩展模型
第四章融合情感特征的原因类问题解答方法21第四章融合情感特征的原因类问题解答方法基于第二章节的分析,观察到的原因类问答题中答案句与问题句情感极性一致现象,提出融合情感特征的原因类问题解答方法,将情感信息融入模型,帮助原因类问题答案句的抽龋4.1融合情感特征的BERT句对识别方法(1)模型整体框架BERT(BidirectionalEncoderRepresentationsfromTransformers)[48]是Google开发的一种NLP领域的预训练语言表示模型,BERT的出现彻底改变了预训练产生词向量和下游具体NLP任务相互独立的关系,使得对11项下游任务都有极大地提升。它是基于Transformer-Encoder的神经网络结构,可以通过联合调节所有层中的左右上下文来预训练深度双向表示,对于下游任务,我们只需将特定的目标输出层加以改造引入,对预训练好的BERT语言模型进行微调,可以获得更符合真实语义的表示,进而得到更优的任务表现。本文设计了基于BERT的句对识别方法,帮助解答原因类问题,具体见图4.1所示。图4.1基于BERT的句对识别模型中,将<问题句-候选答案句>成对输入,利用BERT中的[CLS]字段进行判别是否候选答案句为真正答案句。另外,为了利用原因类问题问题句与答案句情感极性一致的特点,在BERT语言模型的输入层中,加入文本的情感信息。对于中文字wi的表示有四个Embedding,包括当前字的字嵌入TokenEmbeddings(TE)、情感嵌入SentimentEmbedding(SE)、当前字所在句子的嵌入表示SegmentEmbeddings(SegE)和当前字的位置嵌入PositionEmbeddings(PE)。见图4.2所示。
散文观点类问题的自动解答方法研究22图4.2BERT的输入表示(2)情感向量表示为了使用情感极性信息帮助模型更有效地正确识别句对,经过语料分析,本文总结了用于识别情感极性的情感特征词,其中正面词集(Positive)、负面词集(Negative)、中性词集(Neutral)分别包含词汇109个,145个,67个,具体示例如表4.1所示。表4.1识别情感特征的情感词示例极性情感词示例正面(POSITIVE)着迷、屹立、散步、积淀、脊梁、豪迈、天然、顽强、淡雅、温厚、肃然起敬……负面(NEGATIVE)坠落、呻吟、挽歌、聒噪、孤寂、焦虑、停滞、缥缈、无处躲藏……中性(NEUTRAL)细微、寻常、震动、清醒……鉴于BERT模型的底层输入是基于字级的表示,对输入文本分词后,与表4.1中特征词匹配,对匹配到的词语的字赋予情感特征表示,见公式(4.1)所示。NegativePositiveNeural,2,1,0SEiiiicharcharcharcharwordwordword(4.1)其中,ichar为文本中字,icharword为ichar所在的词。(3)输入层表示将字嵌入TE引入情感特征SE,对应融入情感特征的字嵌入表示~TE见公式(4.2)所示。SETETE~(4.2)
本文编号:2918279
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2918279.html