问答系统的答案优化方法研究

发布时间：2018-01-02 15:22

本文关键词：问答系统的答案优化方法研究　出处：《哈尔滨工业大学》2017年博士论文　论文类型：学位论文

【摘要】：随着大数据时代的到来和计算机硬件体系的不断更新,人工智能在学术界和产业界都取得了长足的发展,如人机博弈、自动控制等。自动问答是人工智能的一个重要分支,它建立在自然语言理解的基础上,能够针对真实环境下用户的提问给出精简准确的反馈以满足其信息需求。问答系统的性能往往依赖于内容准确、表达合理的高质量知识库,其来源主要为互联网上大规模的异构信息;然而,由于互联网用户群体的复杂性和知识抽取方法的不完备性,问答系统知识库中存储的候选答案常会出现表述不合理的情形,例如答案语句的语法表达不当、语义关系表述失准或给出的回复对上下文信息考虑不足等,另外,问答系统在线运行时的复杂环境也使得不可靠答案的出现难以避免。基于以上分析,本文提出问答系统的答案优化方法,旨在对答案中潜在的不合理表述进行校验,从而优化答案质量,提高问答系统的回复能力。主要研究内容包括:1、基于深度卷积神经网络的答案语法错误修正。互联网用户群体的复杂性使得不符合语法表达规范语句的存在难以避免,而互联网作为自动问答系统知识库的主要来源,其语言表达的不规范性将直接影响到系统生成答案的质量,进而影响用户的体验。本文从语法层次出发,主要探索如何自动发现语句中的语法表达错误问题并加以修正,以保证系统返回答案中语法表达的合理性。为此,本文提出基于深度卷积神经网络的语法错误检测模型,模型使用词向量和词性向量作为输入,通过卷积神经网络对候选样本的上下文进行特征学习。模型学习的目标函数为最大化预测值和观察值之间的边缘间隔。实验证明,与传统统计学习方法相比,本文提出的深度模型对语法错误产生时的上下文特征具备更强的学习能力,并能取得比传统方法更优的结果。2、基于弱监督学习的答案语义关系抽取。大规模语义知识库可以为问答系统回答事实类问题提供支持,但由于知识抽取等方法仍存在一定局限性,语义知识库中难免会存在不准确、不合理或过时的语义信息,从而导致答案中对于语义的表述出现异常。本文从语义层次考虑,主要研究如何根据已有的小规模语义知识库和较新的大规模自由文本学习新的语义关系,从而更新和补充问答系统的语义知识库。弱监督学习是实体语义关系抽取的主要路线之一,也是对知识库进行更新和补充的重要途径,本文在弱监督学习的基础上提出基于高质量样本的实体语义关系抽取模型。在参数学习过程中,模型通过应用多种评价策略来选择高质量训练样本,以降低不可靠样本对分类的影响、优化语义关系分类器。实验证明,基于高质量样本的实体语义关系抽取模型可以有效降低训练样本集合中的噪声,与基准方法相比,模型能够取得更优的F_1值和P-R曲线。3、基于上下文的社区问答答案选择。社区问答网站为问答系统知识库的构建提供了大量资源,而如何利用上下文信息进行答案选择是针对社区问答所开展研究中的一个难点。本文从语境层次考虑,主要研究如何高效、全面地学习和利用上下文信息来进行答案选择(即问答对抽取)。通过分析发现,社区问答的答案质量与内容关联和标签依赖两种上下文关系密切相关,为此,本文提出基于上下文的答案选择深度模型,该模型通过深度卷积神经网络对问题和答案进行编码,利用融合注意力机制的长短时记忆网络对内容关联进行学习,并使用条件随机场对标签依赖进行学习。实验证明,两种上下文关系在答案选择过程中不可或缺,提出的模型相较于对比方法能够获得更优的F1值。4、基于用户反馈的不可靠答案识别。用户反馈是自动问答系统成长和进化的良药,除了显式的用户评分,人机交互过程中的用户行为也在一定程度上反映了答案的优劣。本文从语境层次考虑,主要研究如何有效地捕捉真实人机交互过程中用户所反馈出的不可靠答案,从而为答案的进一步优化或知识库的更新提供依据。通过分析发现,对话系统中的用户反馈包括用户意图和用户情感两个方面,系统回复的不可靠答案通常由用户进一步的动作或表现出的情绪反映出来。为了研究人机对话中不可靠答案与用户反馈之间的关系,本文首先构建了一个真实环境下的对话数据集并对其中的不可靠答案进行标注和分析,然后通过定义一系列语法和语义等特征来描述两种用户反馈因素,并利用有监督学习方法对不可靠答案进行识别。实验证明考虑用户意图和情感两方面因素能够更好的识别出不可靠答案,从而为系统优化提供更有价值的线索。
[Abstract]:In this paper , based on deep convolution neural network , this paper puts forward an answer optimization method based on deep convolution neural network , which can be used as the main source of the knowledge base of automatic question and answer system . This paper studies how to efficiently and comprehensively learn and use context information to study the answers . In order to study the relationship between user ' s intention and user ' s feedback , this paper mainly studies how to efficiently and comprehensively study and use context information to identify the answers .

【学位授予单位】：哈尔滨工业大学
【学位级别】：博士
【学位授予年份】：2017
【分类号】：TP391.1;TP18

【参考文献】