问答系统中复合问句分解技术研究
发布时间:2021-11-08 08:02
问答技术是目前自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向,它旨在构建一个能够自动回答人类用自然语言提出的问句的系统——问答系统。在调查研究中,本课题发现当前许多问答系统仅具备回答简单问句(如“中国的国庆节是什么时候?”)的能力,而对于比较复杂的问句(如“姚明的身高和体重是什么?”“姚明女儿的身高是多少”)无法有效理解和回答。本文认为许多复杂的问句中存在多个问题的复合,可以被分解为问答系统能够回答的简单问句,因而提出了复合问句分解任务。本文将复合问句分解任务分为两个子任务:复合问句的分类任务和复合问句的子问句生成任务,并对两个任务分别构建了相应数据集以进行研究。针对复合问句分解任务缺乏可用的中文语料的情况,本文自行从百度知道、《一站到底》节目、HotpotQA等来源搜集了相关语料,根据问句的句法结构和解答方式定义了四种类型的复合问句,并制定了详细的标注规则,构建了包含5100多句复合问句的复合问句分类和子问句生成的数据集。复合问句的分类任务旨在识别出简单问句和不同类型的复合问句,本文认为复合问句具有比较显著的语法和语义特征,并基于此对相关机器学习和深度学习算法进行了研究,...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
问答系统的体系结构图
图 2-4 HotpotQA 中数据的例子及其翻译问句语料标注详尽的标注规则的制定可以使复合问句分解任务语料标注研究针对复合问句分类任务和复合问句的子问句生成任务注的详细规则。在构建数据集时,本研究致力于剔除不规句分类,并表示其分解后的问句,语料标注流程如图 2-5 所:被评为 2015 Diamond Head Classic 比赛 MVP 的球员效力于哪支?落 1:2015 Diamond Head Classic 是一场大学篮球锦标赛……巴迪·德被评为本届比赛 MVP。落 2:哈瓦诺·雷尼尔·“巴迪”·希尔德是 NBA 萨克拉门托国王队的巴职业篮球运动员……
21图 2-11 JSON 格式的子问句生成数据2.4 训练语料的数据增强本研究虽然构建了复合问句子问句生成的相应数据集,提出了子问句生成的相关模型,但是深度学习的生成任务往往需要使用大规模的训练语料来达到充分训练模型的需求。而在本研究的实验过程中,随着训练数据的增加第 3 章中的复合问句分类模型有显著的进步,最终分类准确率趋于稳定,达到了较好的复合问句分类效果;第 4 章中的子问句生成模型的效果也有所提升,但远没有达到模型在原任务上的效果。通过对比发现,深度学习中文本生成任务所用的数据集规模一般都是比较大的,而本研究自行搜集的数据相
本文编号:3483331
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
问答系统的体系结构图
图 2-4 HotpotQA 中数据的例子及其翻译问句语料标注详尽的标注规则的制定可以使复合问句分解任务语料标注研究针对复合问句分类任务和复合问句的子问句生成任务注的详细规则。在构建数据集时,本研究致力于剔除不规句分类,并表示其分解后的问句,语料标注流程如图 2-5 所:被评为 2015 Diamond Head Classic 比赛 MVP 的球员效力于哪支?落 1:2015 Diamond Head Classic 是一场大学篮球锦标赛……巴迪·德被评为本届比赛 MVP。落 2:哈瓦诺·雷尼尔·“巴迪”·希尔德是 NBA 萨克拉门托国王队的巴职业篮球运动员……
21图 2-11 JSON 格式的子问句生成数据2.4 训练语料的数据增强本研究虽然构建了复合问句子问句生成的相应数据集,提出了子问句生成的相关模型,但是深度学习的生成任务往往需要使用大规模的训练语料来达到充分训练模型的需求。而在本研究的实验过程中,随着训练数据的增加第 3 章中的复合问句分类模型有显著的进步,最终分类准确率趋于稳定,达到了较好的复合问句分类效果;第 4 章中的子问句生成模型的效果也有所提升,但远没有达到模型在原任务上的效果。通过对比发现,深度学习中文本生成任务所用的数据集规模一般都是比较大的,而本研究自行搜集的数据相
本文编号:3483331
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3483331.html