面向问答系统的相似问题识别研究
发布时间:2020-08-12 08:41
【摘要】:在互联网技术日益繁荣的今天,各种各样的信息呈现出爆炸性的增长态势,问答系统也不例外,积累了庞大的问题库。随着人工智能在现代社会如火如荼地发展,大数据给人们的工作和生活带来了越来越多的好处。因此,对这些庞大的数据信息进行合理有效地处理,从而为用户提供精确可靠的信息资源具有极其重要的意义。虽然现代搜索引擎帮助人们从扑面而来的信息中得到了一定程度的解脱,但是不难发现,在真正有用的信息中却夹杂着大量的噪声信息。如何避免这些噪声数据的干扰,提高用户搜索信息的质量和效率,问答系统在这方面起到了很大的作用。问答系统被认为是更高级别的检索系统,这是因为该系统一方面克服了搜索引擎难以理解用户意图的缺点,另一方面也避免了一些错误结果的返回。对于用户用自然语言提出的问题,问答系统往往能够给出简洁、准确、对用户友好的答案。问答系统是一个不断发展的研究领域,它融合了信息检索、自然语言处理和深度学习等技术,分为自由文本体系结构的问答系统和问题答案对体系结构的问答系统。本文主要研究基于问题答案对体系结构的问答系统,通过将用户提交的问题进行分析,进而与系统中的问题组数据库进行匹配,检索到与用户提交的问题语义最相似的问题,之后将类似问题的最佳候选答案推荐给用户,从而可以提高用户检索有效信息的效率。因此,为了更好地理解用户的查询意图,匹配到问答系统中最相似的问题,对问题对之间进行语义相似度计算就显得尤其重要。文本的相似度计算一般是从短语、句子、段落和文档这些层级进行衡量和分析,本文主要是针对问答系统问题对句子级别的语义相似性方面进行研究。受卷积神经网络在图像识别领域应用的启发,本文构建了基于孪生卷积神经网络生成自适应内容信息矩阵的深度学习模型,提出了将自适应近邻图和先验知识近邻图组合形成双通道近邻图的方法。文本近邻图能够表达文本样本的近邻关系,本文采用词嵌入的方式将文本转换为向量形式,通过构建文本相似度关系矩阵来获得文本近邻图。现有方法通常是构造静态的近邻图,这些方法一方面依赖先验知识,另一方面难以获得句子对的最优表示,针对这些不足,本文提出了利用孪生卷积神经网络学习更优的动态更新的近邻图方法,通过实验,该模型在Quora和MSRP两种数据集上的准确率分别是84.35%和75.65%,F1值分别是79.98%和82.97%,实验结果比其它方法表现要好,证明了本文提出的深度学习模型在短文本问题对的识别和匹配任务上具有可行性和有效性。
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
【图文】:
图 2-1 Skip-Gram 模型[31]Figure 2-1 Skip-Gram model[31]kip-gram 的基础模型架构,由图可以看到,该模型的训学习预测它附近单词的矢量表示。Skip-gram 模型整个藏层和 softmax,每个词向量作为 log-linear 模型的输BOW 模型,连续词袋模型的结构示意图如图 2-2 所示
图 2-1 Skip-Gram 模型[31]Figure 2-1 Skip-Gram model[31] Skip-gram 的基础模型架构,由图可以看到,该模型的训来学习预测它附近单词的矢量表示。Skip-gram 模型整个隐藏层和 softmax,每个词向量作为 log-linear 模型的输入 CBOW 模型,连续词袋模型的结构示意图如图 2-2 所示:
基于孪生卷积神经网络的深度学习模型,这是一种使用孪生卷积网络生成可学习文本信息矩阵的方法,通过这种方法来获取文本中的关键内容信息,进而达到更好识别与检测问答系统中相似问题的目标。文本匹配从不同层级上来分,可以分为单词之间的匹配,短语级别的匹配以及句子水平上的匹配,对于长文本、段落以及大型文档,可以将其拆分成句子级别的匹配。继续用上面的例子来说明一下,如下图 2-3 所示:两个文本中单词之间的匹配称为字符级别匹配,包括完全相同的单词之间的匹配,例如“in-in”; “a-a”;也包括词义相近的单词匹配,如“improve-enhance”;“skill-ability”;短语级别的匹配是指 N-gram 匹配(n 个连续单词发生的匹配),也就是几个单词组成的短语之 间 的 匹 配 , 例 如 “(How can I )-(Are there any ways”; “(improve the programingskills)-(enhancing my coding abilities)”;“(in a few months)-in a short period)”。当把多个较低级别的匹配单元组合起来以后就可以形成句子级别的匹配或者段落、文档之间的匹配。比如下面的这个句子对可从单词和短语级别进行匹配,当我们对包括很多句子的段落进行匹配时,可以考虑将整个段落视为一个长句子。
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
【图文】:
图 2-1 Skip-Gram 模型[31]Figure 2-1 Skip-Gram model[31]kip-gram 的基础模型架构,由图可以看到,该模型的训学习预测它附近单词的矢量表示。Skip-gram 模型整个藏层和 softmax,每个词向量作为 log-linear 模型的输BOW 模型,连续词袋模型的结构示意图如图 2-2 所示
图 2-1 Skip-Gram 模型[31]Figure 2-1 Skip-Gram model[31] Skip-gram 的基础模型架构,由图可以看到,该模型的训来学习预测它附近单词的矢量表示。Skip-gram 模型整个隐藏层和 softmax,每个词向量作为 log-linear 模型的输入 CBOW 模型,连续词袋模型的结构示意图如图 2-2 所示:
基于孪生卷积神经网络的深度学习模型,这是一种使用孪生卷积网络生成可学习文本信息矩阵的方法,通过这种方法来获取文本中的关键内容信息,进而达到更好识别与检测问答系统中相似问题的目标。文本匹配从不同层级上来分,可以分为单词之间的匹配,短语级别的匹配以及句子水平上的匹配,对于长文本、段落以及大型文档,可以将其拆分成句子级别的匹配。继续用上面的例子来说明一下,如下图 2-3 所示:两个文本中单词之间的匹配称为字符级别匹配,包括完全相同的单词之间的匹配,例如“in-in”; “a-a”;也包括词义相近的单词匹配,如“improve-enhance”;“skill-ability”;短语级别的匹配是指 N-gram 匹配(n 个连续单词发生的匹配),也就是几个单词组成的短语之 间 的 匹 配 , 例 如 “(How can I )-(Are there any ways”; “(improve the programingskills)-(enhancing my coding abilities)”;“(in a few months)-in a short period)”。当把多个较低级别的匹配单元组合起来以后就可以形成句子级别的匹配或者段落、文档之间的匹配。比如下面的这个句子对可从单词和短语级别进行匹配,当我们对包括很多句子的段落进行匹配时,可以考虑将整个段落视为一个长句子。
【相似文献】
相关期刊论文 前10条
1 任梦婷;王娟;阮佩姗;刘振盼;;影响高质量网络问答系统建设的因素[J];物流科技;2016年12期
2 武振国;李艳翠;;植物病虫害智能问答系统设计与实现[J];农业网络信息;2017年01期
3 费建军;;智能问答系统中命名实体识别问题研究[J];数字技术与应用;2017年07期
4 何秀;;智能问答系统的研究与设计[J];南方农机;2017年20期
5 张中峰;李秋丹;;社区问答系统研究综述[J];计算机科学;2010年11期
6 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
7 张积宾;徐志明;王恒;潘启树;;面向大规模网络数据的社会化问答系统[J];哈尔滨工业大学学报;2008年12期
8 徐雄;;基于深度学习的问答系统研究[J];湖北师范大学学报(自然科学版);2019年01期
9 吴灵慧;;问答系统研究综述[J];科技传播;2019年05期
10 赵昌志;王怡婷;张小琴;;基于深度学习的智能问答系统研究与设计[J];信息与电脑(理论版);2019年11期
相关会议论文 前10条
1 何靖;陈
本文编号:2790305
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2790305.html