面向自然语言查询的知识搜索关键技术研究
发布时间:2017-03-26 21:03
本文关键词:面向自然语言查询的知识搜索关键技术研究,,由笔耕文化传播整理发布。
【摘要】:随着互联网上信息的爆炸式增长,人们对信息检索的需求越来越大。如何快速、精确、可靠地从大量的、结构多样化的信息中搜索到用户需要的信息,成为一个热门的迫切需要解决的课题。以Google为首的传统的搜索引擎主要是基于关键词匹配的一种信息检索技术,它从互联网中以一定的策略搜集、爬取信息,对信息进行解析、索引,为用户提供检索服务。传统搜索引擎存在搜索接口不友好、搜索过程复杂、返回信息量大、返回内容针对性不强等问题。基于传统搜索引擎存在的不足,面向自然语言查询的知识搜索系统被提出。本文主要研究知识搜索系统中两个关键技术:基于知识图谱的知识搜索和基于社区问答的知识搜索。针对事实性的问题,本文提供了基于结构化的知识图谱数据的知识搜索服务。这种检索模式存在检索语法复杂、数据结构复杂等问题。因此,如何将无结构化的自然语句映射到结构化查询语句是该模块的核心。本文首先在从自然表达语句到知识库中的实体和关系的映射上,提出了基于层次化实体映射和基于外部数据集的关系映射算法。同时,本文还提出了基于手工定义模板和基于语义关系抽取的自动生成算法,实现从无结构化自然查询语句到结构化查询语句之间的映射。针对非事实性的问题,本文提供了基于无结构化的社区问答数据的知识搜索服务。本文从基于问题跟问题相似度匹配和问题跟答案相似度匹配两个方向解决问题。在问题跟问题相似度匹配模型中,我们提出改进的WMD算法,该算法根据社区问答数据的特性对原始的WMD算法进行改进,算法的结果比传统的BM25算法以及原始的WMD算法在性能上都有了较大提高。在问题与答案相似度匹配模型中,当前学术界主要的思想是通过深度学习在NLP领域的应用来比较两个句子或者段落的语义相似度,本文在这些模型的基础上,考虑问题和答案在数据集上的共现特征,提高了模型在处理答案简短、关键词与问题语义不匹配等情况下性能低下的问题。
【关键词】:知识搜索 知识图谱 社区问答 深度学习 共现特征
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-13
- 第1章 绪论13-18
- 1.1 课题背景与意义13-14
- 1.2 本文的主要工作14-16
- 1.3 本文的组织结构16-17
- 1.4 本章小结17-18
- 第2章 知识搜索关键技术相关工作综述18-27
- 2.1 知识搜索的概念及相关研究18-20
- 2.2 基于知识图谱的知识搜索相关研究20-23
- 2.2.1 知识图谱20-22
- 2.2.2 研究现状和研究内容22-23
- 2.3 基于社区问答的知识搜索相关研究23-25
- 2.3.1 社区问答23-25
- 2.3.2 研究现状和研究内容25
- 2.4 本章小结25-27
- 第3章 基于知识图谱的知识搜索27-45
- 3.1 基于层次化模型的实体匹配算法28-33
- 3.1.1 基于倒排索引的严格匹配29-30
- 3.1.2 基于字符串相似度的匹配30-32
- 3.1.3 基于字典词汇集的扩充32
- 3.1.4 基于语义相似度的匹配32-33
- 3.2 基于外部数据集的关系模式挖掘算法33-37
- 3.2.1 知识库三元组集获取34
- 3.2.2 外部数据集获取34-35
- 3.2.3 潜在的自然语言表达式集挖掘35
- 3.2.4 自然语言表达式集验证35-36
- 3.2.5 实验与分析36-37
- 3.3 基于模板匹配的结构化查询语句生成37-44
- 3.3.1 基于手工定义模板的映射算法37-40
- 3.3.2 基于语义关系抽取的映射算法40-43
- 3.3.3 实验与分析43-44
- 3.4 本章小结44-45
- 第4章 基于社区问答的知识搜索45-60
- 4.1 基于问题与问题相似度匹配算法45-53
- 4.1.1 基于BM25算法46-47
- 4.1.2 基于改进的WMD算法47-49
- 4.1.3 实验与分析49-53
- 4.2 基于问题与答案相似度匹配算法53-59
- 4.2.1 问题和答案的语义向量表达53-55
- 4.2.2 问题和答案语义向量的相似度计算55-56
- 4.2.3 基于问题和答案词共现特征的模型改进56-58
- 4.2.4 实验和分析58-59
- 4.3 本章小结59-60
- 第5章 知识搜索系统设计与实现60-67
- 5.1 知识搜索系统框架介绍60
- 5.2 问句查询处理模块60-61
- 5.3 知识搜索分发模块61-63
- 5.4 知识搜索服务模块63-64
- 5.5 知识搜索结果处理模块64
- 5.6 系统实现展示64-66
- 5.7 本章小结66-67
- 第6章 总结与展望67-70
- 6.1 总结67-68
- 6.2 展望68-70
- 参考文献70-73
- 攻读硕士学位期间主要的研究成果73-74
- 致谢74
【相似文献】
中国期刊全文数据库 前8条
1 闫宏飞,陈
本文编号:269350
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/269350.html