面向多领域大规模知识库的自然语言自动问答研究
发布时间:2017-04-24 23:08
本文关键词:面向多领域大规模知识库的自然语言自动问答研究,由笔耕文化传播整理发布。
【摘要】:随着计算机和网络的飞速发展,我们已经进入了数据信息爆炸式增长的时代,如何从海量的非结构化信息中提取真正满足用户需求的信息,已经成为一个越来越重要的研究课题。自然语言问答系统应运而生,它是一个能够对计算机用户或移动用户以自然语言形式描述的问句做出高效、准确回答的问答系统。本文研究的课题是面向多领域大规模知识库的自然语言自动问答研究。本文主要研究人物、地理、机构、音乐和电影这五类的自然语言自动问答。除构建知识库外,其精髓是如何进行准确高效的自然语言问句语义理解。与传统的搜索引擎不同,自然语言自动问答系统不是简单的关键词组合匹配,而是需要理解用户意图,因此,自然语言自动问答系统面临着很多困难,主要有两点:一是需要构建大规模知识库以及能够高效查询的查询体系;二是系统的输入是日常使用的自然语言,需要对自然语言问句进行理解分析,得到用户意图。针对上述问题,本文提出了一系列解决方法,主要有以下四点:一是构建知识库。对知识存储模型做了深入研究,根据存储模型需要满足能够大规模存储数据且高效查询、又能支持知识推理的特点,决定使用RDF存储模型存储知识。本文按类别爬取了百科数据和豆瓣数据,构建RDF知识库;二是进行命名实体识别。自然语言问句理解首先需要识别命名实体,本文使用机器学习的方法进行命名实体识别,研究了两种机器学习方法:SVM统计模型和CRF统计模型,以及两种统计模型特征模板的选取问题,同时研究了选取不同的特征模板对命名实体识别准确率的影响,最终根据实验数据选取合适的模板和统计模型;三是自然语言问句理解。本文在问句已经被划分类别、分词和进行命名实体识别的基础上,利用类别信息和词性标注,提出构建问句语义图的方法来描述用户意图,针对汉语的一个实体可以有多种表述方式的问题,提出了实体消歧和属性词消歧的方法:四是构建查询机制。针对RDF知识库需要用SPARQL语言进行查询的问题,构建了自动生成SPARQL查询语句的查询机制。为了验证本文方法的高效性,本文使用数据堂提供的手机助手语音问句作为实验问句数据集,爬取百科页面和豆瓣页面作为构造知识库的数据集。实验结果表明,本文构建的知识库高效且便于知识推理,本文提出的自然语言问句理解方法能够很好地理解分析用户的查询意图,并能够返回准确的答案。
【关键词】:RDF知识库 命名实体识别 语义图 消歧 SPARQL查询
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 绪论11-17
- 1.1 研究背景11-12
- 1.2 研究现状12-13
- 1.3 研究内容13-14
- 1.4 研究方案与实施14-15
- 1.5 论文章节安排15-17
- 第2章 RDF知识库的构建17-24
- 2.1 RDF知识库概述17-19
- 2.2 百科词条信息抽取及预处理19-20
- 2.3 构建存储模型RDF知识库20-22
- 2.4 与其他存储模型比较22-23
- 2.5 本章小结23-24
- 第3章 自然语言问句中命名实体识别24-40
- 3.1 统计模型24-27
- 3.1.1 SVM统计模型25-26
- 3.1.2 CRF统计模型26-27
- 3.2 问句中命名实体识别27-34
- 3.2.1 命名实体识别的必要性27-28
- 3.2.2 SVM统计模型中英文特征模板的选取28-29
- 3.2.3 CRF统计模型中英文特征模板的选取29-31
- 3.2.4 构建命名实体识别SVM统计模型31-32
- 3.2.5 构建命名实体识别CRF统计模型32-34
- 3.3 实验结果与分析34-38
- 3.3.1 实验数据与设置34
- 3.3.2 评价标准34-35
- 3.3.3 SVM中英文命名实体识别实验结果35-36
- 3.3.4 CRF中英文命名实体识别实验结果36-38
- 3.4 本章小结38-40
- 第4章 自然语言问句理解40-54
- 4.1 问句语义图的构建40-43
- 4.1.1 语义图的定义40-41
- 4.1.2 构造问句语义图41-43
- 4.2 实体消歧43-44
- 4.3 属性词消歧44-48
- 4.3.1 属性词消歧的重要性44-45
- 4.3.2 文本中的属性词相关词收集45-47
- 4.3.3 基于N-gram的问句中属性词相关词收集47-48
- 4.4 实验结果与分析48-52
- 4.4.1 实验数据集48
- 4.4.2 评价标准48-49
- 4.4.3 各类语音问句理解效果与分析49-52
- 4.5 本章小结52-54
- 第5章 SPARQL查询54-62
- 5.1 SPARQL相关介绍54-55
- 5.2 SPARQL查询算法55-59
- 5.2.1 自然语言问句查询的总体架构55-56
- 5.2.2 Triple Pattern自动生成56-57
- 5.2.3 自然语言问句查询算法57-59
- 5.2.4 SPARQL实例查询59
- 5.3 SPARQL查询实验结果与分析59-60
- 5.4 本章小结60-62
- 结论62-63
- 致谢63-64
- 参考文献64-68
- 攻读硕士学位期间发表的论文及科研成果68
【参考文献】
中国期刊全文数据库 前10条
1 顾潇华;杨杰;陈立勋;;汉语关键词自动转换主题词的方法[J];河北大学学报(自然科学版);2014年03期
2 贾真;尹红风;李天瑞;;中文网络百科开放分类层次结构树及其聚类算法研究[J];计算机应用研究;2013年06期
3 奉国和;;SVM分类核函数及参数选择比较[J];计算机工程与应用;2011年03期
4 缪建明;张全;;一种基于概念关联式的词义消岐方法[J];计算机科学;2010年01期
5 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
6 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
7 崔桓,蔡东风,苗雪雷;基于网络的中文问答系统及信息抽取算法研究[J];中文信息学报;2004年03期
8 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
9 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
10 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
本文关键词:面向多领域大规模知识库的自然语言自动问答研究,,由笔耕文化传播整理发布。
本文编号:325140
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/325140.html