基于信息抽取问答系统的研究与实现
发布时间:2017-09-28 07:31
本文关键词:基于信息抽取问答系统的研究与实现
更多相关文章: 问答系统 信息抽取 实体关系 命名实体 层次法
【摘要】:目前世界正处在一个信息爆炸时代,网络资源以几何形式迅速增长。人们可以通过搜索引擎很容易从互联网上获取信息,但是由于传统的搜索引擎仅以关键词组合进行检索和其返回的结果是一堆网页等缺点,导致传统搜索引擎已经不能够满足人们的信息检索需求。问答系统融合信息检索和自然语言处理等技术的优点,通过以自然语言形式的问句作为输入,采用自然语言处理技术深层次分析用户的检索意图,然后根据意图从知识库中定位答案,最后直接将答案抽取出来,而不是一堆相关的网页。所以问答系统是一种能更好地满足人们信息检索需求的方式。本文对问答系统的关键技术进行了研究,并且实现了一个基于信息抽取技术的问答系统,主要工作如下:第一、信息抽取引擎研究。本文系统抽取引擎分为自然语言处理和信息抽取两部分,自然语言处理实现分词、词性标注、语义分析等,信息抽取实现命名实体识别和实体关系抽取。命名实体和实体关系对本系统的问题分析和答案提取有重要影响,并且信息抽取引擎伴随着问答系统的整个过程。第二、问题分析。本文提出利用关键词抽取、命名实体识别及命名实体间关系识别等信息抽取技术分析问题,将问题划分为三类:实体关系型、实体型和关键词型。对于实体关系型和实体型问句,还可以根据具体的实体关系或实体,将问句进行更加细致的分类。第三、答案抽取。本文提出了基于层次法的答案提取算法,按照实体关系型→实体型→关键词型层顺序获得短语级和句子级答案集,利用基础特征(相同关键词频度,关键词间距,最长字符串匹配)、命名实体匹配和实体关系匹配特征进行重排序,获得最佳答案。并且对于实体关系型问题,通过匹配问题和候选答案的实体关系三元组,直接获得答案。第四、系统实现。设计并实现了基于信息抽取问答系统。利用Lucene实现建立索引和查找,并且部署在Hadoop平台上,提高了建立索引和查找的速率。
【关键词】:问答系统 信息抽取 实体关系 命名实体 层次法
【学位授予单位】:西安邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要3-4
- ABSTRACT4-8
- 第1章 绪论8-12
- 1.1 背景8
- 1.2 研究现状8-10
- 1.2.1 国外研究现状9-10
- 1.2.2 国内研究现状10
- 1.3 本文主要研究内容10
- 1.4 本文结构10-12
- 第2章 相关概念和关键技术12-22
- 2.1 信息抽取技术12-14
- 2.1.1 信息抽取技术概述12-14
- 2.1.2 命名实体识别14
- 2.2 经典的信息检索模型14-16
- 2.2.1 布尔逻辑模型14-15
- 2.2.2 模糊逻辑模型15
- 2.2.3 向量空间模型15-16
- 2.2.4 概率检索模型16
- 2.3 问题分类技术研究16-19
- 2.3.1 问句分类体系16-17
- 2.3.2 问句分类模型17-19
- 2.4 句子相似度研究19-21
- 2.4.1 基于语义的句子相似度算法20
- 2.4.2 基于句法分析的句子相似度算法20-21
- 2.4.3 基于编辑距离的句子相似度算法21
- 2.5 本章小结21-22
- 第3章 基于信息抽取问答系统中关键技术研究22-36
- 3.1 信息抽取引擎22-27
- 3.1.1 词性标注和分词22-23
- 3.1.2 命名实体识别23-25
- 3.1.3 实体关系信息抽取25-26
- 3.1.4 实体信息抽取系统性能测试26-27
- 3.2 基于问点的问题分类方法27-29
- 3.2.1 去除停用词27
- 3.2.2 关键词提取27-28
- 3.2.3 关键词扩展28
- 3.2.4 基于问点的问题分类方法28-29
- 3.3 基于层次的答案提取算法29-33
- 3.3.1 基础特征30-31
- 3.3.2 NE过滤特征31-32
- 3.3.3 CE提取特征32
- 3.3.4 重排序设计32-33
- 3.4 基于层次答案提取算法实验分析33-34
- 3.4.1 实验方案33
- 3.4.2 实验结果分析33-34
- 3.5 本章小结34-36
- 第4章 基于信息抽取问答系统设计与实现36-50
- 4.1 基于信息抽取问答系统框图36-37
- 4.2 基于信息抽取问答系统主要模块设计37-42
- 4.3 基于信息抽取问答系统实现42-47
- 4.3.1 开发环境与工具的简介42-44
- 4.3.2 各模块实现44-47
- 4.4 系统测试47-48
- 4.4.1 测试方案47
- 4.4.2 系统测试及分析47-48
- 4.5 本章小结48-50
- 第5章 总结与展望50-52
- 5.1 总结50
- 5.2 展望50-52
- 参考文献52-56
- 攻读硕士学位期间取得的研究成果56-58
- 致谢58-59
【相似文献】
中国期刊全文数据库 前10条
1 毛先领;李晓明;;问答系统研究综述[J];计算机科学与探索;2012年03期
2 莫丽萍,王树西,姜吉发,雷雨霞;问答系统和浅层结构模式推理[J];广西师范大学学报(自然科学版);2004年01期
3 卢志坚,张冬茉;中文问答系统中的问句理解[J];计算机工程;2004年18期
4 王树西;问答系统:核心技术、发展趋势[J];计算机工程与应用;2005年18期
5 林晓庆;;问答系统中基于列表类问题的研究[J];电脑知识与技术(学术交流);2007年07期
6 张积宾;徐志明;王恒;潘启树;;面向大规模网络数据的社会化问答系统[J];哈尔滨工业大学学报;2008年12期
7 贾君枝;毛海飞;;汉语框架网络问答系统问句处理研究[J];图书情报工作;2008年10期
8 胡小华;刘轩;刘丹;陆伟;;基于冗余的仿真问答系统的轻量级局部文本分析[J];图书情报知识;2009年01期
9 张中峰;李秋丹;;社区问答系统研究综述[J];计算机科学;2010年11期
10 陈玉;;基于“为什么”问句的中文问答系统研究[J];农业网络信息;2010年11期
中国重要会议论文全文数据库 前10条
1 何靖;陈,
本文编号:934623
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/934623.html