当前位置:主页 > 科技论文 > 软件论文 >

基于非结构化文档的开放域自动问答系统技术研究

发布时间:2018-12-15 07:22
【摘要】:自动问答系统能够根据用户输入的自然语言问题,直接返回精确的答案。本文的研究方向是基于非结构化文档的开放域自动问答系统,其特点是背后的数据源是非结构化的文档库,面向的问题是通用问题,并不局限于某个领域。典型的基于非结构化文档的开放域自动问答系统一般由问题处理模块、文档处理模块和答案处理模块三个部分组成,其主要存在两个问题,第一是文档处理模块返回的段落候选集规模过大导致答案处理模块准确率降低。第二是基于规则的答案抽取过于繁琐,灵活性差。针对第一个问题,本文使用句子筛选和句子排序模块将段落候选集缩减为单个的答案句子。针对第二个问题,本文使用了端到端的深度神经网络模型代替传统的基于规则的答案抽取算法。针对句子筛选模块,本文改进了一种计算文档相似度的算法Word Mover's Distance(WMD),并提出了一种将BM25和WMD结合的混合模型。本文分别进行了文档分类和文本排序实验。实验结果表明,改进后的WMD算法和混合模型比其他基准算法有更好的效果。针对句子排序模块,本文设计了五种特征来衡量问句和候选答案句子之间的相关性,并以此相关性得分对候选答案句子进行排序。这些特征包含了不同的级别。该模型称为Multiple Level Feature Rank(MLFR)模型。本文测试并对比了若干基于深度神经网络的句子排序模型。实验结果表明,MLFR模型有更好的排序效果。最后,本文引入了一个端到端的深度神经网络模型用于答案抽取,并将此模型与前面的句子筛选和句子排序模块组合在一起,设计实验进行了整体的性能评估。本文对典型的基于非结构化文档的开放域自动问答系统中存在的问题提出了相应的解决方案,改进了计算文档相似度的相关算法,提出了一种基于多级特征的句子排序模型(MLFR),同时引入了一种端到端深度神经网络来进行答案抽取。实验结果表明,本文的解决方案是行之有效的。
[Abstract]:The automatic question answering system can return the exact answer directly according to the user input natural language question. The research direction of this paper is an open domain automatic question answering system based on unstructured documents. Its characteristic is that the data source behind it is an unstructured document library, and the problem oriented is a general problem, which is not limited to a certain field. A typical open domain question answering system based on unstructured documents is generally composed of three parts: question processing module, document processing module and answer processing module. There are two main problems in the system. The first is that the size of the paragraph candidate set returned by the document processing module is too large to reduce the accuracy of the answer processing module. The second is that the rule-based answer extraction is too cumbersome and inflexible. For the first question, this paper uses sentence filter and sentence sorting module to reduce the candidate set of paragraphs to a single answer sentence. To solve the second problem, the end-to-end depth neural network model is used to replace the traditional rule-based answer extraction algorithm. For sentence filtering module, this paper improves a document similarity algorithm, Word Mover's Distance (WMD), and proposes a hybrid model combining BM25 and WMD. The experiments of document classification and text sorting are carried out in this paper. Experimental results show that the improved WMD algorithm and the hybrid model are more effective than other benchmark algorithms. For sentence sorting module, this paper designs five features to measure the correlation between question sentence and candidate answer sentence, and sorts the candidate answer sentence with this correlation score. These features include different levels. This model is called Multiple Level Feature Rank (MLFR) model. This paper tests and compares some sentence ordering models based on depth neural network. The experimental results show that the MLFR model has better sorting effect. Finally, this paper introduces an end-to-end deep neural network model for answer extraction, and combines the model with the previous sentence filter and sentence sorting modules, and designs the experiment to evaluate the overall performance of the model. In this paper, we propose a solution to the problems in a typical open domain automatic question answering system based on unstructured documents, and improve the algorithm of calculating document similarity. In this paper, a sentence sorting model based on multilevel features, (MLFR), is proposed, and an end-to-end depth neural network is introduced to extract the answers. The experimental results show that the solution is effective.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期

2 苏芳仲;林世平;;基于事例推理的中文自动问答系统研究[J];福建电脑;2006年06期

3 刘里;曾庆田;;自动问答系统研究综述[J];山东科技大学学报(自然科学版);2007年04期

4 孔令玉;;国外跨语言自动问答系统研究综述[J];现代情报;2008年10期

5 王婧;;基于自动问答技术的智能文本机器人[J];科技创业家;2013年08期

6 卢炳卫;;关于自动问答技术的研究[J];农业图书情报学刊;2006年01期

7 夏凌;魏祖雪;;自动问答系统及其评测(英文)[J];西华大学学报(自然科学版);2007年02期

8 黄建岗;张爱华;;教务门户网自动问答系统的设计与实现[J];电脑知识与技术;2009年36期

9 骆正华,樊孝忠,夏天;基于结构化问句实例的自动问答系统[J];微电子学与计算机;2005年07期

10 李照亮;张琳;;基于招生领域自动问答系统的问题理解的研究[J];电脑知识与技术;2009年10期

相关会议论文 前3条

1 高俊杰;李茹;李双红;;基于领域本体的自动问答系统关键技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 张耀允;王晓龙;王轩;徐睿峰;侯永帅;范士喜;;面向开放的限定领域的交互式问答语料分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 刘国刚;;人工智能客户服务体系的研究与实现[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年

相关博士学位论文 前2条

1 于士涛;基于问答网络论坛知识体系的自动问答系统研究[D];南开大学;2009年

2 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年

相关硕士学位论文 前10条

1 吴安峻;面向自动问答的短问题分类研究[D];西南交通大学;2015年

2 王正华;自动问答系统的研究与实现[D];西南科技大学;2015年

3 舒德华;基于Scrapy爬取电商平台数据及自动问答系统的构建[D];华中师范大学;2016年

4 赵洁;基于搜索引擎的中文自动问答系统的设计与实现[D];北京工业大学;2016年

5 魏婷婷;政务通统一互动平台设计与实现[D];江西农业大学;2016年

6 赵龙;英文自动问答系统中数值型问句的理解研究[D];大连海事大学;2016年

7 蔡亚林;自动问答系统中数值型答案整合研究[D];大连海事大学;2016年

8 温思琦;基于本体的中医冠心病自动问答系统的设计与实现[D];沈阳工业大学;2017年

9 徐灿;基于非结构化文档的开放域自动问答系统技术研究[D];浙江大学;2017年

10 王振佶;面向销售服务的自动问答系统的设计与实现[D];电子科技大学;2011年



本文编号:2380242

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2380242.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ce5a8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com