面向特定域智能问答系统的研究与应用
发布时间:2021-10-26 21:26
在互联网时代,搜索引擎成为人们获取信息的主要方式。人们只需要输入想查阅的关键词,搜索引擎即可返回相关的网页。然而,搜索引擎也有一些不足,比如关联页面多、内容繁琐等。因此,需要一种更为简单高效的获取信息的方式,故问答系统应运而生。面对网络的海量信息,特定域问答系统因其可行性高和用途广泛而备受关注。本文致力于面向特定域智能问答系统的研究,主要研究内容分为以下三个部分。(1)针对特定域的知识库自动构建方法。首先提出一种基于SVM及文本密度的网页信息提取方法,通过该方法可以有效定位网页正文信息并自动爬取;其次提出了一种文本主题划分及TextRank中心句提取的方法,该方法会自动对文本主题的中心句进行提取,并将中心句作为问答信息存储到知识库中;本文提出的知识库自动构建方法在实验和实际应用中都取得了良好的效果。(2)基于特定域的知识库检索的智能问答。采用布尔倒排序索引法从知识库过滤出候选回复集,然后使用相似度算法对候选回复集进行精确筛选得到最佳回复并返还给用户;本文提出了一种基于词向量及位置编码的Jaccard的相似度算法,实验结果表明,该方法不仅有较高的准确率,而且对词序有较好的辨识能力。(3)...
【文章来源】:青岛科技大学山东省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
论文结构框架
青岛科技大学研究生学位论文13(1)先对网页进行预处理并生成DOM树。(2)遍历DOM树获得文本块并加入到队列中。(3)利用特征提取器对每个文本块进行密度特征提龋(4)将文本块密度特征输入到SVM数据模型中,返回相应结果R。(5)保存R>0的文本块(R为结果值,R<0:噪音块,R>0:正文块)。根据上述方法,得到正文块的具体步骤如图2-1所示:图2-1正文块分类模型流程图Figure2-1Flowchartoftextblockclassificationmodel2.1.3正文块内降噪经过上述步骤处理之后,就可以获得正文块。但正文块中仍有一些需要去除的噪声信息。研究分析发现块内噪音一般存在以下特点:(1)噪音信息不会太长,通常只有几个词,而且不包含标点符号信息。(2)它通常存在于正文块的头部或尾部,并且不会出现在混淆文本内容的段落。
青岛科技大学研究生学位论文15图2-2正文段落分类模型流程图Figure2-2Flowchartofbodyparagraphclassificationmodel根据上述步骤处理后得到的正文段落的纯度比较高,可以很大程度上满足特定域知识库对数据纯度的要求,并为开展下一步工作提供了很大的帮助。2.2文本中心句抽取方法根据用户调查发现,用户更加容易接受简短明了的信息,长篇的叙述会影响用户的体验度。爬取后的文本内容因涉及主题多,信息内容繁杂,因此无法直接作为答案返给用户。因此本章提出一种文本主题划分与TextRank中心句抽取的方法,先将文本段落划分主题,然后对不同主题进行提取中心句,中心句是当前主题的精华所在,一定程度上代表主题思想,这样可以精简文章内容,从而达到简化答案,提高问答系统回复质量的效果。2.2.1词向量模型Mikolo等人[67]在2013年提出CBOW和Skip-gram两种模型。同时也成为
【参考文献】:
期刊论文
[1]一种基于SVM及文本密度特征的网页信息提取方法[J]. 周艳平,李金鹏,宋群豹. 计算机应用与软件. 2019(10)
[2]基于同义词词林的句子语义相似度方法及其在问答系统中的应用[J]. 周艳平,李金鹏,蔡素. 计算机应用与软件. 2019(08)
[3]基于深度学习的开放领域对话系统研究综述[J]. 陈晨,朱晴晴,严睿,柳军飞. 计算机学报. 2019(07)
[4]基于词向量的Jaccard相似度算法[J]. 田星,郑瑾,张祖平. 计算机科学. 2018(07)
[5]基于结构相似网页聚类的正文提取算法研究[J]. 王海涌,冯兆旭,杨海波,张津栋. 计算机工程与应用. 2018(11)
[6]基于知识图谱的智能客服系统研究[J]. 饶竹一,张云翔. 电力信息与通信技术. 2017(07)
[7]基于Web的问答系统综述[J]. 李舟军,李水华. 计算机科学. 2017(06)
[8]中文短文本语法语义相似度算法[J]. 廖志芳,周国恩,李俊锋,刘飞,蔡飞. 湖南大学学报(自然科学版). 2016(02)
[9]基于语义关联的文本分类研究[J]. 张浩,谢飞. 合肥工业大学学报(自然科学版). 2011(10)
[10]多主题文本摘要抽取的研究与实现[J]. 廖涛,刘宗田,王利. 计算机工程. 2011(06)
硕士论文
[1]限定域问答系统自动建库及检索研究与系统设计实现[D]. 李倩倩.哈尔滨工业大学 2017
本文编号:3460220
【文章来源】:青岛科技大学山东省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
论文结构框架
青岛科技大学研究生学位论文13(1)先对网页进行预处理并生成DOM树。(2)遍历DOM树获得文本块并加入到队列中。(3)利用特征提取器对每个文本块进行密度特征提龋(4)将文本块密度特征输入到SVM数据模型中,返回相应结果R。(5)保存R>0的文本块(R为结果值,R<0:噪音块,R>0:正文块)。根据上述方法,得到正文块的具体步骤如图2-1所示:图2-1正文块分类模型流程图Figure2-1Flowchartoftextblockclassificationmodel2.1.3正文块内降噪经过上述步骤处理之后,就可以获得正文块。但正文块中仍有一些需要去除的噪声信息。研究分析发现块内噪音一般存在以下特点:(1)噪音信息不会太长,通常只有几个词,而且不包含标点符号信息。(2)它通常存在于正文块的头部或尾部,并且不会出现在混淆文本内容的段落。
青岛科技大学研究生学位论文15图2-2正文段落分类模型流程图Figure2-2Flowchartofbodyparagraphclassificationmodel根据上述步骤处理后得到的正文段落的纯度比较高,可以很大程度上满足特定域知识库对数据纯度的要求,并为开展下一步工作提供了很大的帮助。2.2文本中心句抽取方法根据用户调查发现,用户更加容易接受简短明了的信息,长篇的叙述会影响用户的体验度。爬取后的文本内容因涉及主题多,信息内容繁杂,因此无法直接作为答案返给用户。因此本章提出一种文本主题划分与TextRank中心句抽取的方法,先将文本段落划分主题,然后对不同主题进行提取中心句,中心句是当前主题的精华所在,一定程度上代表主题思想,这样可以精简文章内容,从而达到简化答案,提高问答系统回复质量的效果。2.2.1词向量模型Mikolo等人[67]在2013年提出CBOW和Skip-gram两种模型。同时也成为
【参考文献】:
期刊论文
[1]一种基于SVM及文本密度特征的网页信息提取方法[J]. 周艳平,李金鹏,宋群豹. 计算机应用与软件. 2019(10)
[2]基于同义词词林的句子语义相似度方法及其在问答系统中的应用[J]. 周艳平,李金鹏,蔡素. 计算机应用与软件. 2019(08)
[3]基于深度学习的开放领域对话系统研究综述[J]. 陈晨,朱晴晴,严睿,柳军飞. 计算机学报. 2019(07)
[4]基于词向量的Jaccard相似度算法[J]. 田星,郑瑾,张祖平. 计算机科学. 2018(07)
[5]基于结构相似网页聚类的正文提取算法研究[J]. 王海涌,冯兆旭,杨海波,张津栋. 计算机工程与应用. 2018(11)
[6]基于知识图谱的智能客服系统研究[J]. 饶竹一,张云翔. 电力信息与通信技术. 2017(07)
[7]基于Web的问答系统综述[J]. 李舟军,李水华. 计算机科学. 2017(06)
[8]中文短文本语法语义相似度算法[J]. 廖志芳,周国恩,李俊锋,刘飞,蔡飞. 湖南大学学报(自然科学版). 2016(02)
[9]基于语义关联的文本分类研究[J]. 张浩,谢飞. 合肥工业大学学报(自然科学版). 2011(10)
[10]多主题文本摘要抽取的研究与实现[J]. 廖涛,刘宗田,王利. 计算机工程. 2011(06)
硕士论文
[1]限定域问答系统自动建库及检索研究与系统设计实现[D]. 李倩倩.哈尔滨工业大学 2017
本文编号:3460220
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3460220.html
最近更新
教材专著