检索式问答应用的设计与实现
发布时间:2020-06-01 11:51
【摘要】:随着信息时代高速发展,人们对信息获取的准确性和高效性提出了更高的要求,传统的搜索引擎越来越难以满足用户的需求。检索式问答应用逐渐得到更广泛的应用。本文设计和实现了面向Java编程语言的检索式问答应用,可以针对用户提出的Java编程语言的相关问题给出回答。本文首先构建了 Java编程语言领域的问答数据集,而后基于此数据集设计和实现了检索式问答应用。本应用通过Web页面接收用户查询请求,而后分析用户查询意图,在问答数据集中查找相似问题或相关文档,然后对候选答案排序并返回给用户。同时此应用支持用户对“问题-答案相关度”进行评价,并将用户评价作为优化候选答案排序的依据。此应用的信息检索模块采用了基于文本表示的相似问题检索方法以获得候选答案集合;重排序模块中引入了基于机器学习的排序模型以优化答案排序。本文首先介绍了本文的研究背景;基于对问答应用的调研,分析了面向垂直领域的检索式问答应用的需求;接着,本文详细介绍了检索式问答应用的总体设计和各个模块的详细设计,随后对各个模块的实现加以介绍;最后通过一系列测试验证了应用的有效性。
【图文】:
Bag-of-Words,邋CB0W)和连续跃文模型(Continuous邋Skip邋Gram,邋Skip-gram)。逡逑CBOW模型时根据上下文预测当前词语而Skip-gram模型是根据当前语句中的词逡逑语预测上下文的出现概率,模型结构可见图2-1。逡逑输入邋映射逦输出逦输入邋映射逦输出逡逑w(t-2)逦v逦J逦w(l-2)逡逑w(l-1)逦\逦/逦帅?”逡逑逦?邋W(t)逦w(t)邋逦逦?逡逑/?逦K逡逑/逦\逦?.2,逡逑w(卜邋2)逦f逦5逦w(,42)逡逑CBOW逦Skip-gram逡逑图2-1邋CBOW与Skip-gram模型结构图[5]逡逑9逡逑
指根据问题意图分析得出的所需要答案的分类;候选答案指根据与问题的匹配关逡逑系确定的可能适合问题的答案。当前问答应用一般包括三个子模块[9]:问题处理、逡逑文档处理和答案处理,如图2-2所示。逡逑imta逦问题its逡逑写入的话a逦r逦'邋1邋/邋-逦\逡逑——问政结构分析酋逦I逦问is结构分析器逡逑ala邋?黯r?的文逦*邋r邋?逡逑HSS邋I逦j逡逑?逦倌隳检索.素引和数??逦Q逦 ̄Q逡逑?逦神经网络播型逦0逦0逡逑目目目逦;逦^逦n逡逑§§§逦J逦答_逡逑§§§邋\逦〈^|0000P‘s相料的佊财以搖答案逡逑图2-2问答应用模型结构图逡逑其中问题处理模块需要分析问题目以决定问题类型以及此问题的问题焦点,,逡逑这步处理是为了避免答案的模糊性,它主要包括了接收到用户问题、分析问题结逡逑构并分词、将自然语言转换成机器可以处理的形式并进行问题分类。对于答案分逡逑类,可以通过人工和自动的方式:人工手动分类使用很多自定义的规则来划分问逡逑题类型,通过这类规则使问题分类较为准确但同时也是非常耗时,一般问题可以逡逑通过疑问词简单划分为方法类、定义类、地点类、时间类、人物类、原因类等;逡逑而自动的问题分类研宄的是在准确度可接受范围内,当前通常使用基于统计特征逡逑的方法如朴素贝叶斯、基于多粒度词嵌入表示的方法或通过机器学习进行问题分逡逑类,这类方法也可识别出新类型的问题。逡逑不同于针对于每个用户问题进行分词的问题处理步骤,文档处理的主要特征逡逑是选择??组相关文档
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.3;TP311.52
本文编号:2691445
【图文】:
Bag-of-Words,邋CB0W)和连续跃文模型(Continuous邋Skip邋Gram,邋Skip-gram)。逡逑CBOW模型时根据上下文预测当前词语而Skip-gram模型是根据当前语句中的词逡逑语预测上下文的出现概率,模型结构可见图2-1。逡逑输入邋映射逦输出逦输入邋映射逦输出逡逑w(t-2)逦v逦J逦w(l-2)逡逑w(l-1)逦\逦/逦帅?”逡逑逦?邋W(t)逦w(t)邋逦逦?逡逑/?逦K逡逑/逦\逦?.2,逡逑w(卜邋2)逦f逦5逦w(,42)逡逑CBOW逦Skip-gram逡逑图2-1邋CBOW与Skip-gram模型结构图[5]逡逑9逡逑
指根据问题意图分析得出的所需要答案的分类;候选答案指根据与问题的匹配关逡逑系确定的可能适合问题的答案。当前问答应用一般包括三个子模块[9]:问题处理、逡逑文档处理和答案处理,如图2-2所示。逡逑imta逦问题its逡逑写入的话a逦r逦'邋1邋/邋-逦\逡逑——问政结构分析酋逦I逦问is结构分析器逡逑ala邋?黯r?的文逦*邋r邋?逡逑HSS邋I逦j逡逑?逦倌隳检索.素引和数??逦Q逦 ̄Q逡逑?逦神经网络播型逦0逦0逡逑目目目逦;逦^逦n逡逑§§§逦J逦答_逡逑§§§邋\逦〈^|0000P‘s相料的佊财以搖答案逡逑图2-2问答应用模型结构图逡逑其中问题处理模块需要分析问题目以决定问题类型以及此问题的问题焦点,,逡逑这步处理是为了避免答案的模糊性,它主要包括了接收到用户问题、分析问题结逡逑构并分词、将自然语言转换成机器可以处理的形式并进行问题分类。对于答案分逡逑类,可以通过人工和自动的方式:人工手动分类使用很多自定义的规则来划分问逡逑题类型,通过这类规则使问题分类较为准确但同时也是非常耗时,一般问题可以逡逑通过疑问词简单划分为方法类、定义类、地点类、时间类、人物类、原因类等;逡逑而自动的问题分类研宄的是在准确度可接受范围内,当前通常使用基于统计特征逡逑的方法如朴素贝叶斯、基于多粒度词嵌入表示的方法或通过机器学习进行问题分逡逑类,这类方法也可识别出新类型的问题。逡逑不同于针对于每个用户问题进行分词的问题处理步骤,文档处理的主要特征逡逑是选择??组相关文档
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.3;TP311.52
【相似文献】
相关期刊论文 前10条
1 李国鼎;;初中科学网络检索式探究教学的研究[J];科教文汇(下半月);2006年04期
2 崔池新;;怎样编写检索式[J];情报科学;1987年01期
3 肖飞;武振业;;对计算机辅助工艺设计(CAPP)系统的探讨[J];西南交通大学学报;1989年03期
4 王怀诗;曹惠娟;;检索式学习:意义、方式与发展[J];中国远程教育;2009年04期
5 汪明;张睦楚;;检索式学习:教师专业发展之有效路径[J];当代教育科学;2015年21期
6 丘益光;;MEDLINE光盘数据库检索式结构与功能研究[J];情报学刊;1992年03期
7 张贝妮;王军;;数字图书馆中的检索式扩展方法研究[J];计算机应用研究;2006年04期
8 吴天行;起重机用检索式力矩限制器[J];工程机械;1992年09期
9 陈祖琴;;基于引用标注的检索式修正方法研究[J];情报科学;2014年09期
10 何涛;王桂芳;杨美妮;郭楷模;;基于词嵌入语义的精准检索式构建方法[J];现代情报;2018年11期
相关硕士学位论文 前4条
1 蔡慧;检索式问答应用的设计与实现[D];北京邮电大学;2019年
2 王辉;检索式数字水位数据采集系统的研究[D];太原理工大学;2008年
3 杨梅;智能化后控词表的研究与设计[D];新疆大学;2008年
4 王君;甜菜害虫专家系统的设计与实现[D];甘肃农业大学;2005年
本文编号:2691445
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2691445.html