当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于搜索引擎的问答系统的设计与实现

发布时间:2020-10-15 07:11
   随着互联网技术的飞速发展和普及,网络已经成为大部分人获取信息和进行沟通的工具,其在丰富互联网内容、引导我们走向知识时代的同时,也使用户陷入了信息困境。尽管传统搜索引擎和现有的问答系统缓解了用户需求和信息供应的矛盾,但一方面由于搜索引擎返回的结果为相关长文本的集合,用户仍需要手动从中检索出答案;另一方面现有中文问答系统大都基于知识库实现,需单独构建并维护异常庞大的知识库。为了解决上述问题,本文设计并实现了一套面向开放领域的基于搜索引擎的问答系统。本系统划分为Web服务端、问题分析、信息检索、答案抽取、答案合并和答案排序六个模块,其通过分析用户查询意图,从搜索引擎返回的相关文本挖掘出候选答案集,并在对集合元素进行合并、排序后,返回置信度最高的答案。另外,本文针对问题分析、答案排序问题分别提出了基于多粒度词嵌入表示的中文问题分类算法(Multi-granularity Embedding for Chinese Question Classification,MGE-CQC)和基于注意力的多粒度问答匹配算法(Multi-granularity Question Answering Matching with Attention,MQAMA)。MGE-CQC 通过先后对问题进行分词、词性标注、句法结构分析以获取问题的主谓宾等关键词,从中挖掘出各粒度的连续特征,再将问句细粒度的向量表示逐层传递给粗粒度得到问句特征向量,最后通过softmax激活函数输出问题类别;区别于MGE-CQC,MQAMA在特征工程阶段直接求得各粒度下原生问句特征,再引入注意力机制区分开问题中每个词、单字、部首的贡献程度,逐层传递得到问答匹配的关联向量表示,最后输入到sigmoid函数得问答匹配程度。根据算法评估、系统测试结果,本文提出的问题分类、问答匹配算法有效提高了问答准确率,且系统的可用性也得到了验证。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.3
【部分图文】:

序列,中文分词,架构


语言技术平台(LanguageTechnology?Platform,LTP)是哈工大开发的一整套??基于XML文件的面向中文的综合语言处理系统,包括中文分词、词性标注、命??名实体识别、语法解析、词义消歧、语义角色标注六大功能模块,如图2-1,下??文将详细介绍前四个功能模块。?________??DLL?AP!?I?We昭户i耑?可衩化畀面??U_?J?\??—??L?_?—???.■?商法分析?语法分析广?语义分析?'??::?丨??獻-?II!??语料庠??图2-丨L.TP架构图??2.1.1中文分词??中文分词是指将某汉字序列切分为若千个词,再将分好的词按一定规则重组??成对应的词序列的过程。一般中文分词归结为词位分类问题,通常词位信息分为??词首(常记作B)、词中(常记作M)、词尾(常记作E)和单字词(常记作S),??得到词位分类结果后将13和£之间的字以及S单字构成分词结果。例如:“北京??邮电大学是哪年建校的’’经过CRF得到标注序列“北/B京/M邮/M电/M大/M??学/E是/S哪/B年/E建/B校/E的/S”,从而得到对应词序列“北京邮电大学/w〇??是/w;!?哪年/w^建校/w3的/uV’。??LTP分词模块是基于线性链条件随机场(Conditional?Random?Field,?CRF)??模型W实现。通过计算给定汉字序列后对应词序列的联合概率分布,更符合中文??上下文关联密切的特点

句法结构


其基于分词和词性标注结果判断词与词之间的依存关系,从而揭露其句??法结构,即识别出句子的“主谓宾”或“定状补”。??例如:“我们应该抵制学术造假,恪守道德底线。”的句法依存关系如图2-2:?????一^??R〇〇t?我们应该?■鉢造■?.?m?11?m?.??图2-2句法结构分析举例??从分析结果可看出主语是“我们”,而“造假”、“底线”分别是谓语“抵制”和“恪??守”的宾语,“造假”的修饰语是“学术”,“底线”的修饰语是“道德”。有了图2-2句??法分析的结果,就可以清晰地看出“主谓宾”的语法结构。其中关于图中HED、??SBV等语法成分表示,参考表2-3。??表2-3依存句法分析标注??关系类型?|语法成分|?成分描述?举例?^??主谓关系?SBV?主语-动词?我送他一本书(我<-送)??动宾关系?VOB?直接宾语

网络结构图,网络结构,语法成分,修饰语


其基于分词和词性标注结果判断词与词之间的依存关系,从而揭露其句??法结构,即识别出句子的“主谓宾”或“定状补”。??例如:“我们应该抵制学术造假,恪守道德底线。”的句法依存关系如图2-2:?????一^??R〇〇t?我们应该?■鉢造■?.?m?11?m?.??图2-2句法结构分析举例??从分析结果可看出主语是“我们”,而“造假”、“底线”分别是谓语“抵制”和“恪??守”的宾语,“造假”的修饰语是“学术”,“底线”的修饰语是“道德”。有了图2-2句??法分析的结果,就可以清晰地看出“主谓宾”的语法结构。其中关于图中HED、??SBV等语法成分表示,参考表2-3。??表2-3依存句法分析标注??关系类型?|语法成分|?成分描述?举例?^??主谓关系?SBV?主语-动词?我送他一本书(我<-送)??动宾关系?VOB?直接宾语
【相似文献】

相关期刊论文 前10条

1 任梦婷;王娟;阮佩姗;刘振盼;;影响高质量网络问答系统建设的因素[J];物流科技;2016年12期

2 武振国;李艳翠;;植物病虫害智能问答系统设计与实现[J];农业网络信息;2017年01期

3 费建军;;智能问答系统中命名实体识别问题研究[J];数字技术与应用;2017年07期

4 何秀;;智能问答系统的研究与设计[J];南方农机;2017年20期

5 毛先领;李晓明;;问答系统研究综述[J];计算机科学与探索;2012年03期

6 张中峰;李秋丹;;社区问答系统研究综述[J];计算机科学;2010年11期

7 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期

8 张积宾;徐志明;王恒;潘启树;;面向大规模网络数据的社会化问答系统[J];哈尔滨工业大学学报;2008年12期

9 龙新征;欧阳荣彬;彭一明;;高校移动智能问答系统设计与实现[J];中国教育网络;2016年Z1期

10 王芳;滕桂法;赵洋;任力生;张玉新;马建斌;;基于本体的农业问答系统研究[J];农机化研究;2009年01期


相关博士学位论文 前10条

1 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年

2 王树西;基于文本模式推理的问答系统研究[D];中国科学院研究生院(计算技术研究所);2005年

3 路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年

4 廉鑫;社区问答系统中若干关键问题研究[D];南开大学;2014年

5 相洋;问答系统的答案优化方法研究[D];哈尔滨工业大学;2017年

6 魏楚元;开放域问答系统问题理解关键技术研究[D];北京理工大学;2016年

7 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年

8 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年

9 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年

10 王柳;基于服务规划和数据预测的智能问答技术研究[D];北京理工大学;2016年


相关硕士学位论文 前10条

1 江龙泉;基于Attentive LSTM网络模型的答案匹配技术的研究[D];上海师范大学;2018年

2 李东潮;基于深度学习算法的中文文本与SPARQL的转换方法研究[D];电子科技大学;2018年

3 徐成章;基于Word2vec的中文Web智能问答系统的研究与设计[D];电子科技大学;2018年

4 曹燕;基于微服务架构的企业智能问答系统的设计与实现[D];南京大学;2018年

5 张帅帅;基于阅读理解的知识问答系统设计与实现[D];电子科技大学;2018年

6 张为明;基于深度学习和知识表示的问答系统的研究与实现[D];北京邮电大学;2018年

7 江乐;基于搜索引擎的问答系统的设计与实现[D];北京邮电大学;2018年

8 王英涛;基于深度学习的中文论述类问题智能问答系统的研究与实现[D];北京邮电大学;2018年

9 蒋成伟;无人机信息领域智能问答系统的研究与实现[D];北京邮电大学;2018年

10 李婕;面向短信营业厅的智能问答系统设计与实现[D];湖南大学;2016年



本文编号:2841871

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2841871.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b5f72***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com