当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于语义的网络搜索查询处理和查询扩展技术研究

发布时间:2017-05-25 18:24

  本文关键词:基于语义的网络搜索查询处理和查询扩展技术研究,由笔耕文化传播整理发布。


【摘要】:随着人们对信息检索的要求越来越高,单单依靠倒排索引和词匹配技术的搜索引擎,在用户输入的查询语句普遍比较短,不能详细而准确描述查询意图的情况下,返回给用户的结果会出现错误和遗漏问题。由此,查询扩展、查询推荐等成为信息检索的研究对象和热点。不管是使用知识库还是分析语料库来获取查询扩展词的方法都有相应的缺陷,为此,本文提出了基于随机游走模型的自动查询扩展方法,同时分析了针对元搜索的自动查询扩展方法。另外,绝大部分的研究可能忽略了一个问题,就是有时候用户不知道应该输入怎样的查询语句通过搜索引擎去获取其想要的信息,很多情况发生的是搜索引擎并不能理解用户查询语句的搜索意图。为此本文提出了基于互动百科知识的语义逻辑引导的查询处理方法,充分利用三元组数据的特点来处理带语义逻辑的查询语句。本文的创新点包括: 1)提出了基于互动百科知识的语义逻辑引导的查询处理方法。将互动百科网页文档上的结构化知识抽象为三类:实例、关系和术语,基于这三类知识之间的三元组关系,结合语义逻辑符号,帮助用户构造更清晰的查询语句,同时能够处理查询语句中的相似等一般搜索引擎不能处理的逻辑。在已实现的语义逻辑引导的搜索的原型系统上,通过用户参与,实验表明,使用DOM规律抓取互动百科知识的准确率达到了90%,语义逻辑引导的搜索,其Top10的文档准确性比未引导的高出6个百分点左右。 2)提出了基于随机游走模型的自动查询扩展方法。结合词语之间的词汇和语义上的多种关联,包括大型通用语料库和初检Top-N文档中的词共现、同义词、语义分类树中的上下位关系。通过不同链接类型不同组合下的随机游走算法之间,以及与伪相关的局部上下文查询扩展方法的实验比较,证明了结合了四种链接类型的随机游走方法与未进行自动查询扩展的情况相比,前者的综合评估F值要比后者高出8个百分点左右,同时,与伪相关的局部上下文分析方法相比,在确保提高准确率的情况下,同时也提高了召回率,保证了信息检索整体的稳步提升,增强了自动查询扩展的鲁棒性。 3)在查询多样化方面,基于互动百科海量的语义分类知识,针对模糊的查询语句,检索不同语义下的文档,对文档分类后,借助自动摘要技术,将分类摘要和分类文档可视化。从而帮助用户快速找到信息。
【关键词】:查询处理 查询扩展 语义逻辑 随机游走 互动百科知识 搜索多样性
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要6-8
  • ABSTRACT8-13
  • 第一章 绪论13-17
  • 1.1 研究背景和意义13-14
  • 1.2 本文的主要工作14-16
  • 1.3 本文的组织结构16
  • 1.4 本章小结16-17
  • 第二章 国内外研究现状17-34
  • 2.1 自动化查询扩展17-30
  • 2.1.1 数据预处理17-18
  • 2.1.2 候选词的产生和排序18-23
  • 2.1.3 扩展词的选择23-25
  • 2.1.4 查询语句重构25-26
  • 2.1.5 自动化查询扩展方法的分类26-28
  • 2.1.6 自动化查询扩展的关键问题和研究趋势28-30
  • 2.1.7 小结30
  • 2.2 元搜索的自动化查询扩展30-32
  • 2.2.1 元搜索30
  • 2.2.2 元搜索的自动查询扩展30-32
  • 2.2.3 小结32
  • 2.3 搜索的多样性32-33
  • 2.3.1 文档分类33
  • 2.3.2 小结33
  • 2.4 本章小结33-34
  • 第三章 基于互动百科的语义逻辑引导的查询处理34-44
  • 3.1 相关研究34-35
  • 3.2 互动百科知识35-37
  • 3.3 语义逻辑引导的查询处理37-41
  • 3.3.1 语义逻辑符号37-39
  • 3.3.2 语义逻辑引导的搜索39-40
  • 3.3.3 短语的相似度和知识匹配40-41
  • 3.4 原型系统实现和实验分析41-43
  • 3.5 本章小结43-44
  • 第四章 基于随机游走的自动查询扩展44-51
  • 4.1 随机游走模型44-46
  • 4.2 基于随机游走模型的查询扩展46-47
  • 4.3 链接类47-49
  • 4.4 基于随机游走算法的查询扩展实施49-50
  • 4.4.1 查询扩展实施流程49
  • 4.4.2 构建查询语句49-50
  • 4.5 本章小结50-51
  • 第五章 实验与分析51-58
  • 5.1 实验环境和实验数据51-53
  • 5.1.1 实验环境51
  • 5.1.2 数据集51-53
  • 5.1.3 实验数据处理53
  • 5.2 实验方案53-55
  • 5.2.1 评测标准53-54
  • 5.2.2 伪相关的局部上下文分析查询扩展方法54
  • 5.2.3 不同链接类型的不同组合方案54-55
  • 5.3 实验结果与分析55-57
  • 5.3.1 实验参数设置55
  • 5.3.2 实验结果及分析55-57
  • 5.4 本章小结57-58
  • 第六章 基于语义扩展及关系挖掘的智能搜索引擎研究58-65
  • 6.1 智能搜索引擎系统架构58-59
  • 6.2 模块功能59-62
  • 6.2.1 搜索引擎及排名整合59
  • 6.2.2 语言处理59
  • 6.2.3 自动摘要59-60
  • 6.2.4 查询扩展60
  • 6.2.5 关系挖掘60-61
  • 6.2.6 知识支持系统61
  • 6.2.7 Hadoop分布式系统61
  • 6.2.8 用户交互界面61-62
  • 6.3 搜索引擎的搜索多样性62-64
  • 6.4 本章小结64-65
  • 第七章 总结65-67
  • 7.1 论文总结65
  • 7.2 下一步工作和展望65-67
  • 附录67-68
  • 参考文献68-72
  • 后记72

【相似文献】

中国期刊全文数据库 前10条

1 王明文,聂建云;基于Dempster-Shafer理论的查询扩展模型(英文)[J];江西师范大学学报(自然科学版);2005年03期

2 章旭;石进;谢立;;基于相似性叙词表的模糊集合模型[J];计算机科学;2008年09期

3 闭剑婷;苏一丹;;基于潜在语义分析的跨语言查询扩展方法[J];计算机工程;2009年10期

4 申丽平;;WordNet在查询扩展中的应用研究[J];科技信息;2009年14期

5 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期

6 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期

7 王会进,陈超华,李清;基于动态知识库搜索引擎的技术[J];暨南大学学报;2004年01期

8 牟力科;张蕾;张晓孪;;基于概念图的用户兴趣查询扩展模型的研究[J];计算机工程与应用;2008年06期

9 陈晓金;王兵;;信息检索扩展技术研究[J];图书情报工作;2008年12期

10 李小琳;陆汝占;;基于日志挖掘的查询概念图扩展[J];计算机应用与软件;2010年03期

中国重要会议论文全文数据库 前10条

1 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年

2 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

3 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

4 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年

5 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年

6 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

7 黄名选;;基于正负关联规则挖掘的局部反馈查询扩展[A];第六届全国信息检索学术会议论文集[C];2010年

8 邵兵;关毅;王强;王晓龙;任瑞春;;基于上下文平均互信息的问句查询扩展模型[A];第二届全国学生计算语言学研讨会论文集[C];2004年

9 黄佳来;王立波;袁道敏;;基于语义相似度的查询扩展研究[A];浙江省电子学会2008年学术年会论文集[C];2008年

10 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

中国重要报纸全文数据库 前1条

1 彭遂莅 李涛;成都公开保险营销员信用信息[N];中国保险报;2011年

中国博士学位论文全文数据库 前10条

1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年

2 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年

3 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年

4 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年

5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

6 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年

7 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年

8 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年

9 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年

10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年

中国硕士学位论文全文数据库 前10条

1 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年

2 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年

3 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年

4 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年

5 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年

6 于水;专利术语知识库的建立与应用[D];沈阳航空工业学院;2010年

7 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年

8 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年

9 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年

10 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年


  本文关键词:基于语义的网络搜索查询处理和查询扩展技术研究,,由笔耕文化传播整理发布。



本文编号:394646

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/394646.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3133d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com