当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于主题模型的查询扩展技术研究

发布时间:2017-09-27 16:20

  本文关键词:基于主题模型的查询扩展技术研究


  更多相关文章: 查询扩展 主题模型 主题词对 互信息


【摘要】:随着互联网时代的高速发展,大量的信息不断的呈现在互联网上,信息检索已经成为人们获取信息的必要的手段。搜索引擎的出现极大地满足人们的需求,让人们能够轻松地面对互联网上的海量信息。在用户进行检索的时候,影响用户搜索体验的一个重要原因是往往用户在进行搜索的时候的查询词较短,大部分用户在进行搜索的时候常常只用很短的几个关键词,造成查询表达与意图不一致,会大大影响用户的搜索体验。一些学者开始专注于查询扩展技术在信息检索中的应用,该方法利用对用户的初始查询词进行扩展得到新的检索词,从而达到改进检索性能的目的。作为信息检索的一种有效的查询优化方法,查询扩展技术的研究具有重要的意义。在查询扩展的时候,如果得到的扩展词与查询是不相关的,可能降低检索结果。尤其是一个文档可能有多个主题,为了解决这些问题,基于主题模型的查询扩展算法应运而生。基于主题模型的查询扩展方法由于能够很好地考虑到了查询与文档之间的主题语义相关性,逐渐被一些学者关注。本课题对现有基于主题的算法进行了深入的了解和分析,结合了一些研究提出了基于主题互信息和基于主题词对的两种语义查询扩展方法。这两种方法都是通过使用LDA主题模型作为提高检索性能的方法:(1)基于主题互信息的方法不仅利用了查询词与候选词的互信息的同时也考虑到了主题的相关度,该方法解决了基于主题模型的查询扩展方法中主题代表词的选择问题,使用了互信息作为查询词与主题词的相关度保证了主题代表词与查询之间的相关度。(2)基于主题词对的查询扩展方法中,创新性的使用了主题向量作为词对之间的语义相关度,该方法使用词对之间的相似度用作候选词与查询之间的相关度。我们在使用了词对之间的相关度得同时,也引入了词与词之间的Dice相似系数。综合了原查询词和候选扩展词之间的这两方面的相似度的因素。我们把扩展词放入原查询词得到新查询词,进行再次检索,最终得到检索结果。经过实验证明本文提出的两种扩展算法方法相对于RM3、LCA和主题模型查询扩展算法MAP和P@10结果都有明显提升。
【关键词】:查询扩展 主题模型 主题词对 互信息
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第1章 绪论9-16
  • 1.1 课题研究的目的及意义9-11
  • 1.2 国内外相关技术研究现状11-14
  • 1.2.1 查询扩展研究现状11-14
  • 1.2.2 基于主题模型的查询扩展的研究现状14
  • 1.3 本文主要研究内容14-15
  • 1.4 章节内容组织15-16
  • 第2章 查询扩展技术概述16-26
  • 2.1 引言16
  • 2.2 信息检索综述16-19
  • 2.2.1 信息检索模型16-18
  • 2.2.2 检索结果评价18-19
  • 2.3 查询扩展技术方法19-25
  • 2.3.1 基于全局分析的查询扩展19-21
  • 2.3.2 基于局部分析的查询扩展21-23
  • 2.3.3 基于局部上下文的查询扩展23-24
  • 2.3.4 基于语义词典的查询扩展24-25
  • 2.4 本章小结25-26
  • 第3章 基于LDA的查询扩展模型的构建26-40
  • 3.1 引言26
  • 3.2 基于主题模型查询扩展框架26-27
  • 3.3 基于LDA查询扩展构建27-32
  • 3.3.1 LDA主题模型的构建27-29
  • 3.3.2 相关主题的选择29-30
  • 3.3.3 候选扩展词的选择30-31
  • 3.3.4 Rocchio 框架下的查询扩展31-32
  • 3.4 基于主题互信息的扩展词选择方法32-35
  • 3.4.1 基于互信息的主题代表词32-33
  • 3.4.2 候选扩展词的选择33-35
  • 3.4.3 查询词的构建35
  • 3.5 基于主题词对的扩展词选择方法35-39
  • 3.5.1 主题词对的扩展词选择36-37
  • 3.5.2 Dice相似性的权重调节37-38
  • 3.5.3 查询词的构建38-39
  • 3.6 本章小结39-40
  • 第4章 实验结果及对比分析40-54
  • 4.1 引言40
  • 4.2 实验数据及预处理40-44
  • 4.2.1 OHSUMED数据集40-41
  • 4.2.2 文档预处理41-43
  • 4.2.3 查询词筛选43-44
  • 4.3 评价方法44
  • 4.4 实验框架图44-45
  • 4.5 实验结果及分析45-53
  • 4.5.1 参数的选择46-49
  • 4.5.2 实验结果对比分析49-53
  • 4.6 本章小结53-54
  • 结论54-55
  • 参考文献55-59
  • 攻读硕士学位期间发表的论文及其它成果59-61
  • 致谢61

【参考文献】

中国期刊全文数据库 前2条

1 郝水龙;吴共庆;胡学钢;;基于层次向量空间模型的用户兴趣表示及更新[J];南京大学学报(自然科学版);2012年02期

2 宋伟萍;杨建林;;个性化信息检索中的相关反馈技术研究[J];图书情报工作;2008年04期



本文编号:930660

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/930660.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户520c2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com