基于马尔科夫随机游走模型的query-doc关联挖掘
发布时间:2017-09-28 01:11
本文关键词:基于马尔科夫随机游走模型的query-doc关联挖掘
更多相关文章: 关联关系 搜索行为 马尔科夫随机游走 查询推荐 检索结果聚类
【摘要】:万维网的发展带来了信息爆炸式的增长,人们的日常生活已离不开搜索引擎这一伟大的时代产物。目前为止,Google、百度等通用搜索引擎经过十多年的发展,在功能上已经相当完善,搜索准确度等方面的性能也在不断提升。尽管这些商用搜索引擎已经取得了很大成功,但搜索结果的相关性仍有待提升,目前大多数用户依旧需要多次调整搜索词才能找到自己真正需要的信息,搜索结果缺乏个性化。如何才能扩大相关搜索结果的召回并提升搜索结果与查询间的相关性,为用户提供更加合理的搜索结果动态排名成了当前亟待解决的问题之一。 本文的动机是考虑和应用用户点击信息,,提出一种基于用户点击日志的关联关系挖掘算法,该方法通过挖掘点击日志中的点击数据,Session数据,挖掘出点击日志中某个query用户没有点击到的相关doc数据,从而预测出query和doc间隐含的关联关系,同时也可以利用该算法挖掘出query和query潜在的关联关系。Query和doc之间的关联关系是搜索引擎期望获取的重要信息。query和doc间准确的关联分析不仅可以帮助搜索结果排序,而且也在query和doc之间架设了桥梁,以实现相关query和doc之间的信息传递,有利于更深入的query理解和doc理解,并在此基础上开展相关应用。在检索排序方面,本文给出的算法能够计算得到query-doc之间的隐含关联关系,这一关系可以直接作为排序学习的一个参考因素,实现更人性化的动态排序。 通过大量的实验对比,该系统在各方面均取得了优异的表现,实验部分,我们对文中提到的算法进行了相关结果对比,结果显示,对检索结果相关性的性能提升可以达到71.23%,这充分表明,本文所提出的理论和算法能够很好地解决query和doc之间的隐含关系挖掘问题,为提高搜索结果的召回率、实现查询推荐和检索结果聚类奠定了良好的前提基础。
【关键词】:关联关系 搜索行为 马尔科夫随机游走 查询推荐 检索结果聚类
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 提要4-5
- 摘要5-8
- Abstract8-13
- 第1章 绪论13-20
- 1.1 研究的背景及意义13-14
- 1.2 国内外发展现状14-16
- 1.2.1 搜索引擎的发展历程14-15
- 1.2.2 大规模机器学习技术在搜索引擎中的应用15-16
- 1.2.3 查询推荐研究现状16
- 1.3 研究目的16-17
- 1.4 相关性研究17-18
- 1.5 本文主要内容及章节安排18-20
- 第2章 相关技术简介20-33
- 2.1 海量数据处理工具 HADOOP20-22
- 2.2 增强学习与控制22-29
- 2.2.1 马尔科夫决策过程22-26
- 2.2.2 值迭代与政策迭代26-27
- 2.2.3 学习一个 MDP 模型27-29
- 2.3 马尔科夫随机游走模型29-33
- 2.3.1 马尔科夫随机游走29-30
- 2.3.2 带自转移的马尔科夫随机游走模型30-31
- 2.3.3 带随机跳转的马尔科夫随机游走模型31-32
- 2.3.4 带重新启动的马尔科夫随机游走模型32-33
- 第3章 基于马尔科夫随机游走模型的 QUERY-DOC 关联挖掘算法设计33-39
- 3.1 点击图上的随机游走模型33-34
- 3.2 点击图上的前向与后向计算模型34-35
- 3.3 QUERY-DOC 关联关系挖掘算法35-39
- 3.3.1 迭代计算的步长36
- 3.3.2 算法优化36-37
- 3.3.3 置信度37-38
- 3.3.4 裁剪与剪枝策略38-39
- 第4章 算法实现与测试39-48
- 4.1 基于点击图的 QUERY-DOC 关联挖掘系统设计与实现39-46
- 4.1.1 系统开发环境39
- 4.1.2 挖掘系统总体设计方案39
- 4.1.3 预处理系统实现与测试39-44
- 4.1.4 关联关系挖掘系统实现44-46
- 4.2 系统测试46-48
- 第5章 实验与结果分析48-61
- 5.1 实验准备48-49
- 5.1.1 数据集48
- 5.1.2 数据预处理48-49
- 5.1.3 实验环境49
- 5.2 实验结果49-59
- 5.2.1 不同迭代次数的影响49-50
- 5.2.2 实验整体效果50-55
- 5.2.3 对比实验55-59
- 5.3 实验相关说明59-61
- 第6章 总结与展望61-63
- 参考文献63-65
- 附录65-67
- 作者简介及在学期间取得的科研成果67-68
- 后记和致谢68
【参考文献】
中国期刊全文数据库 前2条
1 常利军;于旭;秦璐;;Context-Sensitive Document Ranking[J];Journal of Computer Science & Technology;2010年03期
2 李文清;孙新;张常有;冯烨;;一种本体概念的语义相似度计算方法[J];自动化学报;2012年02期
本文编号:932946
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/932946.html