检索结果多样化及其评测方法研究

发布时间:2017-04-06 03:04

  本文关键词:检索结果多样化及其评测方法研究,,由笔耕文化传播整理发布。


【摘要】:搜索引擎作为用户访问互联网的入口,其检索结果是否能够满足用户查询需求直接影响着用户使用互联网的体验。然而,用户的真实查询意图却很难从查询词本身获取,这是由于当前广泛采用的关键词查询与选择性浏览的搜索引擎交互方式使得用户提交的查询词往往简短甚或歧义。针对这一问题,搜索引擎通常采用对检索结果进行多样化处理的策略加以应对。检索结果多样化旨在通过在检索结果中放置与不同内容相关的网页,使得该检索结果能够在尽可能靠前的位置满足不同用户的信息需求。其研究内容主要包括两个大的方面,即如何准确、有效地产生多样化的检索结果以及如何合理评价一个经过多样化后的检索结果的好坏。围绕这两个主要方向,本文从以下几个方面展开研究工作:1.检索结果多样化方法研究:针对当前研究中几乎都是采用贪心搜索算法来近似解决检索结果多样化中的NP-hard问题,本文提出通过利用文档之间存在的局部有序性对全搜索过程进行无损剪枝,以提高全搜索的效率。根据搜索引擎用户在通常情况下只浏览检索结果第一页的事实经验,本文进一步提出了“关键文档”与“搜索窗口”的策略来对全搜索过程进行剪枝。通过实验,我们验证了本文所提出的算法在能够提供足够检索系统进行实时计算的效率的同时,可带来比贪心算法更好的性能。2.多样化检索结果评测方法研究:针对已有的多样化评测方法在评测检索结果时将不同类型的用户意图同等看待的问题,本文首先提出在评测多样化检索结果时,用户不同类型的意图在满足程度上应当具有不同的特征。而后引入衰减函数来刻画这样的特征,且不同类型的意图对应着不同的衰减函数。最后,本文提出考虑了用户意图类型信息的检索结果多样化评测框架,并将用户意图的类型具体到信息类与导航类来详细讨论该框架的特性。通过实验,我们验证了由本文提出的衰减函数所构成的多样化检索结果评测方法优于现有的方法。3.多样化检索结果评测方法的分析方法研究:针对已有的多样化评测方法的评测大都从分析评测方法某一方面的特性,如稳定性、直观性等,来比较不同评测方法的优劣,本文提出通过比较多样化评测方法与用户偏好的相关性来对多样化评测方法进行分析,并提出了基于用户偏好的加权相关性方法来定量计算。该方法通过计算评测方法与用户检索偏好之间的加权相关性,克服了其他方法在评测多样化评测方法时极少考虑到用户行为信息的缺点。
【关键词】:检索结果多样化 用户意图 全搜索 评测方法
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • Abstract4-9
  • 第1章 引言9-21
  • 1.1 研究背景9-11
  • 1.2 相关研究11-17
  • 1.2.1 查询词的用户意图挖掘12-13
  • 1.2.2 传统信息检索模型13-14
  • 1.2.3 检索结果多样化方法14-15
  • 1.2.4 多样化检索结果的评测方法15-16
  • 1.2.5 多样化检索结果评测方法的评测16-17
  • 1.3 现有方法存在的问题17-19
  • 1.3.1 检索结果多样化方法17-18
  • 1.3.2 多样化检索结果的评测方法18
  • 1.3.3 多样化检索结果评测方法的评测18-19
  • 1.4 论文的研究内容19
  • 1.5 论文组织结构19-21
  • 第2章 检索结果多样化方法研究21-48
  • 2.1 本章 引言21-22
  • 2.2 相关工作22-23
  • 2.3 预备知识23-26
  • 2.3.1 多样化检索结果评测方法的讨论24-26
  • 2.3.2 贪心算法的讨论26
  • 2.4 检索结果多样化任务中文档的局部有序性26-28
  • 2.5 寻找更多顺序对28-32
  • 2.6 带剪枝的全搜索算法32-39
  • 2.6.1 利用顺序对对全搜索文档候选集合剪枝32-35
  • 2.6.2 对全搜索的穷举过程进行剪枝35-39
  • 2.7 进一步剪枝策略39-41
  • 2.7.1 关键位置剪枝策略40
  • 2.7.2 搜索窗口剪枝策略40-41
  • 2.8 实验41-46
  • 2.8.1 实验介绍41-43
  • 2.8.2 检索结果多样化算法性能实验43-45
  • 2.8.3 检索结果多样化算法效率实验45-46
  • 2.9 本章小结46-48
  • 第3章 多样化检索结果评测方法研究48-66
  • 3.1 本章 引言48-49
  • 3.2 相关工作49-54
  • 3.2.1 检索结果的标注50-51
  • 3.2.2 现有评测方法51-54
  • 3.3 利用用户意图的类型信息对多样化检索结果进行评测的方法54-56
  • 3.3.1 衰减函数55
  • 3.3.2 文档增益55-56
  • 3.3.3 多样化评测框架56
  • 3.3.4 STA-Measure与现有评测方法的关系56
  • 3.4 STA-Measure的应用56-58
  • 3.4.1 衰减函数的讨论56-58
  • 3.5 多样化检索结果评测中的NP-hard问题58-60
  • 3.5.1 标注文档集中的顺序对59-60
  • 3.6 实验与评测60-64
  • 3.6.1 多样化检索评测方法的评测60-62
  • 3.6.2 数据集62
  • 3.6.3 STA-Measure性能分析62-64
  • 3.6.4 Pes OP_ES_SWKS算法寻找最优排序64
  • 3.7 本章小结64-66
  • 第4章 多样化检索结果评测方法的分析方法研究66-86
  • 4.1 本章 引言66-68
  • 4.2 相关工作68-69
  • 4.3 收集用户偏好信息69-75
  • 4.3.1 用户偏好收集的在线系统70-73
  • 4.3.2 不同等级用户偏好的比较73-75
  • 4.4 评测方法与用户偏好的相关性讨论75-79
  • 4.4.1 评测方法与用户偏好的相关性讨论75-79
  • 4.5 利用用户偏好对评测方法进行评测的方法79-80
  • 4.6 MUP与Kendall’s τ 的关系80-81
  • 4.7 实验81-85
  • 4.7.1 实验数据集81
  • 4.7.2 对比实验81-83
  • 4.7.3 MUP与直觉性的比较83-85
  • 4.8 本章小结85-86
  • 第5章 总结与展望86-89
  • 5.1 研究工作总结86-87
  • 5.2 未来工作87-89
  • 参考文献89-96
  • 致谢96-98
  • 附录A 论文中的图表索引98-100
  • 个人简历、在学期间发表的学术论文与研究成果100-101

【相似文献】

中国期刊全文数据库 前10条

1 龚笔宏;;一种新的分类评测方法[J];广西师范大学学报(自然科学版);2007年02期

2 闫英杰;林鸿飞;王剑峰;;基于混合策略的中文文摘自动评测方法[J];广西师范大学学报(自然科学版);2007年02期

3 李树平;范书平;李胜东;司巧梅;曹英;;话题跟踪研究[J];微计算机信息;2012年10期

4 龚笔宏;彭波;;对文本分类评测方法稳定性的研究[J];模式识别与人工智能;2008年01期

5 马飒飒;费扬洁;赵守伟;;安全关键软件防危性评测方法研究[J];计算机工程与设计;2008年23期

6 吴新刚;;基于VSTO的Office操作技能自动评测方法[J];中国教育技术装备;2009年33期

7 吴辰文;LAN系统性能评测方法研究[J];兰州理工大学学报;2004年02期

8 吴保荣;;汉字编码优劣评测方法的探讨[J];湖北经济学院学报(人文社会科学版);2009年06期

9 史洪杰;毕明珠;;浅析色带带芯质量评测方法[J];办公自动化;2012年03期

10 ;[J];;年期

中国重要会议论文全文数据库 前2条

1 许良奇;;网络舆情系统的信源可信度评测方法的思考[A];中国新闻技术工作者联合会2011年学术年会论文集(上篇)[C];2011年

2 张铭;;传统和数字电影影像的质量评测方法探讨[A];中国电影电视技术学会影视科技论文集[C];2003年

中国博士学位论文全文数据库 前2条

1 陈飞;检索结果多样化及其评测方法研究[D];清华大学;2015年

2 张珑;汉语普通话发音质量自动评测方法研究[D];哈尔滨工业大学;2014年

中国硕士学位论文全文数据库 前3条

1 袁文清;基于用户收益的归并比较评测方法研究[D];北京大学;2013年

2 黄毅;视差型三维显示系统视觉疲劳度评测方法及应用的研究[D];北京理工大学;2015年

3 翟羽佳;IDS评测方法及功能测试研究[D];吉林大学;2006年


  本文关键词:检索结果多样化及其评测方法研究,由笔耕文化传播整理发布。



本文编号:288120

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/288120.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dde9b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com