基于动态增长测试集的搜索引擎评价方法的研究与应用
发布时间:2017-04-27 20:11
本文关键词:基于动态增长测试集的搜索引擎评价方法的研究与应用,由笔耕文化传播整理发布。
【摘要】:基于Cranfield体系的搜索引擎评价大多是多个搜索算法是在一个固定的测试集合上进行的。这种评价方法相对而言比较客观和公正,并且整个评价过程和结果可以重复再现。然而这种方式不适合生产环境下的搜索引擎,因为其文档规模是动态增长的,大量的未判断的文档将导致结果显著变差。为了解决这一问题,并在动态增长的索引上比较两种搜索算法,本文针对系统领域的特殊性,构建了必要的测试集合,并提出了一种基于动态增加测试集的搜索引擎评价框架。该框架主要分为数据生成、指标计算和结果展示三个模块。 为了保证该评价框架的有效性,本文采用了工作流引擎定期驱动搜索引擎评价的设计,选取了适合待评价系统的评价指标,还结合测试集合中话题的特点,提出了能够更新测试集合的搜索结果与话题的相关性预测算法,,并还给出了如何在一段时间内每个评价指标计算结果的比较方法。通过实验证明了评价指标的选取是合理的,通过相关性预测算法更新测试集合是有效的,还给出了该评价方法的适用范围。并且该方法得到了业务专家的认同。 最后,采用JavaEE架构实现了该搜索引擎评价系统框架,并给出系统的核心实现。该系统虽然未实现完全的自动化,但也大大减轻了用户相关性判断的工作量,减少了大量了人工干预工作,还提供了用户直观的可视化结果,让评价结果一目了然,最终能还给出了两种算法好坏的结论,在可视化结果对比难以区分的时候,提供了可靠的参考。
【关键词】:搜索引擎评价 评价 相关性 Cranfield框架
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- Abstract5-8
- 1 绪论8-13
- 1.1 课题来源、目的和意义8-9
- 1.2 国内外研究现状9-12
- 1.3 论文的研究内容及结构安排12-13
- 2 相关技术分析13-22
- 2.1 搜索引擎概述13-15
- 2.2 Cranfield 的评价指标15-19
- 2.3 activiti 工作流引擎19-21
- 2.4 本章小结21-22
- 3 测试数据集合的构建22-30
- 3.1 测试集合的组成22-25
- 3.2 构建流程与方法25-28
- 3.3 测试集合的更新的必要性28-29
- 3.4 本章小结29-30
- 4 改进的搜索引擎评价方法的研究30-42
- 4.1 传统评价框架的问题分析30-31
- 4.2 评价框架的设计31-34
- 4.3 相关性预测算法34-36
- 4.4 评价指标的选取36-39
- 4.5 一段时间内的评价指标计算结果的比较方法39-40
- 4.6 数据库设计40-41
- 4.7 本章小结41-42
- 5 关键功能模块的实现与应用42-60
- 5.1 系统开发环境42-43
- 5.2 相关性预测模块的实现43-47
- 5.3 搜索结果评价模块的实现47-56
- 5.4 评价方法比较56-58
- 5.5 专家评判58-59
- 5.6 本章小结59-60
- 6 总结与展望60-62
- 6.1 全文总结60
- 6.2 展望60-62
- 致谢62-63
- 参考文献63-67
【相似文献】
中国期刊全文数据库 前10条
1 俞龙江,彭喜源,彭宇;基于蚁群算法的测试集优化[J];电子学报;2003年08期
2 康波,吕炳朝,陈光
本文编号:331344
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/331344.html