当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于人工标注的搜索引擎评估方法与实现

发布时间:2021-07-11 00:30
  近十年来,搜索引擎在人们的日常生活中扮演了越来越重要的角色。同时,对搜索引擎的能力也提出了严峻的考验。搜索引擎技术也一直是计算机产业的研究热点,作为一个相对较窄的领域,但却引来了无数人的持续研究,时间之长、影响之广泛,在计算机发展史上也是少有的。搜索引擎的好与坏,没有绝对客观的标准。排序算法的评估,出发点和终结点都是人的感知。所以评估是搜索引擎技术的基础性工作,也是核心工作之一。有评测才有鉴别,评判一个搜索引擎的优劣的途径不是开发人员的自评,更不能简单的依靠感觉,而应该是相互可比的评测。因此评价一个搜索引擎质量的优劣是目前的当务之急,也应该是各搜索公司应该予以重点关注的问题。准确的对搜索引擎质量予以评价,可以帮助搜索引擎技术飞速发展,也可以帮助搜索引擎改进算法,最重要的是可以令广大用户得到更好的搜索体验,更容易的找到所求,减少不必要的麻烦。论文采用基于人工标注的方法来实现对搜索引擎的评估工作。通过众包,解决了评估人员少、评估工作量小的难题;通过建立用户组来区分评估能力不同的用户,解决了评估任务与评估员的能力不符的难题;通过建立一套认证体系,让用户领取认证、获得认证,提高用户的评估能力,... 

【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 目前存在的问题
    1.4 论文主要工作
    1.5 论文结构
2 搜索引擎评价技术
    2.1 基于真实用户搜索和点击数据的方法
        2.1.1 A/B test
        2.1.2 Balanced Interleaving
    2.2 基于人工标注的方法
        2.2.1 Side-by-Side
        2.2.2 基于DCG等指标的评估
    2.3 评测指标
        2.3.1 Precision-recall与P@N
        2.3.2 CG、DCG与NDCG
        2.3.3 ERR等
3 搜索引擎评估系统的概要设计
    3.1 需求分析
        3.1.1 Query-Url评估类型
        3.1.2 前三对比评估类型
        3.1.3 功能需求
    3.2 模块设计
        3.2.1 系统总体架构
        3.2.2 用户模块
        3.2.3 认证模块
        3.2.4 抓取模块
        3.2.5 评估模块
        3.2.6 报表模块
    3.3 数据库设计
4 搜索引擎评估系统的详细设计与实现
    4.1 代码结构
    4.2 整体流程
    4.3 用户模块
        4.3.1 用户注册/登录
        4.3.2 用户管理
        4.3.3 用户组管理
        4.3.4 用户评估信息
    4.4 认证模块
        4.4.1 整体流程
        4.4.2 创建认证
        4.4.3 查询认证
        4.4.4 修改认证
        4.4.5 审核认证
    4.5 抓取模块
        4.5.1 整体流程
        4.5.2 URL拼装
        4.5.3 抓取发起
        4.5.4 页面接收
        4.5.5 页面解析
        4.5.6 页面上传
    4.6 评估模块
        4.6.1 整体流程
        4.6.2 任务创建
        4.6.3 任务管理
        4.6.4 任务分发
        4.6.5 评估页面
        4.6.6 插入监控
        4.6.7 自动加人
    4.7 报表模块
        4.7.1 任务量统计
        4.7.2 认证转化率
        4.7.3 评估数据查询/下载
5 搜索引擎评估系统效果与分析
    5.1 系统界面
    5.2 系统测试
    5.3 结论分析
结论
参考文献
致谢


【参考文献】:
期刊论文
[1]搜索引擎发展趋势研究[J]. 许剑颖.  现代情报. 2011(09)
[2]基于大规模日志分析的搜索引擎用户行为分析[J]. 余慧佳,刘奕群,张敏,茹立云,马少平.  中文信息学报. 2007(01)
[3]超链接网络分析的理论与应用研究[J]. 庞景安.  情报理论与实践. 2005(06)
[4]不同搜索引擎在网络影响因子分析中的比较研究[J]. 吴茵茵.  情报科学. 2005(03)
[5]基于词频统计的中文分词的研究[J]. 费洪晓,康松林,朱小娟,谢文彪.  计算机工程与应用. 2005(07)
[6]搜索引擎技术及趋势[J]. 李晓明,刘建国.  中国计算机用户. 2000(09)



本文编号:3276961

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3276961.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d3b49***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com