当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于时态信息的搜索引擎的研究与实现

发布时间:2021-06-16 22:46
  互联网已成为现代人生活不可或缺的一部分,是人们获取信息的重要来源。同时互联网上不断增长的海量数据也给用户带来了新的挑战,面对如此海量的信息资源,用户要从其中快速找出自己需要的信息是是非常困难的。为了解决这一问题,搜索引擎诞生了。搜索引擎根据一定的策略,利用特定的程序从互联网上搜集信息,在对信息进行加工处理后,为用户提供搜索服务,将和用户搜索相关的信息以简单明了的方式展示给用户搜索引擎的快速发展给网民带来了极大的方便,但其还是没能从实质上解决上述的问题,现有的搜索引擎通过关键字匹配的方式检索网页,通常会返回很多的结果,其中包含大量对用户来说是无用的网页,用户仍然很难快速准确的获取自己所需的网页。时间作为信息的本质属性之一,同样也是网页的本质属性之一。当人们阅读一篇新闻报道时,总是把新闻的内容和时间联系起来,有些信息只有在特定的时间下才有意义。在搜索信息的时候加上时态信息,可以更加准确的表达用户的查询意图,使得搜索引擎能够更加快速准确地找到用户所需要的信息,所以对时态信息的研究将是搜索引擎系统中非常重要的课题,越来越多的搜索引擎系统引入了时态信息搜索,Google,Baidu搜索引擎在高级... 

【文章来源】:广东工业大学广东省

【文章页数】:69 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
目录
CONTENTS
第一章 绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状
    1.3 本文研究内容
    1.4 本文的组织架构
第二章 搜索引擎的相关原理和技术
    2.1 搜索引擎的概念
    2.2 搜索引擎的发展历史和趋势
        2.2.1 搜索引擎的发展历程
        2.2.2 搜索引擎的发展趋势
    2.3 一些著名的搜索引擎
    2.4 搜索引擎的一般工作原理
    2.5 Nutch的组成部分及工作原理
        2.5.1 Nutch的组成部分
        2.5.2 Nutch网页爬虫的工作原理
    2.6 Solr相关技术研究
        2.6.1 solr介绍
        2.6.2 solr的数据结构
    2.7 本章小总
第三章 时态信息的抽取与排序算法改进
    3.1 时间表示
    3.2 网页时态信息的处理流程
    3.3 网页内容时态信息的抽取
        3.3.1 时间短语的模板规则
        3.3.2 时间词词典
        3.3.3 时态信息抽取算法
    3.4 时态信息的格式化处理
        3.4.1 时态信息规范化
        3.4.2 参考时间的确定
        3.4.3 时态信息转换
    3.5 基于内容时态信息的排序算法改进
        3.5.1 问题分析
        3.5.2 传统时态相关的排序算法
        3.5.3 网页内容时态相关度排序算法(CTRR)
        3.5.4 基于时态相关性的网页排序
    3.6 本章小结
第四章 基于内容时态信息的搜索引擎系统的实现
    4.1 系统目标
    4.2 系统架构
    4.3 功能实现
        4.3.1 时态信息抽取实现
        4.3.2 时态信息排序实现
    4.4 运行系统
        4.4.1 安装nutch
        4.4.2 安装tomcat
        4.4.3 安装solr
        4.4.4 执行抓取
        4.4.5 搜索结果示例
        4.4.6 系统性能
    4.5 本章小结
总结与展望
    本文工作总结
    下一步工作展望
参考文献
致谢



本文编号:3233933

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3233933.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bd89e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com