基于主题的搜索引擎的研究与实现.pdf 全文
本文关键词:基于主题的搜索引擎的研究与实现,由笔耕文化传播整理发布。
北京交通大学
硕士学位论文
基于主题的搜索引擎的研究与实现
姓名:傅士光
申请学位级别:硕士
专业:计算机应用技术
指导教师:林友芳
20071201
中文摘要
由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一
个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部
Web信息并服务于所有主题的查询请求。相比之下,主题搜索引擎只覆盖与特定
主题相关的Web区域,这样它搜索的内容可以更深,搜索的周期可以更短,因此
能满足用户对快速、准确的获取信息资源的要求。目前,基于主题的Web搜索引
擎正成为计算机科学界和信息产业界争相研究、开发的对象。
本文首先简要介绍了搜索引擎及其发展现状,分析了存在的优缺点;然后通过
对当前通用搜索引擎技术的学习和研究,结合基于主题搜索引擎的特点,设计出
了基于主题搜索引擎的各个模块和总体的架构;而后本文分三个章节详细分析、
设计和实现了该搜索引擎的三大模块:基于规则的中文分词模块、基于主题的Web
信息抓取和Web内容的存储与索引模块。它们构成了本文的核心部分。通过对基
于规则的中文分词模块的设计和实现,创新性地将词典、词性、词频信息,改进
的传统分词算法和中文文法筛选规则结合起来,,从而大大提高了分词的正确率;
通过对基于主题的Web信息抓取模块的设计和实现,在完成了基本的信息抓取的
基础上,还利用动态Web信息抓取技术解决了Web2.0给传统信息抓取带来的困难;
本文关键词:基于主题的搜索引擎的研究与实现,由笔耕文化传播整理发布。
本文编号:154848
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/154848.html