基于时态信息的主题搜索引擎的研究与实现.pdf全文
本文关键词:基于时态信息的主题搜索引擎的研究与实现,,由笔耕文化传播整理发布。
中国科学技术大学
硕士学位论文
基于时态信息的主题搜索引擎的研究与实现
姓名:孙逸雪
申请学位级别:硕士
专业:计算机应用技术
指导教师:金培权
20090501摘夏
摘要
随着豆联网的迅速发展,丽对这样一个全球最人的信息资源宝库,搜索引擎
为人们提供了获取信息的入口,得到了极人的流行。但山于曲多元化信息的
指数级增长和人们需求的多样化,通用搜索引擎返回的结果已经不能满足人们对
个性化信息检索服务的要求,于是主题搜索引擎应运而生。与通用搜索不同,主
题搜索引擎仅仅专注于某一领域,为特定领域的用户提供更为精确、更全面、更
及时的搜索服务。它的很多技术与通用搜索引擎类似,但是还有一些自己独特的
技术和一些新的需要解决问题,成为近年来研究的热点。
传统的主题搜索引擎仅支持基于关键字的搜索方式,因此在许多情况下难以
有效地表达用户的查询需求,例如在新闻主题搜索引擎中查询“最近三天内关于
甲型流感的新闻”。通过对网页信息的分析,时态信息是网页的一个本质属性,
比如网页的修改时间、新闻网页中蕴含的新闻事件时间等。因此,如果能够利用
网页的时态信息来增强主题搜索引擎的效率,使用户可以表达时态相关的查询需
求,同时搜索引擎自身也提供时态查询处理能力,则可以有效地提高主题搜索引
擎的性能。
本文围绕基于时态信息的主题搜索引擎开展了若干关键技术的研究,重点探
讨了时态主题搜索引擎的设计与实现、主题爬虫、搜索结果的时态排序等问题。
本文的主要贡献可归纳为:
通过分析.结构和网页特征,提出并实现了一个混合主题爬虫。该
爬虫首先对抓取下来的网页使用基于的网页分析算法计算网页与主题的相
关性并选取相关链接,然后结合元搜索技
本文关键词:基于时态信息的主题搜索引擎的研究与实现,由笔耕文化传播整理发布。
本文编号:137886
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/137886.html