LUCENE实现的基于RSS的博客搜索引擎
本文关键词:LUCENE实现的基于RSS的博客搜索引擎,由笔耕文化传播整理发布。
哈尔滨下程火学硕十学位论文
摘要
XML是一种可扩展的标记语言,为跨平台、跨领域的应用提供了一种通信手段。随着XML在WEB应用上的R益广泛,,RSS已经成为目前最广泛的XML应用,被广泛的应用于信息服务站点,如新闻网站、博客站点等。
随着互联网的迅速发展,搜索引擎成为了人们获取信息的一个重要途径。人们在希望搜索引擎能够提供全面的信息资源的同时,也对搜索引擎的服务提出了更高的要求。与传统的搜索引擎相比,博客搜索引擎在检索内容、工作原理、检索方式等方面有着很大的区别,因此,若用传统的搜索引擎检索一些以RSS格式发布的博客内容,就会存在着检索效率低、更新速度慢等缺点,而RSS博客搜索引擎克服了这些缺点。
本文研究了博客搜索引擎的工作原理,主要研究了博客搜索引擎中的博客网络爬虫与用户兴趣模型。网络爬虫是搜索引擎中的一个重要部分,其爬取质量直接影响到搜索引擎的搜索结果。由于RSS网页与普通网页的不同,RSS博客网络爬虫爬取各个博客文章的RSS链接,本文对RSS种子的收集、解析、建立索引进行了研究,设计并实现了集RSS种子获取、解析并建立索引为一体的RSS博客网络爬虫。传统的搜索引擎面向的是广大的用户,不能根据用户的喜好返回最相关的结果,而用户往往希望搜索引擎能够根据自己的实际情况来返回最相关的结果,基于此,本文介绍了用户兴趣模型的概念与应用,设计并实现了基于博客文章标签与分类的用户兴趣模型,包括用户兴趣模型的初始化、更新及与搜索结果的匹配等。
在介绍网络爬虫与用户兴趣模型的基础上,本文设计并实现了基于RSS的博客搜索引擎,并用Ajax等技术改善了用户的搜索体验。关键词:RSS;搜索引擎;网络爬虫;Ajax:用户兴趣模7型
Word文档免费下载:LUCENE实现的基于RSS的博客搜索引擎 (下载1-69页,共69页)
本文关键词:LUCENE实现的基于RSS的博客搜索引擎,由笔耕文化传播整理发布。
本文编号:82522
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/82522.html