RSS资源聚合系统搜索引擎的设计与实现
本文关键词: RSS 资源聚合 评价算法 搜索模型 搜索引擎 出处:《中山大学》2012年硕士论文 论文类型:学位论文
【摘要】:互联网信息的爆发式增长给人们带来了信息量过载的问题,用户在庞大的网络资源中获取自己关注的信息已经越来越困难。RSS信息聚合平台为用户提供了多样化、个性化的信息获取方式,便于用户及时快速地获取自己关注的网络信息。 随着RSS信息聚合平台中数据源的不断更新,平台中的数据量也日渐庞大。当数据量远远超过用户逐一浏览信息的能力范围时,平台中的搜索引擎就成为了用户精确检索信息的主要工具。 本文围绕着实现一个RSS资源聚合系统的搜索引擎,通过研究系统中RSS数据源的特点,提出了面向RSS资源聚合系统的搜索模型。该模型在具备了现有RSS信息聚合平台基本搜索功能的基础上,结合了Lucene排序算法和RSS数据源评价算法,使得其搜索的排序结果更加贴近于系统中RSS数据源的特点,,为RSS资源聚合系统提供更贴切其特征的搜索服务。本文完成的主要工作如下: 首先,本文提出了RSS数据源评价算法。本文分析了RSS资源聚合系统中数据源的特点,借鉴网页链接分析中的排序算法思想,提出了RSS数据源的评价算法。通过该算法可以衡量系统中不同RSS数据源之间质量的高低。 其次,本文结合了Lucene排序算法和RSS数据源的评价算法,设计了一个面向RSS资源聚合系统的搜索模型。该搜索模型加强了RSS数据源质量和条目发布时间对搜索排序结果的影响,使得排序结果更加符合系统中数据的特征,为系统提供更贴切的搜索服务。本文通过实验和测试验证了该模型的有效性和可行性。 最后,本文使用检索引擎工具包Lucene构建一个搜索引擎的框架,实现了“HCI@RSS”资源聚合系统的搜索引擎。该搜索引擎应用了面向RSS资源聚合系统的搜索模型。本文最后遵循软件工程的方法描述了系统搜索引擎模块的设计和实现过程,并通过系统的测试和运行验证了该搜索引擎的有效性和可行性。
[Abstract]:The explosive growth of Internet information brings people the problem of information overload. It is more and more difficult for users to obtain the information of their concern in the huge network resources. RSS information aggregation platform provides users with a variety of information. Personalized information acquisition method is convenient for users to get their concerned network information in time and quickly. With the continuous updating of the data sources in the RSS information aggregation platform, the amount of data in the platform is becoming larger and larger. When the amount of data is far beyond the range of users' ability to browse the information one by one, The search engine in the platform has become the main tool for users to retrieve information accurately. This paper focuses on the implementation of a RSS resource aggregation system search engine, through the study of the characteristics of RSS data sources in the system, This paper presents a search model for RSS resource aggregation system, which combines the Lucene sorting algorithm and the RSS data source evaluation algorithm on the basis of the basic searching function of the existing RSS information aggregation platform. It makes the search result more close to the characteristics of the RSS data source in the system, and provides a more appropriate search service for the RSS resource aggregation system. The main work of this paper is as follows:. First of all, this paper puts forward the RSS data source evaluation algorithm, analyzes the characteristics of the data source in the RSS resource aggregation system, and draws lessons from the idea of sorting algorithm in the web link analysis. The evaluation algorithm of RSS data sources is proposed, by which the quality of different RSS data sources in the system can be measured. Secondly, combining the Lucene sorting algorithm and the RSS data source evaluation algorithm, this paper designs a search model for RSS resource aggregation system, which strengthens the influence of RSS data source quality and item publishing time on the search sorting results. The sorting results are more consistent with the characteristics of the data in the system and provide a more appropriate search service for the system. The validity and feasibility of the model are verified by experiments and tests. Finally, this article uses Lucene, a search engine toolkit, to build a framework for a search engine. The search engine of "HCI@RSS" resource aggregation system is implemented. This search engine applies the search model oriented to RSS resource aggregation system. Finally, the design and implementation process of search engine module is described according to the method of software engineering. The effectiveness and feasibility of the search engine are verified by testing and running of the system.
【学位授予单位】:中山大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 李志杰;;搜索引擎和RSS在体育信息检索中的应用与比较[J];科技创新导报;2008年12期
2 封硕;赵捧未;施水才;;基于RSS的分布式博客搜索引擎的研究[J];情报杂志;2007年08期
3 张焕明;;基于Lucene的博客搜索引擎设计与实现[J];现代计算机(专业版);2010年03期
4 张立彬;杨军花;翟春红;王璐;;基于RSS的搜索引擎技术及其发展趋向探析[J];情报科学;2009年02期
5 曲淑敏;;RSS技术在个性学术文献检索中的应用[J];图书馆学研究;2010年04期
6 刘兰;徐树维;;微内容及微内容环境下未来图书馆发展[J];图书情报工作;2009年03期
7 陈诗琴;;搜索引擎和RSS技术在网络阅读中的应用[J];才智;2010年01期
8 张鼐;张英;;Web3.0与个性化信息服务[J];新世纪图书馆;2009年02期
9 王建斌;;利用RSS整合校园Web信息和资源[J];计算机与现代化;2006年04期
10 周建芳,刘桂芳;基于RSS阅读器的个人信息门户的构建[J];科技情报开发与经济;2005年17期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
相关重要报纸文章 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
相关博士学位论文 前10条
1 冯辰;基于压缩感知的RSS室内定位系统的研究与实现[D];北京交通大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
相关硕士学位论文 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
本文编号:1553124
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1553124.html