当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于RSS的聚焦网络爬虫在高校网站群中的研究

发布时间:2018-11-13 12:32
【摘要】:网络发展迅速,网页数量越来越庞大,人们为了获取需要的信息,往往需要翻阅大量的网页,浪费时间和精力,并且还不一定能够获取最新最全的信息,而网络信息的发布者也希望有更多的用户能够实时的阅读自己的信息,为此有很多针对该需求的研究孕育而生,例如由网络爬虫支持的搜索引擎、RSS信息推送等。但是它们都各有各的局限性,例如我们需要按照分类得到某高校的所有网站中的最新通知,比如该高校所有科研类别的最新通知。使用搜索引擎进行搜索,结果差强人意。而RSS虽然可以实现分类的推送最新信息,但是它推送的信息仅限于那些提供RSS feed的网站。对于一些类似于高校网站群这种早期建立的时候就没有实现RSS推送功能的对象来说,它就爱莫能助了。 因此,本文主要研究基于RSS的聚焦网络爬虫来解决上述问题,并将其应用在高校网站群中,取得了较好的效果。它的原理是用聚焦网络爬虫对目标网站群的数据进行抓取、分析和处理,然后提供RSS推送。通过这种方式,对于即使没有提供RSS feed的网站,用户也可以通过RSS阅读器分类订阅其最新的信息。免去了大量翻阅网页查找信息的麻烦,以及查找疏忽对信息的遗漏。 本文的主要研究内容包括: (1)提出一种新的基于RSS的聚焦网络爬虫的研究,使得用户可以使用RSS阅读器,订阅并阅读到没有提供RSS feed的网站的最新的信息。过滤无用的广告等垃圾信息,免去查找信息的麻烦。 (2)基于TF-IDF算法对抓取的网页文本进行分类,并且在用TF-IDF提取不同类别的特征向量部分,针对网页的特征对其进行了改进。使得提取出的特征向量更能好的代表类别,分类结果更准确。 (3)对网络爬虫的增量式爬取进行改进,基于传统的增量式爬取算法提出了一种新的计算预测更新时间的算法,使得预测时间更贴近实际更新时间的值,减少系统的开销,提高效率。 (4)将基于RSS的聚焦网络爬虫的研究应用到高校网站群中,针对高校网站群的特征对PageRank算法进行改进,提高网络爬虫的查全率。
[Abstract]:With the rapid development of the network and the increasing number of web pages, people often need to read a large number of pages in order to obtain the information they need, wasting time and energy, and not necessarily getting the latest and most complete information. The publishers of network information also hope that more users can read their own information in real time. For this reason, there are a lot of research on this need, such as search engine supported by web crawler, RSS information push and so on. However, each of them has its own limitations. For example, we need to get the latest notifications from all websites of a university according to the classification, such as the latest notifications of all scientific research categories of that university. Search engine is used to search, the results are unsatisfactory. RSS can push the latest information into categories, but only those sites that offer RSS feed. It's not going to be helpful for objects like college web groups that didn't implement RSS push when they were built early. Therefore, this paper mainly studies the focused web crawler based on RSS to solve the above problems, and applies it to the university website group, and obtains good results. Its principle is to use focused web crawlers to capture, analyze and process the data of the target site group, and then provide RSS push. In this way, users can subscribe to their latest information through RSS readers, even if they don't have a RSS feed site. Avoid the trouble of looking through a large number of web pages to find information, as well as the omission of information. The main contents of this paper are as follows: (1) A new focused web crawler based on RSS is proposed, which enables users to use RSS readers to subscribe and read the latest information of Web sites that do not provide RSS feed. Filter useless advertising and other spam information, to avoid the trouble of finding information. (2) based on the TF-IDF algorithm, the text is classified, and the feature vectors of different categories are extracted by TF-IDF, which is improved according to the features of the web pages. The extracted feature vectors can better represent the categories and the classification results are more accurate. (3) the incremental crawling of network crawler is improved. Based on the traditional incremental crawling algorithm, a new algorithm is proposed to calculate the predictive update time, which makes the prediction time closer to the actual update time and reduces the overhead of the system. Improve efficiency. (4) the research of focused web crawler based on RSS is applied to the university website group, and the PageRank algorithm is improved to improve the recall rate of the network crawler according to the characteristics of the university website group.
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092

【参考文献】

相关期刊论文 前10条

1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

2 谢剑猛;高校网站的规划与设计[J];华东交通大学学报;2004年05期

3 胡海燕;;RSS技术在高校网站中的设计与实现[J];吉林工商学院学报;2009年03期

4 骆斌,费翔林;多线程技术的研究与应用[J];计算机研究与发展;2000年04期

5 王津涛,兰皓;面向主题元搜索引擎的设计与实现[J];计算机工程;2005年07期

6 秦玉平;王秀坤;艾青;刘卫江;;多主题文本分类的实现算法[J];计算机工程;2008年02期

7 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期

8 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

9 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期

10 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

相关硕士学位论文 前10条

1 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年

2 于魁飞;基于RSS的信息发布与订阅技术研究[D];北京邮电大学;2007年

3 刘喜亮;面向主题的网络爬虫设计与实现[D];湖南大学;2009年

4 韩冰;基于BP网络的高校主题爬虫的设计与实现[D];东北师范大学;2009年

5 杨溥;搜索引擎中爬虫的若干问题研究[D];北京邮电大学;2009年

6 袁浩;主题爬虫搜索Web页面策略的研究[D];中南大学;2009年

7 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年

8 贺晟;搜索引擎中主题网络爬虫的研究与设计[D];安徽大学;2010年

9 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年

10 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年



本文编号:2329116

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2329116.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f6cda***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com