搜索引擎中通用爬虫系统的研究与设计

发布时间：2020-11-04 19:27

　　近年来，随着互联网的蓬勃发展，互联网信息产生了爆炸性的增长。对互联网用户来说一个很重要的问题就是如何才能快速的找到用户想要的网页内容。信息增长的速度越快，用户的这种需求就越迫切。搜索引擎的出现很大程度上方便了用户快速获取信息的需求，本文围绕搜索引擎，对搜索引擎的重要组成部分—爬虫系统中的相关技术与算法进行了研究与论述。爬虫系统的主要工作就是下载互联网网页为搜索引擎提供数据支持，为了获取网页，爬虫系统首先需要维护一个初始的待抓取队列，依次对队列中的网页进行抓取，同时提取网页中新链接，放到待抓取队列中，一直循环执行，直到待抓取队列为空。本文的研究内容主要有以下几个方面： (1)通过对网络爬虫所涉及技术以及算法的分析，提出了一个通用的并行网络爬虫的系统CWebSpider，并对其内部实现框架进行了深入详细的论述。 (2)对CWebSpider爬虫系统涉及到的抓取算法、调度算法以及抽取算法等做了深入的论述，并结合数据结构与伪代码给出了CWebSpider系统在Linux平台下的详细实现。 (3)对于CWebSpider中的抓取算法，将抓取器设计为网络层和应用层，并对各层之间的实现进行了很多优化，提高了系统的抓取效率以及可扩展性。对于CWebSpider中的调度算法，本文设计出了一种基于OPIC算法改进之后的算法，有效提高了重要度高的网页优先抓取的机会。对于CWebSpider中的爬虫系统的不重复抓取算法，实现了自行设计的布隆过滤器方法判重，大大节省了内存空间以及判重效率。 (4)对CWebSpider系统抓取性能进了详细评测，并对实验结果进行了分析，对下一步工作进行了简单的展望。
【学位单位】：吉林大学
【学位级别】：硕士
【学位年份】：2013
【中图分类】：TP391.3
【部分图文】：

结构图,搜索引擎,结构图,下载

第二章相关技术研究需要实时计算出满足需求的网页，并且排序输出给用户。综上所述，下载统、索引系统和查询系统共同的组成了搜索引擎系统。下载系统负责下载本地并保持本地网页与互联网网页的同步。分析系统负责将下载系统下载ageRank 和分词。索引系统则负责将网页库进行索引。查询系统负责与用户查询结果显示给用户。搜索引擎的简要结构图如图 2.1 所示：

典型结构,宽度优先,重要度,遍历

树的典型结构

拓扑结构图,网页,超链接,调度器

22. C[i] := 0 ;23. end为了形象的展现 OPIC 算法，本文以图 2.5 为例：图 2.5 URL 拓扑结构图图 2.5 中节点代表 URL，节点之间的连线代表 URL 之间的超链接。我们以表 2.1 来展现使用 OPIC 的抓取流程，在表 2.1 中，每一行中被粗体标注数字对应的 URL 为被调度器选中的 URL，将在下一轮被抓取；“*”表示该网页已被抓取；“--”表示该网页尚未被系统获知。表 2.1 URL 抓取流程A B C D E0（injected） 1.0 -- -- -- --1 1.0* 0.5 0.5 -- --2 1.0* 0.5* 0.5 0.25 0.253 1.0* 0.5* 0.5* 0.25 0.754 1.0* 1.25* 0.5* 0.25 0.75*5 1.0* 1.25* 0.5* 0.25* 0.75*
【参考文献】

相关期刊论文前5条

1 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期

2 马成前;毛许光;;网页查重算法Shingling和Simhash研究[J];计算机与数字工程;2009年01期

3 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

4 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期

5 李晓明,刘建国;搜索引擎技术及趋势[J];中国计算机用户;2000年09期

相关博士学位论文前2条

1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院（计算技术研究所）;2005年

2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

相关硕士学位论文前10条

1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

2 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年

3 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年

4 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年

5 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年

6 张晓峰;并行网页抓取系统设计[D];北京交通大学;2007年

7 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年

8 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年

9 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年

10 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年

本文编号：2870505

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2870505.html

上一篇：云计算下大数据高效处理的若干关键问题研究
下一篇：融合杜鹃搜索的灰狼优化算法及其在入侵检测中的应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|