搜索引擎中网络爬虫的研究与实现
发布时间:2017-11-15 18:21
本文关键词:搜索引擎中网络爬虫的研究与实现
更多相关文章: 网络爬虫 Linux 半同步/半异步并发模型 Libevent
【摘要】:在互联网快速发展的背景下,搜索引擎在人们生活工作中有着举足轻重的作用,而网络爬虫是搜索引擎中的信息采集器,是搜索引擎技术的最基础部分。特别是在今天这个大数据的时代,通过网络爬虫在互联网上搜集到有价值的数据,再进行数据整理,是一个快速得到有效信息的重要手段。 本文是基于广度优先算法在Linux平台下研究并实现的多线程网络爬虫程序。爬虫系统从指定的初始URL开始抓取网页,进行网页解析,获取包含在网页中未被爬取的URL,再对这些URL逐条地进行爬行,尽可能多的获取互联网海量数据。针对网络爬虫系统中涉及的相关技术,本文详细分析与研究了网页抓取算法、网页去重算法,并提出半同步/半异步并发模型在系统中的应用,有效的利用网络资源,提高CPU利用率。此外,为了增加爬虫系统的并发度,采用基于Libevent开源事件驱动框架库的线程池设计。最终,通过模块化程序设计思想将爬虫系统分为请求连接模块、数据分析模块、URL管理模块、URL调度模块等,本文对其进行一一设计与实现,程序在GCC编译环境下调试通过。 最后,文章对爬虫系统进行了性能测试,从多线程数以及最大连接数两个方面,,对影响爬虫系统抓取速度的因素做出分析,找到对网络爬虫系统性能产生较大影响的原因。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【参考文献】
中国期刊全文数据库 前9条
1 孟时;王彦;;larbin网络爬虫的体系结构[J];电脑学习;2010年04期
2 王后珍;张焕国;杨樝;;多变元Hash函数的构造与分析[J];电子学报;2011年01期
3 李刚;周立柱;郭奇;林玲;;领域相关的Web网站抓取方法[J];计算机科学;2007年02期
4 王锋;王伟;张t
本文编号:1190756
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1190756.html