搜索引擎中网络爬虫的研究与实现

发布时间：2017-11-15 18:21

本文关键词：搜索引擎中网络爬虫的研究与实现

【摘要】：在互联网快速发展的背景下，搜索引擎在人们生活工作中有着举足轻重的作用，而网络爬虫是搜索引擎中的信息采集器，是搜索引擎技术的最基础部分。特别是在今天这个大数据的时代，通过网络爬虫在互联网上搜集到有价值的数据，再进行数据整理，是一个快速得到有效信息的重要手段。本文是基于广度优先算法在Linux平台下研究并实现的多线程网络爬虫程序。爬虫系统从指定的初始URL开始抓取网页，进行网页解析，获取包含在网页中未被爬取的URL，再对这些URL逐条地进行爬行，尽可能多的获取互联网海量数据。针对网络爬虫系统中涉及的相关技术，本文详细分析与研究了网页抓取算法、网页去重算法，并提出半同步/半异步并发模型在系统中的应用，有效的利用网络资源，提高CPU利用率。此外，为了增加爬虫系统的并发度，采用基于Libevent开源事件驱动框架库的线程池设计。最终，通过模块化程序设计思想将爬虫系统分为请求连接模块、数据分析模块、URL管理模块、URL调度模块等，本文对其进行一一设计与实现，程序在GCC编译环境下调试通过。最后，文章对爬虫系统进行了性能测试，从多线程数以及最大连接数两个方面，，对影响爬虫系统抓取速度的因素做出分析，找到对网络爬虫系统性能产生较大影响的原因。
【学位授予单位】：西安电子科技大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP391.3

【参考文献】

中国期刊全文数据库前9条

1 孟时;王彦;;larbin网络爬虫的体系结构[J];电脑学习;2010年04期

2 王后珍;张焕国;杨樝;;多变元Hash函数的构造与分析[J];电子学报;2011年01期

3 李刚;周立柱;郭奇;林玲;;领域相关的Web网站抓取方法[J];计算机科学;2007年02期

4 王锋;王伟;张t

本文编号：1190756

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1190756.html

上一篇：一个网络搜索引擎的设计与实现
下一篇：基于网络交互式平台的信息服务协同模式研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|