当前位置:主页 > 管理论文 > 移动网络论文 >

分布式环境下的网络爬虫系统研究与优化

发布时间:2017-05-24 22:11

  本文关键词:分布式环境下的网络爬虫系统研究与优化,由笔耕文化传播整理发布。


【摘要】:在信息每天都以爆炸式速度增长的今天,单机网络爬虫系统抓取性能遇到了瓶颈。基于分布式系统的网络爬虫技术的出现,大大提高了并发抓取的性能。但是现有分布式网络爬虫系统存在不足之处,采用纯多线程异步方式进行抓取的网页抓取模块为了解决线程同步和资源竞争等问题设计了线程管理模块,执行该模块降低了系统性能。网络爬虫中的URL去重算法在处理大数据集时或存在去重效率低的问题或存在占用存储空间大的问题。因此本文对网页抓取模块和URL去重策略进行优化具有重要工程意义。 本文基于现有网络爬虫的不足之处,对网页抓取模块和URL去重策略提出了改进优化方案。网页抓取模块采用半同步/半异步方式设计的多线程池,主线程负责任务调度,工作线程负责具体的逻辑处理。各线程对网络事件的处理将由Libevent网络库完成,采用这种方式设计的网页抓取模块非常适合高并发大数据处理。URL去重策略采用缓存机制,将重复度高的URL保存在缓存队列中,减少了访问存储系统的次数,提高了URL去重的效率。本文基于上述优化方案设计了运行在Hadoop分布式环境的网络爬虫系统。 最后通过搭建测试环境,从功能和性能两个方面设计了详细的系统测试方案,对优化后的爬虫系统进行测试,通过与现有分布式网络爬虫在单机模式、集群模式下的抓取能力进行对比,验证本文基于优化方案设计的网络爬虫是高效的。通过与现有URL去重策略从去重时间和准确性两方面进行对比,验证本文提出的去重策略是高效的。
【关键词】:URL 去重策略 Libevent 框架 网络爬虫 Hadoop
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-15
  • 1.1 研究背景9-11
  • 1.1.1 选题背景9-10
  • 1.1.2 研究意义10-11
  • 1.2 研究现状11-13
  • 1.3 论文主要内容13
  • 1.4 论文的组织结构13-15
  • 第二章 网络爬虫系统的基础研究15-25
  • 2.1 网络爬虫的特征15-16
  • 2.2 网络爬虫系统关键技术的研究16-20
  • 2.2.1 URL去重策略16-17
  • 2.2.2 网页抓取算法17-20
  • 2.3 网络爬虫的基本组成模块20-21
  • 2.4 MapReduce编程模型21-23
  • 2.5 本章总结23-25
  • 第三章 爬虫系统的优化方案及其整体架构25-37
  • 3.1 网络爬虫的工作原理25-26
  • 3.1.1 单机网络爬虫工作原理25-26
  • 3.1.2 分布式网络爬虫的工作原理26
  • 3.2 分布式网络爬虫系统页面抓取模块分析与优化26-30
  • 3.2.1 现有网络爬虫网页抓取模块缺陷分析26-27
  • 3.2.2 网页抓取模块优化方案27-30
  • 3.3 URL去重策略的分析与优化30-34
  • 3.3.1 现有URL去重策略缺陷分析30-32
  • 3.3.2 URL去重策略优化方案32-34
  • 3.4 分布式网络爬虫的总体架构34-35
  • 3.5 本章总结35-37
  • 第四章 基于优化方案的网络爬虫具体实现37-47
  • 4.1 网页抓取模块优化方案具体实现37-39
  • 4.2 URL去重策略优化的具体实现39-43
  • 4.3 基于MapReduce生成抓取列表的具体实现43-45
  • 4.3.1 URL预处理的具体实现43-44
  • 4.3.2 待抓取列表生成模块的具体实现44-45
  • 4.4 分布式网络爬虫存储系统设计45-46
  • 4.5 本章总结46-47
  • 第五章 实验搭建与测试结果47-55
  • 5.1 实验环境47-48
  • 5.1.1 设备硬件配置47
  • 5.1.2 测试环境软件版本47
  • 5.1.3 Hadoop集群环境搭建47-48
  • 5.2 网页抓取模块实验分析48-52
  • 5.2.1 网页抓取模块的测试方案设计49
  • 5.2.2 实验数据49-50
  • 5.2.3 实验数据分析50-52
  • 5.3 URL去重策略实验分析52-54
  • 5.3.1 URL去重策略测试方案设计52
  • 5.3.2 实验数据52-53
  • 5.3.3 实验数据分析53-54
  • 5.4 本章总结54-55
  • 第六章 总结与展望55-57
  • 6.1 本文工作总结55-56
  • 6.2 进一步研究方向56-57
  • 参考文献57-61
  • 致谢61

【参考文献】

中国期刊全文数据库 前9条

1 邓见光;潘晓衡;袁华强;;云存储及其分布式文件系统研究[J];东莞理工学院学报;2012年05期

2 董日壮;郭曙超;;网络爬虫的设计与实现[J];电脑知识与技术;2014年17期

3 林闯;胡杰;孔祥震;;用户体验质量(QoE)的模型与评价方法综述[J];计算机学报;2012年01期

4 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期

5 许丞;刘洪;谭良;;Hadoop云平台的一种新的任务调度和监控机制[J];计算机科学;2013年01期

6 周世龙;陈兴蜀;罗永刚;;Hadoop视角下的Nutch爬行性能优化[J];计算机应用;2013年10期

7 刘元珍;;Bloom Filter及其在网络中的应用综述[J];计算机应用与软件;2013年09期

8 胡维华;曹奇峰;;基于Nutch的页面排序算法研究[J];杭州电子科技大学学报;2013年06期

9 秦臻;肖春静;李乐民;;基于云的域名解析服务模型[J];通信学报;2013年02期


  本文关键词:分布式环境下的网络爬虫系统研究与优化,由笔耕文化传播整理发布。



本文编号:392127

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/392127.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户33962***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com