基于Nutch的分布式爬虫研究与优化

发布时间：2017-07-19 09:18

本文关键词：基于Nutch的分布式爬虫研究与优化

【摘要】：随着大数据时代的到来,互联网上的数据正在迅速膨胀并变大,数据的采集速度越来越不能满足实际需要。爬虫系统需要抓取的网页数量巨大,如何高效、稳定地抓取网页非常重要。网页分布广及动态变化也使爬虫系统很难保持本地网页时新性,爬虫需要及时更新本地网页,避免网页失效。本文对Nutch爬虫进行改进,将改进后的Nutch和Hadoop分布式平台结合,设计高效、可靠的分布式爬虫系统。主要研究成果如下:1、Nutch和Hadoop分布式平台结合Nutch单机运行时,受限于单台机器存储及运算性能,且易发生单点故障,稳定性差。我们借助Hadoop分布式平台的优点,将Nutch运行的各个步骤提交给Hadoop,使用Map Reduce分布式计算完成,并将数据存储在HDFS上。我们分别对Nutch单机模式和Nutch分布式模式进行实验,实验结果表明:对比单机模式,分布式模式随着集群中节点的增多,Nutch爬行的性能会线性增长;数据安全性提高,可靠性增强,节点间负载均衡。2、提出Proxy IP动态更换模块在详细分析Nutch抓取网页数据的工作流程后,发现当一个网站有以IP为依据的访问检测机制时,Nutch大规模访问很容易被禁止。针对这个问题,提出Proxy IP动态更换模块,与Nutch系统结合,在Nutch爬行被禁止时,更换Proxy IP,使Nutch能继续爬行。经过测试,Nutch的爬虫被禁止爬行得到有效解决。3、网页更新预测优化Nutch有网页更新模块,但网页更新的参数需要人为设定,且对所有网页有效,很难适应海量网页的差异化。本文提出动态选择策略来预测网页更新周期。在网页更新历史数据不足时,通过基于Map Reduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其它网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模较准确地预测每个网页的更新周期。实验表明,动态选择策略节约了爬虫的抓取资源,且能较准确预测网页的更新周期。
【关键词】：Nutch 爬虫 Hadoop Proxy IP 网页更新预测 DBSCAN算法 Map Reduce 泊松过程
【学位授予单位】：上海师范大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP393.092
【目录】：

摘要2-3
Abstract3-7
第1章绪论7-11
1.1 研究目的和意义7
1.2 国内外研究现状7-9
1.3 主要研究内容9-10
1.4 论文结构10-11
第2章 Nutch与Hadoop研究11-25
2.1 Nutch11-15
2.1.1 Nutch体系结构11-12
2.1.2 Nutch爬虫系统12-14
2.1.3 Nutch网页更新机制14-15
2.2 Hadoop分布式平台15-24
2.2.1 分布式文件系统（HDFS）15-18
2.2.2 资源管理系统YARN18-21
2.2.3 Map Reduce21-24
2.3 本章小结24-25
第3章网页更新预测相关研究25-35
3.1 网页更新25-28
3.1.1 网页库时新性和过时度25-26
3.1.2 网页更新频率26
3.1.3 网页更新策略26-28
3.2 泊松过程28
3.2.1 泊松过程简介28
3.3 聚类算法28-34
3.3.1 聚类的划分28-31
3.3.2 DBSCAN聚类算法31-34
3.4 本章小结34-35
第4章基于Nutch的爬虫优化35-45
4.1 Proxy IP动态更换模块实现35-37
4.1.1 Proxy IP库35
4.1.2 Proxy IP库运行流程介绍35-36
4.1.3 Proxy IP有效性标识向量36
4.1.4 质量系数36
4.1.5 Proxy IP动态更换36-37
4.2 网页更新预测优化37-44
4.2.1 动态选择策略37-38
4.2.2 基于Map Reduce的DBSCAN算法38-43
4.2.3 基于泊松过程的网页更新预测43-44
4.3 本章小结44-45
第5章实验与结果分析45-56
5.1 实验环境45-50
5.1.1 硬件环境45
5.1.2 系统部署45-50
5.2 实验测试50-55
5.2.1 Proxy IP动态更换模块实验50-52
5.2.2 网页更新预测实验52-54
5.2.3 爬虫系统性能实验54-55
5.3 实验结果分析55
5.4 本章小结55-56
第6章总结与展望56-58
参考文献58-60
攻读硕士学位期间取得的研究成果60-61
致谢61-63
附件63

【参考文献】

中国期刊全文数据库前9条

1 潘涛;梁正友;;Nutch中网页排序效果的改进方法[J];计算机工程;2010年13期

2 吕韩飞,王申康;一种重要性与时新性结合的网页更新策略[J];计算机应用研究;2005年11期

3 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期

4 周世龙;陈兴蜀;罗永刚;;Hadoop视角下的Nutch爬行性能优化[J];计算机应用;2013年10期

5 孟涛,闫宏飞,王继民;一个增量搜集中国W eb的系统模型及其实现[J];清华大学学报(自然科学版);2005年S1期

6 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期

7 徐尚瑜;;基于泊松过程的爬虫调度策略分析[J];现代计算机(专业版);2009年12期

8 徐健;张智雄;;基于Nutch的Web网站定向采集系统[J];现代图书情报技术;2009年04期

9 刘俊岭;孙焕良;王大玲;牛志成;;一种优化的基于网格的聚类算法[J];小型微型计算机系统;2006年10期

中国硕士学位论文全文数据库前7条

1 郑洪英;数据挖掘聚类算法的分析和应用研究[D];重庆大学;2002年

2 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年

3 冯朝一;云理论在数据挖掘中的应用研究[D];广西大学;2007年

4 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年

5 吴翠雁;基于Nutch的信息采集系统的研究与实现[D];华南理工大学;2010年

6 李伟雄;基于密度的聚类算法研究[D];湖南大学;2010年

7 万文宏;基于Nutch的分布式搜索引擎的研究与优化[D];武汉理工大学;2013年

，

本文编号：562132

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/562132.html

上一篇：一种基于执行环境特征的组合服务混合执行机制
下一篇：Hadoop云平台中调度策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|