当前位置:主页 > 科技论文 > 搜索引擎论文 >

分布式爬虫的动态负载均衡方法研究

发布时间:2017-05-21 20:07

  本文关键词:分布式爬虫的动态负载均衡方法研究,,由笔耕文化传播整理发布。


【摘要】:随着互联网的高速发展,搜索引擎成为互联网用户查找信息的第一入口,作为搜索引擎核心组件的网络爬虫用于在互联网上采集数据。现在网络信息正以指数级的速度不断膨胀,网页采集的完整性和实时性的难度越来越大,这给爬虫系统带来了巨大的挑战。如何充分地利用计算机的硬件资源和网络带宽高效地采集页面,同时减少由URL判重所带来的大量通信开销,是分布式爬虫系统研究的核心问题。针对这个问题,本文以提高分布式爬虫系统的性能为核心,进行了以下研究:深入研究了分布式系统优缺点、分布式系统的任务调度、网络爬虫工作原理和爬行策略的基础上,结合网络爬虫自身特点、互联网结构特点和站点页面间的相似性,提出了基于在线反馈的站点规模动态预测算法。站点规模动态预测算法首先对站点规模进行分类,然后根据互联网结构的疏密性和爬虫的爬行原理,提出了站点增长比的概念,在爬虫爬行的过程中,在线采集计算增长比的信息,通过计算出的增长比的反馈,对站点规模进行逐步预测,并基于采集的数据进行了算法模型的训练和验证;将基于在线反馈的站点规模动态预测算法融入到分布式爬虫系统中,可根据预测出的站点规模,减少URL判重所带来的大量通信开销。针对站点规模计算出爬行器所承载的任务负荷量,通过监视器定时收集爬行器自身负荷当量,基于以上两点计算爬行器间的负载系数,并以此为依据进行任务调度,以达到负载均衡的效果;结合以上理论基础和研究成果,本文设计并开发了基于站点规模的动态任务分割算法的分布式爬虫系统,该分布式爬虫系统能很好地处理新增爬行器时的负载均衡情况和爬行器出现故障时的任务快速恢复情况,具有很好的动态负载均衡效果、鲁棒性和扩展性。
【关键词】:分布式爬虫 动态负载均衡 站点规模预测 减少通信开销 任务调度
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第1章 绪论8-15
  • 1.1 研究背景和意义8-9
  • 1.2 国内外相关研究和综述9-13
  • 1.2.1 网络爬虫9-10
  • 1.2.2 负载均衡的实现机制10
  • 1.2.3 负载均衡的实现技术10-12
  • 1.2.4 存在的问题12-13
  • 1.3 本文研究内容13
  • 1.4 本文的结构安排13-15
  • 第2章 分布式爬虫系统的相关技术15-23
  • 2.1 引言15
  • 2.2 分布式系统15-17
  • 2.2.1 分布式系统的优点15-16
  • 2.2.2 分布式系统的缺点16
  • 2.2.3 分布式系统的任务调度16-17
  • 2.3 网络爬虫17-19
  • 2.3.1 通用Web爬虫17-18
  • 2.3.2 聚焦Web爬虫18-19
  • 2.4 爬行策略19-21
  • 2.4.1 广度优先策略20
  • 2.4.2 深度优先策略20-21
  • 2.4.3 最佳优先策略21
  • 2.5 布隆过滤器21-22
  • 2.6 本章小结22-23
  • 第3章 基于在线反馈的站点规模动态预测算法23-37
  • 3.1 引言23
  • 3.2 站点规模23-24
  • 3.3 站点增长比24-27
  • 3.4 在线反馈信息27-28
  • 3.5 站点规模预测模型训练28-33
  • 3.5.1 损失函数28
  • 3.5.2 模型的参数训练28-31
  • 3.5.3 训练数据及方法31-33
  • 3.6 实验及结果分析33-36
  • 3.7 本章小结36-37
  • 第4章 基于站点规模预测的分布式爬虫动态负载均衡方法37-50
  • 4.1 引言37
  • 4.2 动态负载均衡算法的权衡因素37-38
  • 4.2.1 任务负荷的评估37
  • 4.2.2 任务迁移的代价37
  • 4.2.3 系统的鲁棒性和可扩展性37-38
  • 4.3 爬行器负荷当量的计算38-39
  • 4.4 负载均衡的衡量——负载系数39-40
  • 4.5 任务调度的策略40-41
  • 4.6 通信开销问题41-42
  • 4.7 对比实验及结果分析42-49
  • 4.7.1 实验环境42
  • 4.7.2 实验结果及分析42-49
  • 4.8 本章小结49-50
  • 第5章 分布式爬虫系统设计与实现50-56
  • 5.1 分布式爬虫的整体架构50-51
  • 5.2 分布式爬虫系统模块功能设计与实现51-55
  • 5.2.1 爬行模块51-52
  • 5.2.2 服务器模块52-53
  • 5.2.3 负载均衡模块53-54
  • 5.2.4 系统的鲁棒性和扩展性模块54-55
  • 5.3 本章小结55-56
  • 结论56-57
  • 参考文献57-62
  • 致谢62

【相似文献】

中国期刊全文数据库 前10条

1 郑云翔;张燕芬;;e-Learning Grid动态负载均衡通用机制研究[J];中国电化教育;2011年11期

2 刘建;李绪志;;一种动态负载均衡机制的研究与实现[J];计算机工程与应用;2006年02期

3 曾蛟龙;胡荣贵;谷裕;许成喜;;遗传算法在蜜网动态负载均衡中的应用[J];计算机应用研究;2012年06期

4 吴恒山,张翼,李东;一个基于分布式数据库系统的动态负载分配算法[J];计算机应用研究;1999年11期

5 何昱;历军;;基于应用级监控的动态负载均衡系统[J];计算机工程;2008年09期

6 曹英存;;集群系统下的动态负载均衡探究[J];和田师范专科学校学报;2006年02期

7 王泽均;陈新;王勇;高宝庆;;基于动态负载均衡的网络监控系统[J];计算机工程;2008年24期

8 李金攻;张平;陈继光;;基于NAT-PT簇的集中式动态负载均衡的研究[J];通信技术;2009年04期

9 杨连云;;动态负载曲线在电视机可靠性设计中的应用[J];电视技术;1982年03期

10 祝伟华;徐强;;基于动态负载均衡的VRRP协议研究[J];重庆理工大学学报(自然科学);2011年07期

中国硕士学位论文全文数据库 前7条

1 付志辉;分布式爬虫的动态负载均衡方法研究[D];哈尔滨工业大学;2014年

2 许伟;分布式系统中的主机负载预测与动态负载均衡研究[D];中南大学;2004年

3 丁学智;一种面向分布式服务器集群的动态负载均衡系统的实现[D];北京邮电大学;2014年

4 张楠;基于LVS/DR集群的动态负载机制研究与实现[D];云南大学;2013年

5 柳旭日;基于负载预测和过载迁移的动态负载均衡研究[D];青岛理工大学;2009年

6 徐海龙;基于标准Linux内核的动态负载均衡实现[D];天津工业大学;2005年

7 王天翊;P2P网络中动态负载均衡研究[D];西安电子科技大学;2012年


  本文关键词:分布式爬虫的动态负载均衡方法研究,由笔耕文化传播整理发布。



本文编号:384682

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/384682.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户59feb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com