云数据采集系统中云爬虫子系统的设计与实现
发布时间:2021-08-11 14:59
随着互联网和数据挖掘技术的高速发展,因特网上海量的网页数据价值愈发凸显。现有的网络爬虫技术对于网页数据采集问题存在着不易使用、不易定制等不足。本文把云计算技术和网络爬虫技术相结合,基于软件即服务(SaaS)的服务模式,设计和实现了云数据采集系统中的云爬虫子系统。不同的用户可以根据自身的需求在云爬虫子系统提供的独立的爬虫集群服务上便捷地执行数据采集任务。为了实现分布式爬虫与SaaS模式有机结合,本文主要研究了云爬虫子系统中的两个关键问题:爬虫节点管理和链接抓取任务调度。在爬虫节点管理方面,本文提出了一种使用etcd辅助的爬虫节点管理方案,该方案通过规定子系统中所有爬虫节点一系列共同的行为,使得各个集群的爬虫节点可以混合部署相互替换。该方案支持爬虫节点配置运行时更新,支持对于各个爬虫集群在运行时动态增减节点,以及集群故障节点及时感知,保证爬虫集群服务的可靠性。在链接抓取任务调度方面,本文提出了一种基于jump consistent hash算法改进的调度方案OJCH。OJCH使用jump consistent hash算法计算节点,得到与jump consistent hash算法类似的性...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:99 页
【学位级别】:硕士
【部分图文】:
图2-1网络爬虫工作流程图??如图2-1所示,网络爬虫在启动时先把用户提供的初始种子URL加入到待??抓取URL队列中,然后在待抓取URL队列不为空时,进行循环操作:从待抓取??
?Slave??图2-2主从式架构图??如图2-2所示,图中的中心节点(Master)?—般有待抓取的URL队列,按??照一定策略将待抓取队列中的URL交给某个爬虫节点(Slave)去执行,同时接??收爬虫节点发来的新的URL,将爬虫节点发来的URL去重后放入待抓取的URL??队列中。爬虫节点负责从中心节点处接收URL,选组完成该URL的网页文件后,??解析网页文件,得到其中的URL并发送给中心节点。在主从式架构中,各个爬??虫节点之间一般不需要通信,URL统一由中心节点调度处理,比较容易设计及??实现,但是中心节点容易成为整个系统的性能瓶颈,如果中心节点停止工作就会??导致整个分布式爬虫系统停止工作。??对等式架构与主从式架构不同,在对等式架构的爬虫系统中,没有主从式结??构中的中心节点
?需要按照统一的方法对数据抓取任务进行调度,以便能将相同URL的数据抓取??任务调度到相同的爬虫节点上。对等式架构的结构如图2-3所示。??/Peer\??^???-k??0?0??Peer?Peer??图2-3对等式架构??如图2-3所示,在这种结构中,各个节点地位是相等的,有部分节点发生故??障时,其他节点仍能正常工作,整个系统的健壮性较好,但是每个爬虫节点需要??维护同其他爬虫节点之间的通信以及监听其他爬虫节点的状态,系统较为复杂,??设计及实现难度较大。??2.2分布式爬虫相关技术??分布式爬虫集群需要爬虫集群中的节点进行协作,以完成数据抓取的任务。??链接抓取任务是由网页URL组成的,在分布式爬虫系统中,每个爬虫节点都会??处理许多链接抓取任务,链接抓取任务调度和链接抓取任务去重算法对于分布式??爬虫集群的效率尤为重要。下文将介绍链接抓取任务调度和链接抓取任务去重算??法。??2.2.1链接抓取任务调度??在分布式爬虫系统中,各个爬虫节点并行地处理同一个数据采集任务产生的??数量众多链接抓取任务
【参考文献】:
期刊论文
[1]一种基于Kademlia的全分布式爬虫集群方法[J]. 黄志敏,曾学文,陈君. 计算机科学. 2014(03)
[2]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发. 电脑知识与技术. 2010(15)
硕士论文
[1]基于改进爬虫技术的SQL注入的自动化扫描工具的研究与设计[D]. 贾潇雨.北京邮电大学 2018
[2]基于高实时分布式网络的爬虫软件设计与实现[D]. 张峰.浙江大学 2018
[3]基于Hadoop平台的网络爬虫技术研究[D]. 张金.南京邮电大学 2017
[4]基于分布式的网络爬虫系统的研究与实现[D]. 荣晗.电子科技大学 2017
[5]针对动态网络数据的分布式增量获取方法[D]. 曹煜.北京邮电大学 2017
[6]分布式爬虫任务调度与AJAX页面抓取研究[D]. 李婷.电子科技大学 2015
[7]搜索引擎中网络爬虫的研究与实现[D]. 段兵营.西安电子科技大学 2014
[8]分布式网络爬虫技术研究与实现[D]. 王毅桐.电子科技大学 2012
[9]基于可扩展哈希算法的并行爬虫动态负载均衡实现[D]. 孙守兴.哈尔滨工业大学 2010
本文编号:3336369
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:99 页
【学位级别】:硕士
【部分图文】:
图2-1网络爬虫工作流程图??如图2-1所示,网络爬虫在启动时先把用户提供的初始种子URL加入到待??抓取URL队列中,然后在待抓取URL队列不为空时,进行循环操作:从待抓取??
?Slave??图2-2主从式架构图??如图2-2所示,图中的中心节点(Master)?—般有待抓取的URL队列,按??照一定策略将待抓取队列中的URL交给某个爬虫节点(Slave)去执行,同时接??收爬虫节点发来的新的URL,将爬虫节点发来的URL去重后放入待抓取的URL??队列中。爬虫节点负责从中心节点处接收URL,选组完成该URL的网页文件后,??解析网页文件,得到其中的URL并发送给中心节点。在主从式架构中,各个爬??虫节点之间一般不需要通信,URL统一由中心节点调度处理,比较容易设计及??实现,但是中心节点容易成为整个系统的性能瓶颈,如果中心节点停止工作就会??导致整个分布式爬虫系统停止工作。??对等式架构与主从式架构不同,在对等式架构的爬虫系统中,没有主从式结??构中的中心节点
?需要按照统一的方法对数据抓取任务进行调度,以便能将相同URL的数据抓取??任务调度到相同的爬虫节点上。对等式架构的结构如图2-3所示。??/Peer\??^???-k??0?0??Peer?Peer??图2-3对等式架构??如图2-3所示,在这种结构中,各个节点地位是相等的,有部分节点发生故??障时,其他节点仍能正常工作,整个系统的健壮性较好,但是每个爬虫节点需要??维护同其他爬虫节点之间的通信以及监听其他爬虫节点的状态,系统较为复杂,??设计及实现难度较大。??2.2分布式爬虫相关技术??分布式爬虫集群需要爬虫集群中的节点进行协作,以完成数据抓取的任务。??链接抓取任务是由网页URL组成的,在分布式爬虫系统中,每个爬虫节点都会??处理许多链接抓取任务,链接抓取任务调度和链接抓取任务去重算法对于分布式??爬虫集群的效率尤为重要。下文将介绍链接抓取任务调度和链接抓取任务去重算??法。??2.2.1链接抓取任务调度??在分布式爬虫系统中,各个爬虫节点并行地处理同一个数据采集任务产生的??数量众多链接抓取任务
【参考文献】:
期刊论文
[1]一种基于Kademlia的全分布式爬虫集群方法[J]. 黄志敏,曾学文,陈君. 计算机科学. 2014(03)
[2]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发. 电脑知识与技术. 2010(15)
硕士论文
[1]基于改进爬虫技术的SQL注入的自动化扫描工具的研究与设计[D]. 贾潇雨.北京邮电大学 2018
[2]基于高实时分布式网络的爬虫软件设计与实现[D]. 张峰.浙江大学 2018
[3]基于Hadoop平台的网络爬虫技术研究[D]. 张金.南京邮电大学 2017
[4]基于分布式的网络爬虫系统的研究与实现[D]. 荣晗.电子科技大学 2017
[5]针对动态网络数据的分布式增量获取方法[D]. 曹煜.北京邮电大学 2017
[6]分布式爬虫任务调度与AJAX页面抓取研究[D]. 李婷.电子科技大学 2015
[7]搜索引擎中网络爬虫的研究与实现[D]. 段兵营.西安电子科技大学 2014
[8]分布式网络爬虫技术研究与实现[D]. 王毅桐.电子科技大学 2012
[9]基于可扩展哈希算法的并行爬虫动态负载均衡实现[D]. 孙守兴.哈尔滨工业大学 2010
本文编号:3336369
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3336369.html