基于改进Kademlia协议的分布式爬虫
发布时间:2017-12-04 17:01
本文关键词:基于改进Kademlia协议的分布式爬虫
更多相关文章: 分布式哈希表 PP 网络爬虫 Kademlia协议 去中心化
【摘要】:随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性.
【作者单位】: 中国科学院沈阳计算技术研究所;中国科学院大学;
【基金】:沈阳市科技计划(F14-056-7-00)
【分类号】:TP393.02;TP391.3
【正文快照】: 随着互联网时代的来临,网络信息呈指数级增长.传统的网络爬虫已渐渐不能满足互联网搜索引擎和大数据分析的需要[1],而基于中心调度的主从式的爬虫也因为网络负载高、扩展相对困难、广域网部署困难[2,3]等原因发展缓慢,因此全分布式、易扩展的网络爬虫架构[4-6]成为了学术界和,
本文编号:1251681
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1251681.html