一种基于P2P技术的分布式微博爬虫系统
发布时间:2017-12-05 19:19
本文关键词:一种基于P2P技术的分布式微博爬虫系统
更多相关文章: P2P技术 Chord协议 微博爬虫 负载均衡 模拟登录
【摘要】:在互联网技术飞速发展的今天,微博已经成为一种传播公共信息的重要媒体。通过微博近乎实时的信息传播渠道,相关部门可以利用微博来监测舆情,针对突发事件快速做出应对。因此高效、准确地获取微博数据以供研究分析至关重要。传统网页爬虫技术无法获得完整的微博信息,而微博API平台有一定的功能制约,对连接次数也有限制,无法获取海量的微博数据资源。针对以上问题,本文设计一种基于Chord协议的分布式网络爬虫模型Chord-Crawler,并通过一定的修改操作,将模型实际应用到分布式微博爬虫系统中,系统能够高效、准确、连续的获取海量微博数据。爬虫程序通过模拟登录技术结合传统的网络爬虫程序实现了完整的微博数据爬取,并使用位图法对数据进行去重处理。系统在Chord协议的基础上,利用一致性哈希函数配合微博用户的省份位置信息作为任务分配的策略,通过不断更新节点的省份-节点匹配表,减少任务的转发消耗。系统通过本文提出的动态插入均衡算法平衡网络中各节点的负载,提高系统的整体效率。最后本文通过模拟实验证明了动态插入均衡算法能够高效地完成均衡负载的功能,并通过与其他三种结构的比较体现了本文提出的分布式微博爬虫系统的性能优势,证明本系统的良好性能可以为微博数据分析提供数据支持。
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.3
【相似文献】
中国期刊全文数据库 前10条
1 黄琰;周学海;李曦;;动态概率探测解决Chord断环问题[J];计算机工程与应用;2006年36期
2 王菁;杨寿保;郭磊涛;周金洋;;基于延迟敏感的双向查询Chord系统[J];小型微型计算机系统;2007年04期
3 刘云;马义忠;,
本文编号:1255903
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1255903.html