分布式微博信息采集平台的设计与实现
发布时间:2017-08-19 10:12
本文关键词:分布式微博信息采集平台的设计与实现
更多相关文章: 分布式 可用性 数据采集 数据解析 XQuery模板
【摘要】:随着互联网技术、社交网络和移动网络的高速发展,对于海量数据的收集、分析、应用和预测已经成为各个领域的研究热点。目前,对海量数据的采集主要是整个网络范围的采集,比如各种搜索引擎,或者是单机模式的采集,这样的数据采集方案没有针对性或者性能较差。因此,分布式的垂直采集方案由此产生。 本文设计并实现了基于分布式模型的微博数据采集系统。数据采集采用模拟浏览器登陆后抓取页面以及解析页面的设计方案,考虑到可扩展性,系统架构采用Master/Slave的分布式模型。整个系统包括控制节点和工作节点两大部分。1)控制节点负责任务调度、任务状态检测和爬取数据的存储,其中任务调度模块采用基于优先级的FIFO算法实现,任务状态通过周期性的心跳机制检测,而数据存储采用批量数据存储方案。2)工作节点主要负责任务执行、任务状态汇报和任务申请。任务执行使用HTTPClient工具进行页面数据抓取,然后使用XQuery模板对目标数据进行解析。任务状态汇报基于工作节点周期性地向控制节点汇报本地任务的执行状态信息,便于控制节点对全局的管理。而任务申请模块采用线程池饱和运行策略决定任务申请个数。 经过功能测试之后本系统现在已经能够正常稳定运行,在性能方面还有待提升,之后还需要在一些设计和实现方面做出有效调整和改进,,使其能够更加稳定高效地工作。
【关键词】:分布式 可用性 数据采集 数据解析 XQuery模板
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-6
- 目录6-8
- 1 绪论8-11
- 1.1 研究背景与意义8-9
- 1.2 国内外研究现状9
- 1.3 项目来源及研究内容9-10
- 1.4 论文结构10-11
- 2 相关技术简介11-17
- 2.1 分布式系统概述11
- 2.2 分布式系统间通信11-13
- 2.3 网页抓取与解析技术13-16
- 2.4 本章小结16-17
- 3 信息采集平台分析与设计17-30
- 3.1 信息采集平台需求分析17-18
- 3.2 信息采集平台框架设计18-19
- 3.3 分布式平台模块设计19-27
- 3.4 数据库设计27-29
- 3.5 本章小结29-30
- 4 实现与测试30-53
- 4.1 控制节点实现30-39
- 4.2 工作节点实现39-47
- 4.3 信息采集平台测试与应用47-52
- 4.4 本章小结52-53
- 5 总结与展望53-55
- 5.1 论文工作总结53
- 5.2 系统展望53-55
- 致谢55-56
- 参考文献56-57
【相似文献】
中国期刊全文数据库 前1条
1 杨公平,曾广周,卢朝霞;移动Agent系统中的排队机制研究[J];计算机学报;2005年11期
中国硕士学位论文全文数据库 前2条
1 李宁;基于HDFS的小文件存储模型研究与实现[D];东北大学;2014年
2 范欣欣;分布式微博信息采集平台的设计与实现[D];华中科技大学;2014年
本文编号:700126
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/700126.html