MapReduce型海量数据处理平台中数据放置技术研究
本文关键词:MapReduce型海量数据处理平台中数据放置技术研究
更多相关文章: MapReduce HDFS 副本放置 灰色预测 CloudSim
【摘要】:MapReduce型数据处理平台(以下简称“Map Reduce平台”)是海量数据处理领域的最新技术之一。数据本地化处理是MapReduce平台的新特征,即将海量数据基于计算节点的本地磁盘分布存储且计算任务尽可能被调度到数据所在节点运行,从而降低数据处理中数据远程访问导致的通信开销,提高处理效率。因此,提升数据本地化处理几率是MapReduce平台追求的重要目标。数据放置是数据处理平台的核心技术之一,实现将数据在平台所有存储节点间合理有效地分布存储。与传统数据处理平台不同,海量数据基于计算节点存储及数据本地化处理的新特征使得MapReduce平台中数据放置决策不仅需要服务于数据存储效率,更需要服务于数据计算效率。既有的数据放置技术多以提升数据访问效率,减少数据I/O瓶颈为目标。上述技术运用于MapReduce平台,由于未考虑数据存储节点的计算负载特征,难以避免将热点数据存储于高计算负载的节点,从而导致数据本地化处理几率降低的问题。本文针对上述问题,开展以提升数据本地化处理几率为目标的MapReduce平台数据放置技术研究,通过在数据放置决策中引入数据块副本被本地化访问的比例、计算节点剩余计算资源等新因素,提升数据处理效率。本文的主要贡献包括:(1)定义了数据放置决策信息集。针对MapReduce平台的新特征,本文定义了数据放置决策所需要的信息集,在该信息集中首次引入了数据块副本的访问频次、数据块副本被本地化访问的比例和节点的剩余计算资源等信息,作为数据放置新的决策因子。(2)设计并实现了决策信息获取机制。本文定义了数据放置的决策信息获取机制,包括信息采集、信息统计与预测和信息汇总。设计了基于主从结构的决策信息获取框架,将信息采集和统计预测功能分离于平台各个计算节点(从节点)完成,中心节点仅完成信息汇总功能,降低中心节点的负载压力。同时,本文设计了基于灰色预测模型的决策信息预测机制。(3)设计并实现了既有数据块副本放置的动态调整策略。分析决策因子与数据块副本及数据节点的关系,设计了数据块副本评价值及节点评价值的计算方法。根据评价值筛选得到待迁移的数据块副本集合和迁移目标候选节点的集合,以兼顾系统的容错能力并最大化数据块副本的本地化访问几率为目标,重新放置数据块副本。(4)设计并实现了新增数据块副本的放置策略。在向分布式文件系统中写数据时,从机架随机选择出候选节点集合,向候选节点集合中剩余资源最多的节点放置数据块副本,提高该数据块副本被本地化访问的几率,同时主动地调整了各节点的存储资源使用量。(5)搭建仿真环境并完成性能测试。对仿真软件CloudSim进行扩展,配置了由上百个节点构成的MapReduce仿真平台。在相同的作业和数据提交量下,对改进的数据块副本放置策略与HDFS默认数据副本放置策略在作业平均执行时间等多个指标上进行了性能对比。结果表明,本文提出的数据块副本放置技术使得作业平均执行时间平均下降了12.03%.
【关键词】:MapReduce HDFS 副本放置 灰色预测 CloudSim
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP333
【目录】:
- 摘要4-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 研究背景及研究意义10-11
- 1.2 国内外研究现状11-13
- 1.3 论文研究内容及主要贡献13-14
- 1.4 论文的组织结构14-16
- 第2章 相关技术分析16-26
- 2.1 MapReduce型数据处理平台16-18
- 2.1.1 MapReduce编程模型16-17
- 2.1.2 数据本地化17-18
- 2.2 大数据计算平台Hadoop18-21
- 2.2.1 Hadoop概述18-19
- 2.2.2 Hadoop的资源申请与数据本地化19-20
- 2.2.3 分布式文件系统HDFS20-21
- 2.3 HDFS数据块副本放置策略21-24
- 2.3.1 HDFS默认的数据块副本放置策略21-22
- 2.3.2 HDFS改进的数据块副本放置策略22-24
- 2.4 本章小结24-26
- 第3章 MapReduce平台中数据放置架构设计26-32
- 3.1 数据副本放置的总体架构设计26-28
- 3.2 决策信息获取的架构设计28-29
- 3.3 数据块副本动态调整的架构设计29-30
- 3.4 新增数据块副本放置的架构设计30
- 3.5 本章小结30-32
- 第4章 MapReduce平台中数据放置决策信息获取机制设计32-42
- 4.1 决策信息定义与决策信息获取流程32-34
- 4.2 决策信息存储结构34-36
- 4.2.1 数据块副本访问信息存储结构设计34-35
- 4.2.2 节点剩余资源信息存储结构设计35-36
- 4.3 决策信息的采集与统计36-39
- 4.3.1 数据块副本的访问信息的采集与统计36-38
- 4.3.2 节点剩余资源信息的采集与统计38-39
- 4.4 决策信息的预测39-41
- 4.5 本章小结41-42
- 第5章 MapReduce平台中数据放置策略的设计42-48
- 5.1 数据块副本动态调整策略42-46
- 5.1.2 待迁移数据块副本的选择42-43
- 5.1.3 数据块副本迁移目标节点的选择43-46
- 5.2 新增数据块副本放置策略46-47
- 5.3 本章小结47-48
- 第6章 性能测评48-62
- 6.1 CloudSim的扩展48-50
- 6.1.1 CloudSim概述48
- 6.1.2 HDFS的CloudSim扩展实现48-50
- 6.1.3 MapReduce的CloudSim扩展实现50
- 6.2 仿真实验50-60
- 6.2.1 实验环境搭建50-52
- 6.2.2 评价指标52
- 6.2.3 实验环境配置52-53
- 6.2.4 性能测评与结果分析53-60
- 6.3 本章小结60-62
- 结论62-64
- 参考文献64-68
- 攻读硕士学位期间获得的科研成果68-70
- 致谢70
【相似文献】
中国期刊全文数据库 前10条
1 黄卫军;口岸城市通关数据处理平台[J];上海信息化;2005年01期
2 林华兵;;数据处理平台高可靠性的设计与实现[J];中国金融电脑;2010年11期
3 胡继军;;浅谈统计部门在数据处理平台设计中应考虑的问题[J];现代经济信息;2012年14期
4 王业斌;;省级防雷业务数据处理平台的开发[J];科技信息;2009年30期
5 龚一飞;刘万才;;农作物有害生物调查项目数据处理平台的构建与实现[J];中国植保导刊;2012年03期
6 邢煜;;一种海量数据处理平台的解决方案[J];电脑知识与技术;2013年21期
7 蔡玉宝;左春;张正;邹志强;;数据处理平台的研究与实现[J];计算机工程与设计;2008年07期
8 张涛;李建;康永佳;;多任务高并发数据处理平台的技术研究[J];网络安全技术与应用;2010年03期
9 宋均;祝林;;基于云计算的海量数据处理平台设计与实现[J];电讯技术;2012年04期
10 杨凯;曹小军;卢莺;;控制系统数据处理平台开发与应用[J];弹箭与制导学报;2009年04期
中国重要会议论文全文数据库 前6条
1 王业斌;徐建鹏;王凯;;安徽省常规防雷业务服务数据处理平台的开发[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
2 季晓林;刘海砚;;基于数据处理平台的空间矢量数据融合[A];中国地理信息系统协会第八届年会论文集[C];2004年
3 赵旭霞;刘立峰;邵起明;;智能路测系统中的数据处理平台[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
4 张鹏;;基于XML/Java的数据处理平台[A];Java技术及应用的进展——第八届中国Java技术及应用交流大会文集[C];2005年
5 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
6 陶金花;苏林;李树楷;;一种基于网格的LiDAR数据处理平台架构[A];2007年先进激光技术发展与应用研讨会论文集[C];2007年
中国重要报纸全文数据库 前5条
1 本报记者 刘书臻;山东:数据处理平台建成[N];中国信息报;2011年
2 杨小国;“四大工程”助推普查资料开发提速[N];中国信息报;2012年
3 董平;创新,永不止步[N];中国国门时报;2011年
4 《网络世界》记者 李夏艳;直面无线挑战[N];网络世界;2012年
5 ;“康师傅”喜新厌旧[N];网络世界;2002年
中国博士学位论文全文数据库 前1条
1 林文辉;基于Hadoop的海量网络数据处理平台的关键技术研究[D];北京邮电大学;2014年
中国硕士学位论文全文数据库 前10条
1 张利平;基于MPC8536的雷达嵌入式数据处理平台设计[D];电子科技大学;2015年
2 潘思聪;基于云环境的电信数据处理平台设计与实现[D];上海交通大学;2014年
3 严华;统计局数据处理平台的设计和实现[D];电子科技大学;2014年
4 张波;基于大数据技术的公安移动通信数据处理平台设计与实现[D];山东大学;2016年
5 周碧漳;面向量化交易的金融数据处理平台研究与原型实现[D];电子科技大学;2016年
6 张杰;面向车载信息的大规模数据处理平台技术研究[D];电子科技大学;2016年
7 王华慈;MapReduce型海量数据处理平台中数据放置技术研究[D];北京工业大学;2016年
8 樊明璐;流式大数据处理平台中资源动态调度技术研究[D];北京工业大学;2016年
9 杨鹏;面向流式数据处理平台JStorm的负载均衡技术研究[D];北京工业大学;2016年
10 但玻;城市热岛效应卫星遥感数据处理平台研发[D];电子科技大学;2011年
,本文编号:741564
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/741564.html