面向高性能计算平台的Hadoop框架研究及优化
发布时间:2017-11-20 17:19
本文关键词:面向高性能计算平台的Hadoop框架研究及优化
更多相关文章: Map Reduce 高性能计算 多层存储架构 Hadoop
【摘要】:随着信息化时代的发展,各种各样的数据随之而来,数据结构多样化以及数据规模对相关技术提出了巨大挑战。对于处理大数据的许多应用,MapReduce编程框架的优势很明显,在谷歌、阿里巴巴等国内外著名互联网公司得到很好的应用。目前高性能计算机的性能不断提高,在生物、天体物理学等领域得到广泛应用。因此,能否充分利用现有的高性能计算平台并在其上高效部署和使用MapReduce编程框架成为了人们关注的热点研究问题。本文在高性能计算机上成功部署MapReduce编程框架的基础上,分析其在I/O过程以及任务调度中存在的问题,对存在的问题深入剖析,并提出优化方法。本文的研究工作主要包括以下几个方面。(1)研究了面向高性能计算平台的Hadoop框架涉及的理论和技术,对MapReduce编程模型以及主要I/O过程进行深入的分析。MapReduce编程模型直接部署在高性能计算机上,会产生兼容性、数据本地化优势减少和I/O竞争加剧等问题。目前该课题研究主要集中在对中间数据网络传输和存储方式的优化,取得了一定的效果。本文结合目前研究成果,对任务调度和存储资源管理等方面进行进一步优化。(2)对于面向对象存储系统高性能计算机的Hadoop平台,提出一种基于节点网络内存的shuffle过程优化策略,并设计了任务调度和文件系统两个层次的实现方法。同时针对共享文件系统处理中间数据和临时数据的I/O效率问题,提出了一种基于均衡调度的高性能计算平台的Hadoop框架I/O优化方法。通过分析各存储节点的I/O负载信息,实时选择存储目标,从而实现存储系统的动态负载均衡。(3)对于面向多层存储架构高性能计算机的Hadoop平台,提出了一种I/O加速节点多分组的任务调度方法,利用节点对应不同reduce任务中间结果量优化调度策略。对于多作业的情况,提出了基于存储服务隔离的I/O服务质量维护方法,为高优先级的作业提供独立存储服务,保证存储服务质量。(4)在对象存储系统高性能计算机和多层存储架构高性能计算机的模拟实验环境中分别对上述几类优化方法进行实验验证。通过与现有方法进行对比,验证优化方法的效果,并对实验结果进行深入分析。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP38
【参考文献】
中国期刊全文数据库 前10条
1 李春艳;张学杰;;基于高性能计算的开源云平台性能评估[J];计算机应用;2013年12期
2 亓开元;韩燕波;赵卓峰;房俊;;支持高并发数据流处理的MapReduce中间结果缓存[J];计算机研究与发展;2013年01期
3 黄,
本文编号:1207929
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1207929.html