高性能计算体系结构下的海量数据处理分析与优化

发布时间：2020-05-30 10:08

【摘要】：本文的研究内容是探索如何在高性能计算机上搭建海量数据处理平台,高效地实现海量数据处理。首先,阐述了在高性能计算机上进行海量数据处理的难点和重大意义,分析了在高性能计算机上处理数据密集型应用,部署MapReduce架构的必要性、可行性、以及可能遇到的问题。其次,通过实验对高性能计算机上MapReduce架构的性能进行评测。分别在不同的节点规模下、基于不同的存储系统、对不同类型应用的性能进行了评测。通过评测发现,分布式文件系统(DFS)的I/O性能可以随着节点数目的增加线性扩展,而集中存储系统的I/O性能则受限于集中存储系统中磁盘阵列的规模,所以在节点数目增加的情况下,基于DFS的测试性能要好得多。再次,建立了RA-MapReduce性能预测模型。通过详细分析MapReduce作业各个阶段的执行过程,把执行MapReduce应用的性能(主要通过作业总的时间开销来反映)与应用特性参数以及集群硬件环境特性参数关联起来。通过该模型,可以计算出不同体系结构和硬件资源环境下,处理不同类型的数据密集型应用时,MapReduce作业各个阶段的时间开销,以及计算开销、数据I/O开销等在各个阶段中所占的比例。利用RA-MapReduce性能预测模型,既可以预测在特定硬件环境下运行某一特定MapReduce应用能够获得的最佳性能,也可以分析出影响MapReduce应用性能的瓶颈因素,以及增加某一类集群硬件资源能够获得的性能提升。接下来,针对高性能计算机数据I/O能力有限,可能无法满足当前数据密集型应用需要的问题,提出了对高性能计算机上MapReduce架构设计的优化,即中间结果网络数据传输优化和中间结果本地存储优化。最后,把RA-MapReduce性能预测模型与实验数据结合起来,验证了模型的正确性。通过模型分析和实验验证两个方面,分别证明了中间结果网络数据传输优化和中间结果本地存储优化,在高性能体系结构下的有效性。在本文的实验中,存储系统的I/O是系统性能的主要瓶颈,而中间结果本地存储优化减轻了集中存储系统的负担,很好地改善了系统的性能。实验证明,基于集中存储系统排序1TB数据,加入中间结果本地存储优化后,性能提升了32.5%。
【图文】：

示意图,编程模型,示意图

架构中为 HDFS (Hadoop Distributed File System)，是一个应用级的统，维护了自己的名字空间和目录结构，起着承上启下的作用。向 Linux 的本地文件系统，即 DFS 把实际的数据块存储在 Linux 本地等)上。在 DFS 中看到的一般是逻辑上的大文件，该文件对应的数据块分布在不同节点的硬盘上。向上，DFS 为 MapReduce 层维护输的划分。MapReduce 层对任务进行划分，是以对数据的划分为依据处理的一个一般性的原则是计算向数据迁移。对数据的划分，是由和维护的。1.3 任务管理 MapReduce 层 2 是 MapReduce 编程模型示意图。Map 任务对输入数据进行处理，、感兴趣的信息，产生中间键值对。在 Hadoop 中，Reduce 任务分为一个阶段是 Shuffle，即从 Map 任务所在节点取中间结果；第二个即把从多个节点取来的键值对进行合并；第三个阶段是 Reduce，即行总结、聚合等操作，得到最终的结果。

任务时间,节点,数据

在 2008 年 5 月，Yahoo 利用 Hadoop 赢得了 TeraByte Sort 的第一名，耗时（3.48 分），比上一年的的纪录保持者保持的 297 秒快了将近 90 秒。当时 Had集群配置为 910 个节点（每个节点 4 个双核处理器，4 个硬盘，8GB 内存）[在进行排序基准测试时，Hadoop 为了保证合理地把中间结果分配给各educe 任务，在所有任务开始前额外增加了一个采样的过程。采样是为了对所入记录建立合适的分割点，保证每个 Reduce 任务负责排序一个特定的 Key 的，使得 Reduce 任务之间是有序的，各个 Reduce 任务只需要保证局部有序即3.2.2 基于 DFS 的性能评测首先，，在 10 个计算节点上，基于 DFS 排序 100GB 数据。这时，单元数据小为 Hadoop 默认的 64MB，集群中的 Map 任务槽（Map Task Slot）数为 9educe 任务槽（Reduce Task Slot）数为 99。本次作业共分配了 1500 个 Map 任 90 个 Reduce 任务，输入数据量为 100GB，Map 任务完成后产生的中间数据 100GB，最终结果输出数据量也为 100GB。作业总运行时间为 489s，作业的时间图如图 3.1 所示。
【学位授予单位】：国防科学技术大学
【学位级别】：硕士
【学位授予年份】：2011
【分类号】：TP338

【共引文献】