当前位置:主页 > 科技论文 > 计算机论文 >

高性能计算体系结构下的海量数据处理分析与优化

发布时间:2020-05-30 10:08
【摘要】:本文的研究内容是探索如何在高性能计算机上搭建海量数据处理平台,高效地实现海量数据处理。 首先,阐述了在高性能计算机上进行海量数据处理的难点和重大意义,分析了在高性能计算机上处理数据密集型应用,部署MapReduce架构的必要性、可行性、以及可能遇到的问题。 其次,通过实验对高性能计算机上MapReduce架构的性能进行评测。分别在不同的节点规模下、基于不同的存储系统、对不同类型应用的性能进行了评测。通过评测发现,分布式文件系统(DFS)的I/O性能可以随着节点数目的增加线性扩展,而集中存储系统的I/O性能则受限于集中存储系统中磁盘阵列的规模,所以在节点数目增加的情况下,基于DFS的测试性能要好得多。 再次,建立了RA-MapReduce性能预测模型。通过详细分析MapReduce作业各个阶段的执行过程,把执行MapReduce应用的性能(主要通过作业总的时间开销来反映)与应用特性参数以及集群硬件环境特性参数关联起来。通过该模型,可以计算出不同体系结构和硬件资源环境下,处理不同类型的数据密集型应用时,MapReduce作业各个阶段的时间开销,以及计算开销、数据I/O开销等在各个阶段中所占的比例。利用RA-MapReduce性能预测模型,既可以预测在特定硬件环境下运行某一特定MapReduce应用能够获得的最佳性能,也可以分析出影响MapReduce应用性能的瓶颈因素,以及增加某一类集群硬件资源能够获得的性能提升。 接下来,针对高性能计算机数据I/O能力有限,可能无法满足当前数据密集型应用需要的问题,提出了对高性能计算机上MapReduce架构设计的优化,即中间结果网络数据传输优化和中间结果本地存储优化。 最后,把RA-MapReduce性能预测模型与实验数据结合起来,验证了模型的正确性。通过模型分析和实验验证两个方面,分别证明了中间结果网络数据传输优化和中间结果本地存储优化,在高性能体系结构下的有效性。在本文的实验中,存储系统的I/O是系统性能的主要瓶颈,而中间结果本地存储优化减轻了集中存储系统的负担,很好地改善了系统的性能。实验证明,基于集中存储系统排序1TB数据,加入中间结果本地存储优化后,性能提升了32.5%。
【图文】:

示意图,编程模型,示意图


架构中为 HDFS (Hadoop Distributed File System),是一个应用级的统,维护了自己的名字空间和目录结构,起着承上启下的作用。向 Linux 的本地文件系统,即 DFS 把实际的数据块存储在 Linux 本地 等)上。在 DFS 中看到的一般是逻辑上的大文件,该文件对应的数据块分布在不同节点的硬盘上。向上,DFS 为 MapReduce 层维护输的划分。MapReduce 层对任务进行划分,是以对数据的划分为依据处理的一个一般性的原则是计算向数据迁移。对数据的划分,是由和维护的。1.3 任务管理 MapReduce 层 2 是 MapReduce 编程模型示意图。Map 任务对输入数据进行处理,、感兴趣的信息,产生中间键值对。在 Hadoop 中,Reduce 任务分为一个阶段是 Shuffle,即从 Map 任务所在节点取中间结果;第二个即把从多个节点取来的键值对进行合并;第三个阶段是 Reduce,即行总结、聚合等操作,得到最终的结果。

任务时间,节点,数据


在 2008 年 5 月,Yahoo 利用 Hadoop 赢得了 TeraByte Sort 的第一名,耗时 (3.48 分),比上一年的的纪录保持者保持的 297 秒快了将近 90 秒。当时 Had集群配置为 910 个节点(每个节点 4 个双核处理器,4 个硬盘,8GB 内存)[在进行排序基准测试时,Hadoop 为了保证合理地把中间结果分配给各educe 任务,在所有任务开始前额外增加了一个采样的过程。采样是为了对所入记录建立合适的分割点,保证每个 Reduce 任务负责排序一个特定的 Key 的,使得 Reduce 任务之间是有序的,各个 Reduce 任务只需要保证局部有序即3.2.2 基于 DFS 的性能评测首先,,在 10 个计算节点上,基于 DFS 排序 100GB 数据。这时,单元数据小为 Hadoop 默认的 64MB,集群中的 Map 任务槽(Map Task Slot)数为 9educe 任务槽(Reduce Task Slot)数为 99。本次作业共分配了 1500 个 Map 任 90 个 Reduce 任务,输入数据量为 100GB,Map 任务完成后产生的中间数据 100GB,最终结果输出数据量也为 100GB。作业总运行时间为 489s,作业的时间图如图 3.1 所示。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP338

【共引文献】

相关期刊论文 前10条

1 张晓辉;嵌入式操作系统驱动程序开发[J];安徽电气工程职业技术学院学报;2005年01期

2 李长志;集群服务器系统负载均衡原理的分析与实现[J];重庆邮电学院学报(自然科学版);2004年06期

3 李允俊;在Linux下串行接口的C语言编程方法[J];长春理工大学学报;2005年01期

4 黄淑玲;可扩展并行计算的应用与研究[J];电脑知识与技术;2005年12期

5 胡志坤,李建清,张中平,胡德胜;基于嵌入式Linux的气象数据采集系统的设计[J];电子工程师;2004年02期

6 孙德妮,曾鹏;Linux系统防火墙技术的实现[J];电子工程师;2004年05期

7 黄昕,周建江;基于TS101的多DSP并行视频实时处理系统硬件设计[J];电子工程师;2005年02期

8 杨素彬;谭成翔;;Linux连线跟踪机制及应用[J];计算机安全;2006年07期

9 马勇;刘顺兰;章坚武;;嵌入式多媒体播放器的系统设计与实现[J];杭州电子科技大学学报;2006年02期

10 李凡,卢社阶,邱鹏,林爱武;在嵌入式应用中增强Linux实时性的方法研究[J];华中科技大学学报(自然科学版);2005年02期

相关会议论文 前3条

1 张兴起;;嵌入式数字视频的挑战与希望[A];全国第二届嵌入式技术联合学术会议论文集[C];2007年

2 姜咏江;;内存分块并行计算机研究[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

3 耿江东;薛正辉;高本庆;;应用并行GTD算法计算阵列天线近场受扰[A];第17届全国电磁兼容学术会议论文集[C];2007年

相关博士学位论文 前9条

1 邹勇;开放式实时系统的调度方法研究[D];中国科学院研究生院(软件研究所);2003年

2 孙照焱;基于生物免疫机制的附网存储关键技术研究[D];清华大学;2004年

3 王建;并行最优化算法与软件设计及数值软件移植[D];中国科学院研究生院(软件研究所);2005年

4 郭荣祥;基于VEGA网格的Dixon结式分布式计算[D];中国科学院研究生院(成都计算机应用研究所);2006年

5 张小平;高分辨率多波束成像声呐关键技术研究[D];哈尔滨工程大学;2005年

6 李康;光波导器件的高阶FDTD并行仿真分析[D];山东大学;2006年

7 孙宏元;基于HPC的多分辨空间信息应用基础平台关键技术研究[D];西安电子科技大学;2006年

8 刘炫;网络光盘库的应用性能研究[D];清华大学;2007年

9 田翔;模型预测控制并行计算系统研究[D];浙江大学;2007年

相关硕士学位论文 前10条

1 薛筱宇;基于Linux内核的操作系统实验系统[D];西南交通大学;2003年

2 万加富;嵌入式Linux的移植及其在网络测控中的应用研究[D];广东工业大学;2003年

3 李代伟;基于Linux的OS实验系统[D];西南交通大学;2003年

4 王景丽;基于LINUX的IPSEC协议的研究与实现[D];西南交通大学;2003年

5 康鹏;机顶盒设备GUI系统的设计与实现[D];北京工业大学;2003年

6 王丽梅;安全Linux访问控制机制研究与实现[D];北京工业大学;2003年

7 李天翼;基于网络存储的web服务器集群系统的研究与实现[D];四川大学;2003年

8 李德海;实时集群计算机系统研究与应用[D];西安科技大学;2003年

9 邵丹;关于Linux操作系统应用于嵌入式设备中的研究[D];哈尔滨理工大学;2003年

10 石斌;航空发动机高可靠性FADEC软件系统技术研究[D];西北工业大学;2004年



本文编号:2687976

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2687976.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户856e4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com