高性能计算体系结构下的海量数据处理分析与优化
【图文】:
架构中为 HDFS (Hadoop Distributed File System),是一个应用级的统,维护了自己的名字空间和目录结构,起着承上启下的作用。向 Linux 的本地文件系统,即 DFS 把实际的数据块存储在 Linux 本地 等)上。在 DFS 中看到的一般是逻辑上的大文件,该文件对应的数据块分布在不同节点的硬盘上。向上,DFS 为 MapReduce 层维护输的划分。MapReduce 层对任务进行划分,是以对数据的划分为依据处理的一个一般性的原则是计算向数据迁移。对数据的划分,是由和维护的。1.3 任务管理 MapReduce 层 2 是 MapReduce 编程模型示意图。Map 任务对输入数据进行处理,、感兴趣的信息,产生中间键值对。在 Hadoop 中,Reduce 任务分为一个阶段是 Shuffle,即从 Map 任务所在节点取中间结果;第二个即把从多个节点取来的键值对进行合并;第三个阶段是 Reduce,即行总结、聚合等操作,得到最终的结果。
在 2008 年 5 月,Yahoo 利用 Hadoop 赢得了 TeraByte Sort 的第一名,耗时 (3.48 分),比上一年的的纪录保持者保持的 297 秒快了将近 90 秒。当时 Had集群配置为 910 个节点(每个节点 4 个双核处理器,4 个硬盘,8GB 内存)[在进行排序基准测试时,Hadoop 为了保证合理地把中间结果分配给各educe 任务,在所有任务开始前额外增加了一个采样的过程。采样是为了对所入记录建立合适的分割点,保证每个 Reduce 任务负责排序一个特定的 Key 的,使得 Reduce 任务之间是有序的,各个 Reduce 任务只需要保证局部有序即3.2.2 基于 DFS 的性能评测首先,,在 10 个计算节点上,基于 DFS 排序 100GB 数据。这时,单元数据小为 Hadoop 默认的 64MB,集群中的 Map 任务槽(Map Task Slot)数为 9educe 任务槽(Reduce Task Slot)数为 99。本次作业共分配了 1500 个 Map 任 90 个 Reduce 任务,输入数据量为 100GB,Map 任务完成后产生的中间数据 100GB,最终结果输出数据量也为 100GB。作业总运行时间为 489s,作业的时间图如图 3.1 所示。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP338
【共引文献】
相关期刊论文 前10条
1 张晓辉;嵌入式操作系统驱动程序开发[J];安徽电气工程职业技术学院学报;2005年01期
2 李长志;集群服务器系统负载均衡原理的分析与实现[J];重庆邮电学院学报(自然科学版);2004年06期
3 李允俊;在Linux下串行接口的C语言编程方法[J];长春理工大学学报;2005年01期
4 黄淑玲;可扩展并行计算的应用与研究[J];电脑知识与技术;2005年12期
5 胡志坤,李建清,张中平,胡德胜;基于嵌入式Linux的气象数据采集系统的设计[J];电子工程师;2004年02期
6 孙德妮,曾鹏;Linux系统防火墙技术的实现[J];电子工程师;2004年05期
7 黄昕,周建江;基于TS101的多DSP并行视频实时处理系统硬件设计[J];电子工程师;2005年02期
8 杨素彬;谭成翔;;Linux连线跟踪机制及应用[J];计算机安全;2006年07期
9 马勇;刘顺兰;章坚武;;嵌入式多媒体播放器的系统设计与实现[J];杭州电子科技大学学报;2006年02期
10 李凡,卢社阶,邱鹏,林爱武;在嵌入式应用中增强Linux实时性的方法研究[J];华中科技大学学报(自然科学版);2005年02期
相关会议论文 前3条
1 张兴起;;嵌入式数字视频的挑战与希望[A];全国第二届嵌入式技术联合学术会议论文集[C];2007年
2 姜咏江;;内存分块并行计算机研究[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 耿江东;薛正辉;高本庆;;应用并行GTD算法计算阵列天线近场受扰[A];第17届全国电磁兼容学术会议论文集[C];2007年
相关博士学位论文 前9条
1 邹勇;开放式实时系统的调度方法研究[D];中国科学院研究生院(软件研究所);2003年
2 孙照焱;基于生物免疫机制的附网存储关键技术研究[D];清华大学;2004年
3 王建;并行最优化算法与软件设计及数值软件移植[D];中国科学院研究生院(软件研究所);2005年
4 郭荣祥;基于VEGA网格的Dixon结式分布式计算[D];中国科学院研究生院(成都计算机应用研究所);2006年
5 张小平;高分辨率多波束成像声呐关键技术研究[D];哈尔滨工程大学;2005年
6 李康;光波导器件的高阶FDTD并行仿真分析[D];山东大学;2006年
7 孙宏元;基于HPC的多分辨空间信息应用基础平台关键技术研究[D];西安电子科技大学;2006年
8 刘炫;网络光盘库的应用性能研究[D];清华大学;2007年
9 田翔;模型预测控制并行计算系统研究[D];浙江大学;2007年
相关硕士学位论文 前10条
1 薛筱宇;基于Linux内核的操作系统实验系统[D];西南交通大学;2003年
2 万加富;嵌入式Linux的移植及其在网络测控中的应用研究[D];广东工业大学;2003年
3 李代伟;基于Linux的OS实验系统[D];西南交通大学;2003年
4 王景丽;基于LINUX的IPSEC协议的研究与实现[D];西南交通大学;2003年
5 康鹏;机顶盒设备GUI系统的设计与实现[D];北京工业大学;2003年
6 王丽梅;安全Linux访问控制机制研究与实现[D];北京工业大学;2003年
7 李天翼;基于网络存储的web服务器集群系统的研究与实现[D];四川大学;2003年
8 李德海;实时集群计算机系统研究与应用[D];西安科技大学;2003年
9 邵丹;关于Linux操作系统应用于嵌入式设备中的研究[D];哈尔滨理工大学;2003年
10 石斌;航空发动机高可靠性FADEC软件系统技术研究[D];西北工业大学;2004年
本文编号:2687976
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2687976.html