基于负载均衡的Hadoop平台下作业调度算法研究
本文选题:大数据 + MapReduce ; 参考:《新疆大学》2013年硕士论文
【摘要】:随着信息技术的不断发展,各个企业的IT系统中存储着越来越多与企业运营息息相关的数据,可以说这些数据是企业发展的核心。所有IT系统的发展都依赖于数据。各行各业每天都会产生海量的数据,并且数据量的增长成爆炸式。2010年底,,据互联网数据中心的统计,全球数据量已经达到了120万PB,到2020年底,全球所有以电子形式存储的数据量将达到35ZB。人们不禁感叹,大数据时代已经到来。而Hadoop正是应大数据时代的到来而出现的。Hadoop是一个能够对海量数据进行分布式处理的软件框架。它是以一种可靠、高效、可伸缩的方式进行处理的。调度器(Scheduler)是Hadoop平台中一个非常重要的组件,它的主要功能是将系统中的空闲资源按照一定的策略分配给各个作业,它对于整个系统计算资源分配及作业执行起着至关重要的作用。因此我们对Hadoop作业调度器及算法的研究有着重要意义。 本文首先介绍了Hadoop平台的优势及体系结构,接着对Hadoop的核心技术即Hadoop的分布式文件系统HDFS和Hadoop分布式数据处理MapReduce做了较为详细的介绍。然后对Hadoop原有的调度算法及LATE调度算法的原理及优缺点做了分析。另外,针对LATE调度算法在为落后任务选择备份执行节点策略的不足,本文提出了改进的LATE调度算法。该算法通过对Hadoop集群中的工作负荷进行分类,并提出对节点工作负载进行衡量的方法,进而在LATE调度算法的基础上提出了新的为落后任务选择备份执行节点的策略。最后介绍了拥有6个节点的Hadoop集群环境的搭建过程,并在该Hadoop集群上对LATE调度算法和改进的LATE调度算法进行了对比实验。实验结果表明,改进的LATE调度算法具有一定的优势。
[Abstract]:With the development of information technology, more and more data are stored in the IT system of each enterprise, which is the core of enterprise development. The development of all IT systems depends on data. All walks of life produce massive amounts of data every day, and the amount of data is exploding. By the end of 2010, according to the Internet data Center, the global data volume has reached 1.2 million PBs, and by the end of 2020, All data stored electronically around the world will reach 35 ZB. People can not help but sigh, big data era has come. Hadoop is a software framework that can deal with massive data distributed. It is handled in a reliable, efficient and scalable manner. Scheduler is a very important component in Hadoop platform. Its main function is to allocate the free resources to each job according to a certain policy. It plays an important role in computing resource allocation and job execution in the whole system. Therefore, it is of great significance to study Hadoop job scheduler and algorithm. Firstly, this paper introduces the advantages and architecture of Hadoop platform. Then, the core technology of Hadoop, namely, the distributed file system HDFS and Hadoop distributed data processing MapReduce, is introduced in detail. Then, the principle, advantages and disadvantages of Hadoop's original scheduling algorithm and path scheduling algorithm are analyzed. In addition, aiming at the deficiency of path scheduling algorithm in selecting backup execution node policy for backward tasks, this paper proposes an improved path scheduling algorithm. The algorithm classifies the workload in Hadoop cluster, and proposes a method to measure the workload of nodes, and then proposes a new strategy of selecting backup execution nodes for backward tasks based on the path scheduling algorithm. Finally, the construction process of Hadoop cluster environment with six nodes is introduced, and the comparison between the path scheduling algorithm and the improved path scheduling algorithm is carried out on the Hadoop cluster. Experimental results show that the improved path scheduling algorithm has some advantages.
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP338.8
【相似文献】
相关期刊论文 前10条
1 王峰;;Hadoop集群作业的调度算法[J];程序员;2009年12期
2 吴绍春;胡华山;;一个地震数据挖掘网格及其作业调度[J];上海大学学报(自然科学版);2006年05期
3 冼进;余桂城;;基于云计算的作业调度算法研究[J];计算机与数字工程;2011年07期
4 李培峰;朱巧明;支丽艳;;面向信息服务的网格资源管理器的设计[J];计算机工程;2008年03期
5 柴亚辉;李洪刚;顾训穰;;基于资源角色分类的密集计算网格作业管理[J];计算机应用与软件;2006年07期
6 叶建伟;方滨兴;田志宏;张宏莉;;基于节点相似度的容错网格作业调度算法研究[J];高技术通讯;2008年12期
7 卢正鼎;双机系统上的一个作业调度算法[J];华中科技大学学报(自然科学版);1985年06期
8 潘向辉;张二虎;吴学毅;蔺广逢;;一种多集群网格的负载均衡算法[J];计算机工程与应用;2009年35期
9 辛大欣;刘飞;;Hadoop集群性能优化技术研究[J];电脑知识与技术;2011年22期
10 顾立尧,邓桂英;排课程序时间片选择的安全决策调度算法[J];上海理工大学学报;1986年03期
相关会议论文 前10条
1 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
4 赵忠伟;;基于IEEE802.11支持QoS的调度器的模型和带宽分配算法[A];第九届全国青年通信学术会议论文集[C];2004年
5 赵旭;夏靖波;王哲;;Linux内核进程调度的研究与改进[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
6 李学桥;梁爽;陈园;;基于CPSS算法的RTAI调度器的改进[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
7 马春光;耿贵宁;尚治国;张秉政;;NS2的结构及其常用工具[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 李辉;严隽薇;刘敏;李继骏;;智能客服系统中调度器的设计与实现[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
9 刘桂波;陈国华;罗大庸;;一类链路调度器的统一随机服务曲线研究[A];2011第十六届全国自动化技术与应用学术年会专辑[C];2011年
10 骆志刚;李巍;张琰;管伟;;一种基于软件无线电概念的多标准基带软件的设计[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
相关重要报纸文章 前10条
1 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
2 本报记者 马文方;Hadoop:云中起舞的小象[N];中国计算机报;2010年
3 并行分布处理国家重点实验室 章文嵩 章文卓 吴泉源;可伸缩网络服务的Linux集群[N];计算机世界;2000年
4 中科院计算所软件研究室 李洋;确保Linux环境下文件共享的安全[N];计算机世界;2004年
5 本报记者 刘洪宇;Hadoop的中国前途[N];中国计算机报;2009年
6 吴e
本文编号:2001470
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2001470.html