当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop的作业调度负载均衡算法研究

发布时间:2018-01-24 17:27

  本文关键词: 云计算 Hadoop MapReduce LATE 负载均衡 出处:《安徽理工大学》2016年硕士论文 论文类型:学位论文


【摘要】:随着Web2.0时代的到来,互联网的迅速发展,人们对网络的依赖越来越多。尤其是“互联网+”的提出,各大企业均响应号召,实施转型,各行各业每天都能产生海量数据,且呈爆炸式增长。由于海量信息的存储需求和新的计算能力的需求,促使了新的计算模式-云计算的诞生。而Hadoop是云平台中一个能够对大数据进行分布式处理的开源平台,是MapReduce编程模型的开源实现,也是众多学者进行大数据研究的首选平台。Hadoop的一个重要组件就是其调度器,它主要实现作业的调度执行和系统资源的合理分配,其调度算法的优劣对集群的性能有着至关重要的作用。因此对Hadoop调度器及算法的研究有着重要意义。本文通过研究Hadoop平台的现有算法,分析LATE算法的调度原理及优劣,针对其在异构环境下选择备份任务及执行节点时的不足,提出一个改进的IR-LATE调度算法。该算法首先对集群中的作业负载进行分类,选择备份执行时,通过IR-LATE调度算法为剩余完成时间最长、最需要备份的慢任务启动备份并选择最优节点执行。最后通过实验验证IR-LATE算法与LATE算法相比,不仅提高了对慢任务判定的正确性,还缩短了作业的平均运行时间,提升了集群的负载均衡。
[Abstract]:With the arrival of the Web2.0 era and the rapid development of the Internet, people rely more and more on the network, especially the "Internet" proposed, all major enterprises respond to the call to implement the transformation. A variety of industries can produce huge amounts of data every day and grow explosively due to the storage requirements of mass information and the need for new computing power. Hadoop is an open source platform for distributed processing of big data in the cloud platform and an open source implementation of the MapReduce programming model. It is also an important component of big data research platform. Hadoop is its scheduler, which mainly realizes the job scheduling execution and the rational allocation of system resources. The advantages and disadvantages of its scheduling algorithm is very important to the performance of the cluster. Therefore, the research of Hadoop scheduler and algorithm is of great significance. This paper studies the existing algorithms of Hadoop platform. This paper analyzes the scheduling principle of LATE algorithm and its advantages and disadvantages, aiming at its shortcomings in selecting backup tasks and executing nodes in heterogeneous environment. An improved IR-LATE scheduling algorithm is proposed, which first classifies the job load in the cluster. When the backup execution is selected, the remaining completion time is the longest through the IR-LATE scheduling algorithm. The slow task that needs the backup most starts the backup and selects the optimal node to execute. Finally, the IR-LATE algorithm is proved to be more accurate than the LATE algorithm in comparison with the LATE algorithm. It also shortens the average running time of the job and improves the load balance of the cluster.
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 罗拥军;李晓乐;孙如祥;;负载均衡算法综述[J];科技情报开发与经济;2008年23期

2 王琼;何新华;赵颖坤;胡如林;;基于访问特征负载预测的负载均衡算法[J];装甲兵工程学院学报;2009年05期

3 陈伟;;基于负反馈的负载均衡算法实现[J];湖南文理学院学报(自然科学版);2013年01期

4 李晓明;;一种模糊反馈流量信息的网络负载均衡算法[J];科技通报;2013年08期

5 谷凤娜;张志斌;王丽宏;;基于分布式入侵检测系统的负载均衡算法的比较[J];计算机科学;2008年11期

6 王魁生;符予;;集中式动态负载均衡算法的研究[J];西安石油大学学报(自然科学版);2011年06期

7 李新;黎文伟;;一种改进的动态告警负载均衡算法[J];小型微型计算机系统;2013年07期

8 陈登伟,鲁智勇;网络动态负载均衡算法分析[J];现代电子技术;2003年21期

9 赵兵选;卫星;樊少华;蔺玉;;基于累积点播概率的负载均衡算法研究[J];电子技术;2008年09期

10 李辉;张文博;王伟;;基于节点分组的异构集群负载均衡算法[J];计算机应用研究;2009年07期

相关会议论文 前1条

1 张耀旭;肖征荣;;基于LTE-Advanced网络自优化的负载均衡算法[A];2011全国无线及移动通信学术大会论文集[C];2011年

相关重要报纸文章 前1条

1 本报记者 范毅波;安全的“平方”[N];网络世界;2003年

相关硕士学位论文 前10条

1 陈满屯;分布式交通网络仿真的负载均衡算法研究及设计[D];电子科技大学;2014年

2 张萌洁;分布式交通网络仿真平台的动态负载均衡算法研究及应用[D];电子科技大学;2015年

3 常兴磊;基于LVS集群的一种动态负载均衡算法的研究与实现[D];湖南师范大学;2015年

4 王少娟;基于Hadoop的作业调度负载均衡算法研究[D];安徽理工大学;2016年

5 熊纪涛;校园网络中自适应负载均衡算法研究[D];电子科技大学;2008年

6 冯秀玲;云计算环境下的负载均衡算法的研究与设计[D];北京邮电大学;2012年

7 童瑞霞;基于动态反馈机制的集群负载均衡算法研究[D];武汉理工大学;2011年

8 杨潇;海量安全卡设备的负载均衡研究与实现[D];清华大学;2007年

9 魏钦磊;基于集群的动态反馈负载均衡算法的研究[D];重庆大学;2013年

10 陈广东;流媒体服务器集群负载均衡算法研究[D];华中师范大学;2006年



本文编号:1460585

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1460585.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7e24b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com