当前位置:主页 > 科技论文 > 计算机论文 >

基于Hadoop平台的分布式任务调度算法研究

发布时间:2018-10-30 17:37
【摘要】:随着信息技术的发展,互联网作为一种服务越来越深远地影响人类的生活。在信息爆炸的背景下,海量信息处理成为计算机科学的新挑战。MapReduce是一个并行分布式数据处理编程模型,它的优势在于简化传统分布式程序的开发,使得开发人员只需专注于业务逻辑程序的编写无需考虑分布式的实现细节。Hadoop是MapReduce的开源实现,它是众多的海量数据处理企业、研究机构提供数据处理的基础平台。MapReduce调度算法主要解决的是集群共享,集群资源的利用,作业的响应时间等问题。同时,随着用户的实时性要求的增加关于MapReduce的实时调度的研究也越来越多。MapReduce的实时调度的难点在于作业实时调度的模型,同时又要考虑到集群的异构性和数据的本地性。任务剩余时间预测是实时调度的重要部分,剩余时间的预测往往易受到集群的异构性特点的影响。 通过研究Hadoop作业运行时机制,本文提出了一种自适应的Reduce任务调度算法(Self-Adaptive Reduce Scheduling, SARS)。在现有的MapReduce调度算法研究中,Reduce任务的调度时间过于简单。Reduce任务的调度时间直接影响Reduce的完成时间和集群资源的利用率。SARS调度算法能够根据作业自身的特性决定Reduce任务的调度时间。实验结果表明SARS调度算法减少了Reduce的完成时间和集群作业的平均响应时间,进一步提高了集群资源的利用率。 通过研究集群的异构性,本文提出了一种基于计算能力的节点分类算法,用于划分集群中不同计算能力的节点。在节点分类算法的基础上,提出了一种基于时间约束的实时调度算法(MapReduce Task Scheduling for Deadline constraints, MTSD)。MTSD提出了一种任务剩余时间评估模型,进而推导出实时作业调度时资源的需求模型。通过实验表明MTSD提高了MapReduce作业的数据本地性,并能够完成实时调度需求。
[Abstract]:With the development of information technology, the Internet, as a service, has a profound impact on human life. Under the background of information explosion, mass information processing has become a new challenge in computer science. MapReduce is a parallel distributed data processing programming model, which has the advantage of simplifying the development of traditional distributed programs. Hadoop is an open source implementation of MapReduce, which is a large number of massive data processing enterprises. MapReduce scheduling algorithm mainly solves the problems of cluster sharing, utilization of cluster resources, response time of jobs and so on. At the same time, with the increase of real-time requirements of users, there are more and more researches on real-time scheduling of MapReduce. The difficulty of real-time scheduling of MapReduce lies in the model of real-time job scheduling, and the heterogeneity of cluster and the locality of data must be considered at the same time. Task residual time prediction is an important part of real-time scheduling, and the prediction of remaining time is often affected by the heterogeneity of cluster. This paper proposes an adaptive Reduce task scheduling algorithm (Self-Adaptive Reduce Scheduling, SARS).) by studying the mechanism of Hadoop job runtime. In the existing MapReduce scheduling algorithm research, The scheduling time of Reduce task is too simple. The scheduling time of Reduce task directly affects the completion time of Reduce and the utilization of cluster resources. SARS scheduling algorithm can decide the scheduling time of Reduce task according to the characteristics of the job itself. Experimental results show that the SARS scheduling algorithm reduces the completion time of Reduce and the average response time of cluster jobs, and further improves the utilization of cluster resources. By studying the heterogeneity of cluster, this paper proposes a node classification algorithm based on computing power, which is used to divide the nodes with different computing power in the cluster. On the basis of node classification algorithm, a real-time scheduling algorithm based on time constraint, (MapReduce Task Scheduling for Deadline constraints, MTSD). MTSD, is proposed, and a task residual time evaluation model is proposed. Then the resource requirement model of real-time job scheduling is derived. Experiments show that MTSD improves the data localization of MapReduce jobs and can fulfill the real-time scheduling requirements.
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP338.8

【相似文献】

相关期刊论文 前10条

1 李云涛;崔少辉;;一种基于UUTs模型的并行测试任务调度算法[J];电子测量技术;2009年07期

2 周建中;王树宗;石章松;王成飞;;基于遗传算法的网格任务调度方法研究[J];舰船科学技术;2009年11期

3 邓定兰;于炯;谭亚丽;吕良干;;网格工作流的动态贪心调度算法[J];计算机工程;2010年03期

4 邓万涛,彭德纯,林子禹,陈天雄;BALANCE-II:一个基于Internet环境的负载平衡系统[J];小型微型计算机系统;2000年07期

5 黄鲲;王知衍;翁小雄;;树形异构网格的启发任务调度算法[J];微电子学与计算机;2007年10期

6 薛桂香;赵政;史伟;孟和;宋建材;;基于OPNET的局部网格任务调度平台设计[J];计算机工程;2008年03期

7 于洋;杨愚鲁;杨学刚;贺铭;;分布式网格系统的任务调度算法DE Scheduling[J];计算机工程;2008年14期

8 马景奕;隋兵;舒万能;;基于Min-Min遗传算法的网格任务调度方法[J];计算机工程与应用;2008年23期

9 刘先刚;廖述剑;;网格任务调度算法的研究[J];机械工程与自动化;2011年01期

10 王祖析;;基于QoS Guided Min-min任务调度算法局部优化[J];电脑编程技巧与维护;2011年10期

相关会议论文 前9条

1 杜琳;石慧;刘晓平;;一种基于Q学习的任务调度算法的改进研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

2 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

3 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

4 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年

5 陈平;王柏;徐六通;吴斌;王艳辉;;电信社群网络中介度的网格并行算法及调度算法[A];2006年全国通信软件学术会议论文集[C];2006年

6 林佳烨;;云计算在电信行业数据分析领域的应用[A];广东通信2010青年论坛优秀论文集[C];2010年

7 吕默威;韩世杰;张晓彤;何杰;余美强;;一种兼有语音通信功能的实时定位系统的设计与实现[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

8 王益;邢春晓;周立柱;;海量信息系统中服务器机群和客户机结合的分布式虚拟现实计算[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

9 刘怀;黄建新;曹弋;;基于令牌总线的网络控制系统中信息的优化调度[A];第二十六届中国控制会议论文集[C];2007年

相关重要报纸文章 前3条

1 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年

2 本报记者 马文方;Hadoop:云中起舞的小象[N];中国计算机报;2010年

3 本报记者 刘洪宇;Hadoop的中国前途[N];中国计算机报;2009年

相关博士学位论文 前9条

1 巴巍;实时系统动态优先级任务调度算法的研究[D];大连理工大学;2010年

2 杨志邦;一类异构多处理器片上系统任务调度算法研究与应用[D];湖南大学;2012年

3 马丹;任务间相互依赖的并行作业调度算法研究[D];华中科技大学;2007年

4 贺小川;单芯片系统(SoC)中的实时任务调度算法研究[D];国防科学技术大学;2009年

5 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年

6 史恒亮;云计算任务调度研究[D];南京理工大学;2012年

7 霍旭光;基于云计算的大规模地形数据处理方法的研究[D];中国地质大学(北京);2013年

8 钟锋;基于网格的煤炭企业信息化关键技术研究[D];中国矿业大学(北京);2009年

9 张宏巍;现代控制局域网技术在飞行器控制系统中的研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2011年

相关硕士学位论文 前10条

1 李坤;云环境下的任务调度算法研究与实现[D];吉林大学;2012年

2 张希翔;云计算环境下任务调度算法的研究[D];广西大学;2012年

3 周俊;基于头型冲击器的行人头部保护研究及其局限性探讨[D];湖南大学;2012年

4 周俊清;基于Hadoop平台的分布式任务调度算法研究[D];湖南大学;2012年

5 封良良;云计算环境下基于改进粒子群的任务调度算法[D];新疆大学;2013年

6 朱雪庆;基于反馈机制的实时弹性任务调度算法研究[D];湖南大学;2011年

7 高鸣;云计算环境下基于时间富余度的任务调度算法研究与实现[D];云南大学;2011年

8 邹伟明;云计算环境下基于MapReduce模型的任务调度算法研究[D];新疆大学;2013年

9 钟英姿;QoS约束下的网格任务调度算法研究[D];中南大学;2010年

10 范国昌;网格计算的Online-Min-Min任务调度算法研究[D];北京邮电大学;2010年



本文编号:2300703

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2300703.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c1b01***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com