基于Hadoop集群作业调度性能优化技术的研究与实现

发布时间:2022-01-22 16:57
  Hadoop通过MapReduce实现了一种分布式处理机制,成为处理大数据问题的首选工具。Hadoop平台通过简单的编程接口实现合理的作业调度。作业调度负责集群内的计算资源以及作业的调度执行。作业调度技术影响Hadoop平台的性能以及系统中资源利用率。合理的调度算法能有效提高系统处理作业的效率。因此,本文重点研究作业调度算法,首先进行作业优先级的优化,并在此基础上根据任务的负载情况进行合适的任务调度。为了满足不同用户的需求,搭建Hadoop集群对动态优先级的混合任务调度策略进行改进,改进后的方法通过作业静态优先级,作业的任务价值以及作业的预计完成时间三个参数,从多维度计算出作业的新的优先级,按优先级的高低进行资源分配,解决了资源分配不均导致紧急任务得不到处理的问题,提高系统性能。随着时间的改变作业的优先级会发生动态变化,一个作业运行完成后重新遍历作业队列选择新的作业。针对Hadoop集群在默认的任务调度策略下,产生大量的非本地任务,增加网络传输时间,影响作业的平均运行时间,降低Hadoop系统资源利用率的问题,提出一种负载均衡的任务调度策略。在该方法中,如若节点的本地任务预计完成时间小... 

【文章来源】:沈阳工业大学辽宁省

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于Hadoop集群作业调度性能优化技术的研究与实现


图1.1云计算平台??Fig.?1.1?Cloud?computing?platform??[3]

服务层,设施,核心服务,体系架构


?沈阳工业大学硕士论文???服务,该服务需要得到管理系统的验证,验证通过后系统会找到相应的服务资源,用??工具挖掘服务云中的资源返回给用户。在用户向云平台发送请求服务之前需要配置正??确的服务站或者web应用。??根据当前云计算方面的发展与研宄,可以构造一个云计算基本体系结构,如图2.1??所示。??/*??用户访问接口??V.?J??A??|?I?软件即服务?|?f?J??Server?1?Server?n?;?-1??i?梭?L?J?i??i?心?J?、?VI???:?I???|??!?务广?平台即服务?^\i??I?雲??!?丨?丨?|??i?r^n?^??!?v?丨丨?J??j?!??丨厂基础设施即服务??虚拟化服务?I??[?1?■■?■;??管??I?|网络资源?计算节点—?m??卜1?11??J??图2.1云计算体系架构??Fig.?2.1?Cloud?computing?architecture??云计算核心服务层的组成包括基础设施即服务层,平台即服务层和软件即服务层??_。??(1)基础设施即服务层(IaaS)。用户在特定的位置(如办公室)或通过网站使??用企业的应用,应用需要购买服务器或硬件来控制,基础设施即服务层的出现,用户??可以租用服务器和硬件设施来获得各种算资源,为用户提供方便的同时还节约成本。??IaaS基础设施即服务利用虚拟化技术合理分配资源,使服务具有高可靠性[41]。基础设??施即服务最具代表性的服务是云存储。同时基础设施即服务可以支持系统分布式存储,??关系数据库等应用程序。??(2)平台即服务(PaaS)

示意图,架构,示意图,大数


?第2章云计算技术和Hadoop平台???作单元即任务,各个计算节点对分配的任务进行处理,可以把一个作业分成一个或者??多个任务。将处理完的任务存储于分布式文件系统中。Hadoop总体架构如图2.2所示。??NameNode?)??二二二一??分块选职??个?\??Qq?LHU?□?n??EJ^J?LJU^LJ??write?write??图2.2?HDFS总体架构示意图??Fig.?2.2?Schematic?diagram?of?the?overall?HDFS?architecture??2.?3.?2?MapReduce?计算框架??规模性,多样性和髙速性的特性促进大数据更加快速的发展。大数据的计算依赖??于批处理计算模型。谷歌提出的MapReduce编程框架支持髙效的大规模计算。Map??阶段和Reduce阶段的连接依赖于Shuffle机制。Shuffle机制的工作原理是把在Map任??务中处理完的作业拉取到Reduce任务执行之前。Shuffle机制包括分块,拷贝和排序代??三个不同的阶段。MapReduce中的两个重要功能是Map阶段和Reduce阶段。输入数??据集被分成默认大小的独立块。Map函数将数据块转换为中间值,将中间值<key/Value>??对存放在一个列表中。一个映射过程可以独立地处理一个输入数据块。然后,按键收??集和排序总中间值<key/value>对,Reduce函数将相同的中间值汇集到一起,进行有效??的整合,使数据集达到最小化。大型集群可以通过MapReduce框架进行高效排序,同??时,利用MapReduce函数优化了大数据处理系统的整体存储性能,使大数据信息的

【参考文献】:
期刊论文
[1]云计算系统可靠性研究综述[J]. 段文雪,胡铭,周琼,吴庭明,周俊龙,刘晓,魏同权,陈铭松.  计算机研究与发展. 2020(01)
[2]构建和维护多云安全的策略[J]. 胡立.  计算机与网络. 2019(20)
[3]深入浅出云计算[J]. 靳建平,李敏.  信息与电脑(理论版). 2019(16)
[4]大数据时代云计算关键技术研究[J]. 王瑞琦,李明明,宋志勇,闫姣,冯勇.  数字通信世界. 2018(09)
[5]云计算技术发展分析及其应用[J]. 马原.  电子技术与软件工程. 2017(18)
[6]基于云计算的基础设施云服务平台设计和实现[J]. 潘正辉.  电子技术与软件工程. 2017(15)
[7]云计算和云数据管理技术[J]. 杨雪梅,刘莹.  信息系统工程. 2017(04)
[8]异构Hadoop集群下的负载自适应反馈调度策略[J]. 潘佳艺,王芳,杨静怡,谭支鹏.  计算机工程与科学. 2017(03)
[9]MapReduce大数据处理平台与算法研究进展[J]. 宋杰,孙宗哲,毛克明,鲍玉斌,于戈.  软件学报. 2017(03)
[10]面向云环境实时感知的服务选取及评估方法研究[J]. 肖刚,吴斐斐,徐俊,陆佳炜,张元鸣.  计算机科学. 2016(11)



本文编号:3602567

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3602567.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b48ef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com