Hadoop平台下调度算法及其改进策略研究
本文选题:Hadoop + MapReduce ; 参考:《北京邮电大学》2016年硕士论文
【摘要】:当今社会随着信息技术发展,互联网的普及,每天都有大量与人们活动相关的数据产生。而数据产生的同时,如何能够有效的存储大量数据并对数据进行有效分析,成为了人们迫切需要解决的问题。与此同时,由于数据量的激增,诸如数据挖掘以及网页索引等数据敏感应用需要处理不断增长的从几GB到几TB甚至PB的数据集。针对上述问题,Google提出了 MapReduce的编程模型。MapReduce编程模型的主要思想是用户只需要表述想要执行的计算,而不必关心并行计算、容错、数据分布以及负载均衡等细节。Hadoop是MapReduce模型的开源实现之一。Hadoop框架包含两个主要部分:HDFS(Hadoop Distributed File System)和 MapReduce,HDFS用于海量数据的存储,MapReduce用于对海量数据进行研究分析。Hadoop因其高可靠性、高扩展性、高容错性以及低廉的成本,迅速成为了流行的大数据处理平台之一。本文通过文献调研,针对Hadoop分布式计算平台进行了研究。首先从Hadoop平台的产生入手,论述了 Hadoop平台产生的背景及意义,并且对Hadoop平台架构及关键技术进行了研究。其次,文中研究了 Hadoop平台现有的三种调度算法,即FIFO调度、计算能力调度(Capacity Scheduler)以及公平份额调度(Fair Scheduler),其中主要分析了各个调度算法产生意义、工作原理以及不足。然后本文基于现有三种调度算法的不足之处,提出了动态作业匹配调度算法(Dynamic Matching Based on Memory Scheduler,DMBMScheduler),新的算法在作业调度时考虑了内存数据局部性,并在作业调度时依据实时匹配原则来进行作业分配。最后对算法进行实现以及实验测试,实验结果表明我们的算法成功达到了预期的目标,缩短了作业执行时间以及作业响应时间,解决了现有算法的不足,并提高了 Hadoop平台的整体性能。
[Abstract]:With the development of information technology and the popularization of Internet, a lot of data about people's activities are produced every day. At the same time, how to store and analyze the data effectively becomes an urgent problem. At the same time, due to the rapid increase of data volume, data-sensitive applications such as data mining and web page indexing need to deal with growing data sets ranging from several gigabytes to several terabytes or even PB. The main idea of MapReduce programming model. MapReduce programming model is that users only need to express the calculation they want to perform, and do not care about parallel computing, fault-tolerant, etc. Data distribution and load balancing. Hadoop is one of the open source implementations of MapReduce model. The Hadoop framework consists of two main parts: HDFSU Hadoop distributed File system) and MapReduceHDFS for mass data storage. Hadoop is used to study and analyze mass data. Hadoop is highly reliable. High scalability, high fault tolerance and low cost have rapidly become one of the popular big data processing platforms. In this paper, the Hadoop distributed computing platform is studied through literature investigation. Firstly, the background and significance of Hadoop platform are discussed, and the architecture and key technologies of Hadoop platform are studied. Secondly, this paper studies three scheduling algorithms of Hadoop platform, namely FIFO scheduling, capacity scheduling capacity Scheduler and Fair Scheduler, in which the significance, working principle and deficiency of each scheduling algorithm are analyzed. Then, based on the shortcomings of the existing three scheduling algorithms, this paper proposes a dynamic matching based on memory scheduling algorithm. The new algorithm takes memory data locality into account in job scheduling. And in the job scheduling according to the principle of real-time matching to carry out job assignment. Finally, the algorithm is implemented and tested. The experimental results show that our algorithm has successfully achieved the desired goal, shortened the job execution time and job response time, and solved the shortcomings of the existing algorithms. The whole performance of Hadoop platform is improved.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 冯刚;马伟;金京林;葛红;鲍苏苏;;一种改进的公平分享调度算法[J];微电子学与计算机;2008年04期
2 向哲,钟玉琢,冼伟铨;一种基于周期合并策略的流调度算法[J];软件学报;2001年08期
3 伊鹏,张兴明,郭云飞;基于输入排队的调度算法[J];计算机工程;2003年19期
4 易云山,桂志波;分组网络中包调度算法研究[J];江苏通信技术;2004年03期
5 任艳颖,张文军,王彬;无线调度算法[J];计算机工程;2004年15期
6 刘越洋,席裕庚;基于两步滚动的单机调度算法研究[J];计算机工程;2004年24期
7 杨梅樾;马祥杰;;输入排队中调度算法的研究[J];信息工程大学学报;2006年02期
8 曾东海;刘海;金士尧;;集群负载调度算法性能评价[J];计算机工程;2006年11期
9 孙力娟;李超;张登银;王汝传;;低速网络中实时补偿型差额循环调度算法的设计和实现[J];电子与信息学报;2006年10期
10 刘东;张春元;;软件容错模型中反向与正向调度算法研究[J];计算机工程与科学;2007年09期
相关会议论文 前10条
1 彭洪;涂凍生;;面向操作的调度算法[A];1994中国控制与决策学术年会论文集[C];1994年
2 罗豪杰;许都;;IEEE 802.16 MAC层上行调度算法[A];四川省通信学会2007年学术年会论文集[C];2007年
3 张遵福;李乐民;;支持QoS的调度算法设计[A];2006中国西部青年通信学术会议论文集[C];2006年
4 姚建波;竺小松;李晶晶;;非对称通信环境中两种广播调度算法的分析与比较[A];中国通信学会第六届学术年会论文集(上)[C];2009年
5 景维鹏;吴智博;刘宏伟;董剑;;一种支持任务依赖关系容错调度算法[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年
6 李琪林;甄威;周明天;;一种适用于Master-Worker应用的动态统一调度算法的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
7 吕锋;涂晓东;;高性能交换结构调度算法的研究[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
8 赵尔敦;肖静;;无线网络中基于信道状态预测的调度算法[A];2006全国复杂网络学术会议论文集[C];2006年
9 殷洁;;城市光网光纤自动调度算法研究和应用[A];中国通信学会信息通信网络技术委员会2011年年会论文集(下册)[C];2011年
10 陈平;王柏;徐六通;吴斌;王艳辉;;电信社群网络中介度的网格并行算法及调度算法[A];2006年全国通信软件学术会议论文集[C];2006年
相关重要报纸文章 前9条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
8 张建辉 吴松;TD—SCDMA积跬步 HSDPA以致千里[N];通信产业报;2005年
9 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年
相关博士学位论文 前10条
1 刘晓锋;可扩展多级多平面交换网络及调度算法研究[D];电子科技大学;2015年
2 沈文枫;CPU-GPU异构高性能计算中的负载预测调度算法研究及应用[D];上海大学;2016年
3 胡永东;移动WiMAX网络中跨层的保证QoS解决方案研究[D];东南大学;2017年
4 马丹;任务间相互依赖的并行作业调度算法研究[D];华中科技大学;2007年
5 田冲;无线网络跨层调度算法研究[D];山东大学;2009年
6 黄平;分布式交换系统队列结构及调度算法研究[D];华中科技大学;2006年
7 刘惠;嵌入式系统节能调度算法研究[D];西安电子科技大学;2011年
8 赵明宇;集群系统的调度算法研究[D];哈尔滨工业大学;2007年
9 吴刚;对低功耗进程调度算法的研究[D];复旦大学;2006年
10 牛进平;3G长期演进系统中调度算法和干扰抑制技术研究[D];西安电子科技大学;2014年
相关硕士学位论文 前10条
1 王佳琪;Hadoop平台下调度算法及其改进策略研究[D];北京邮电大学;2016年
2 孙晴晴;Hadoop平台下作业调度算法的研究与优化[D];西安理工大学;2016年
3 丁雪飞;纯电动车整车CAN网络实时调度算法的研究[D];辽宁大学;2015年
4 王德龙;Hadoop平台下作业调度算法的研究与改进[D];南京信息工程大学;2015年
5 袁林伟;载波聚合资源分配及调度算法研究[D];西南交通大学;2015年
6 景木均;3GPP LTE系统中基于多目标决策的下行资源调度算法研究与实现[D];西南交通大学;2015年
7 刘盼红;大数据环境下Hadoop作业调度算法的研究[D];河北工程大学;2015年
8 杨轩;高铁无线通信VoIP业务与多业务共存的资源调度算法[D];西南交通大学;2015年
9 陈传庆;基于衰落信道的无线链路调度算法研究[D];曲阜师范大学;2015年
10 陈文龙;Hadoop平台下作业调度方法研究[D];南京理工大学;2015年
,本文编号:2030710
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2030710.html