当前位置:主页 > 管理论文 > 移动网络论文 >

MapReduce模型下数据本地性负载平衡策略研究

发布时间:2018-04-04 22:08

  本文选题:云计算 切入点:MapReduce 出处:《大连海事大学》2014年硕士论文


【摘要】:随着社会的发展,互联网中的数据信息处于爆炸式的增长状态,每天互联网中都会产生海量的数据。可以想象,以后人们所面临的数据规模会越来越巨大。从这些巨大的数据中如何能够快速高效地寻找到有价值的数据资源变得越来越重要。正是在这样的背景下,云计算这个新型的数据处理技术正在快速的发展。 MapReduce是云计算技术中的一种并行处理大规模数据的处理模型,它具有简单易用、高可扩展性和高容错性的特点,因此被广泛应用于云计算领域。Hadoop平台是MapReduce编程模型一个具体的应用,目前许多公司和高校都采用它开发和研究云计算技术。然而,它的一些处理机制影响着它性能的发挥。当面对倾斜数据时,原有的分区算法无法均衡的分配数据到各处理节点,这样就导致了处理节点间负载不平衡,并且造成网路负载加重,从而导致集群性能的降低。 本文所提出的方法针对MapReduce作业过程中的Partition部分的分区算法进行调整和优化,设计实现了一个基于数据本地性的负载均衡策略(DALP)。通过合理的抽样,对作业数据进行预处理,分析出数据中各key的频数分布情况,然后利用分析的数据制定一个数据聚合策略(DA),该策略考虑了key的数据大小,可以更加合理地为各Reduce节点分配数据,能有效地缓解集群节点的负载不平衡问题,提高了集群整体性能。此外,针对集群中网络带宽制约集群性能的问题,结合对平台数据本地性的深入研究,又提出了一个基于数据本地性的数据分配策略(LP),在数据聚合的基础上利用本地性数据分配方法,能够有效减少集群间数据流动情况,减少网络负载。本文所提出的方法通过实验得到了充分验证,数据倾斜时的负载问题得到了有效地改善。
[Abstract]:With the development of the society, the data information in the Internet is in the explosive growth state, every day in the Internet will produce a huge amount of data.One can imagine that the scale of data people will face in the future will grow larger and larger.How to find valuable data resources quickly and efficiently from these huge data becomes more and more important.It is against this background that cloud computing, a new data processing technology, is developing rapidly.MapReduce is a parallel processing model for large-scale data processing in cloud computing technology. It has the characteristics of easy to use, high scalability and high fault tolerance.Therefore, it is widely used in cloud computing. Hadoop platform is a concrete application of MapReduce programming model. At present, many companies and universities use it to develop and research cloud computing technology.However, some of its processing mechanisms affect its performance.When the data is tilted, the original partition algorithm can not distribute the data to each processing node evenly, which leads to the imbalance of the load between the processing nodes and the increase of the network load, which leads to the degradation of the performance of the cluster.The method proposed in this paper adjusts and optimizes the partition algorithm of Partition in the process of MapReduce operation, and designs and implements a load balancing strategy based on data nativeness.Through reasonable sampling, preprocessing the job data, analyzing the frequency distribution of each key in the data, then using the analyzed data to make a data aggregation strategy, this strategy considers the data size of key.The data can be allocated to each Reduce node more reasonably, which can effectively alleviate the load imbalance of cluster nodes and improve the overall performance of the cluster.In addition, aiming at the problem that the network bandwidth restricts the performance of the cluster, combined with the in-depth research on the platform data localization,Furthermore, a data allocation strategy based on data locality is proposed. Based on data aggregation, using local data allocation method can effectively reduce data flow among clusters and reduce network load.The proposed method is fully verified by experiments, and the load problem when the data is tilted is improved effectively.
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09

【相似文献】

相关期刊论文 前10条

1 刘小沙,代玉平,叶理德;炼钢化验数据传送、管理及自动显示系统[J];冶金自动化;1998年02期

2 阎英;无线数据传送的位同步问题[J];铁道机车车辆;1994年03期

3 曹滨;医疗卫生统计信息数据传送方案[J];中华医学信息导报;1999年17期

4 杨军;张德运;;预测修正下的动态数据传送机制[J];西安交通大学学报;2008年06期

5 张晓鸣;;GPRS局数据自动核查系统的设计与研制[J];电信工程技术与标准化;2009年08期

6 谭伟基;;Websense数据泄漏防护解决方案——从优化管理到积极防御[J];金融科技时代;2013年11期

7 宋宏达;;如何使用GR47在GPRS网络上传输数据[J];移动通信;2005年12期

8 黄布毅;王俊;胡智宏;崔光照;;基于非均匀分蔟无线传感器网络自适应数据传送机制的研究[J];计算机测量与控制;2010年02期

9 严云升;T型列车通信网络的偶发性数据传送[J];机车电传动;2004年03期

10 左莉华;;高级在轨系统(AOS)数据传送与分路方式简介[J];遥测遥控;1993年03期

相关会议论文 前5条

1 李露文;刘吉雯;刘兆元;;LTE数据传送能力分析[A];2012全国无线及移动通信学术大会论文集(上)[C];2012年

2 李昆仑;陈敏;何云霞;周宏杰;;话务数据自动监测分析系统的开发与应用[A];中国通信学会信息通信网络技术委员会2009年年会论文集(上册)[C];2009年

3 言诩;张军;;称重仪数据的远程串行采集[A];第七届工业仪表与自动化学术会议论文集[C];2006年

4 黄华山;陈窕莉;;基于GSM网络的通用无线数据接口[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年

5 刘泽全;;漫话数据通信及其广阔前景[A];四川省通信学会一九九三年学术年会论文集[C];1993年

相关重要报纸文章 前7条

1 高毅夫 中国石油勘探开发研究院 叶铭 克拉玛依红有软件公司北京分公司 胡静 中国石油集团东方地球物理公司信息技术中心;打通油田物联网[N];计算机世界;2012年

2 大唐电信行业应用事业部IT服务业务群 游翔 冯唯亮;GoldenGate灾备系统运用探讨[N];中国计算机报;2011年

3 特派记者 陆振华;监听丑闻影响TTIP谈判 欧盟意图推进数据新立法[N];21世纪经济报道;2013年

4 ;深入USB的核心[N];电脑报;2001年

5 山东 宋道海;摩托罗拉手机软件传输维修卡的使用[N];电子报;2003年

6 秦瑞林;极度集成[N];计算机世界;2002年

7 安捷伦科技有限公司 岳勇 吴雪波;安捷伦:挑战UMTS信令测试[N];通信产业报;2006年

相关博士学位论文 前1条

1 肖伟;无线传感器网络自适应数据容错关键技术研究[D];国防科学技术大学;2010年

相关硕士学位论文 前10条

1 吴迈;无线数据可靠传输协议研究及应用[D];合肥工业大学;2010年

2 钟菲;光纤通信中多路数据电平转换及复用传输系统研究[D];吉林大学;2008年

3 章昱梓;移动用户重入网分析系统的分析与设计[D];北京邮电大学;2011年

4 顾礼君;传感网数据查询处理技术研究[D];南京邮电大学;2012年

5 张冬悦;物联网中路由算法的实时性研究[D];辽宁大学;2012年

6 曾刚;基于GPRS网络的嵌入式系统设计[D];武汉理工大学;2006年

7 集玉民;通过GSM短消息传输数据的水情测报系统设计方案[D];太原理工大学;2003年

8 梁钦;一种基于ISDN的数据截获分析技术[D];南京理工大学;2003年

9 申力;基于GPRS的数据传输应用[D];南京理工大学;2004年

10 游郑标;3G健康监测平台系统的研发[D];杭州电子科技大学;2011年



本文编号:1711896

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1711896.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户20511***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com