Hadoop平台下的负载均衡优化研究与改进
本文关键词: 负载均衡 Hadoop集群 分区策略 蚁群算法 蜂群算法 融合算法 出处:《河北经贸大学》2017年硕士论文 论文类型:学位论文
【摘要】:在云计算、大数据环境下,负载均衡问题逐渐成为研究的焦点之一。负载均衡是实现集群最优调度的主要目标之一,计算节点的负载不均衡,就会导致云平台上任务执行效率低、严重浪费资源等问题。当Hadoop集群中任务规模很大并且较多节点负载较高时,进一步优化调度算法可有效避免集群节点间出现负载极其不均衡的情况。本文研究了Hadoop集群的负载均衡机制,并且对分区算法和智能算法分别进行了相应的改进,以提升集群的效率和性能。本文的主要内容包括:(1)基于改进分区策略的动态负载均衡算法研究针对Hadoop平台自带的分区算法未考虑数据值的密集程度而造成的数据非均匀划分情况,本文提出对分区数目进行扩充,并在运行中加入动态任务转移机制,充分利用空闲节点平衡高负载节点,以在保证负载均衡的同时,提高集群的资源利用率。(2)基于双群融合智能算法的负载均衡优化研究充分利用两个不同智能算法各自的优点,克服两者的缺点,可以有效地提高现有算法的优化效果。因此本文利用蚁群算法优秀的全局搜索能力与蜂群算法优秀的横向搜索能力,将两个智能算法进行融合,提出了双群融合智能算法,使二者充分发挥各自的优势,平衡集群的负载,提高集群资源的利用率,提升算法收敛效率,缩短任务执行时间。最后搭建实验环境Hadoop集群,使上述两个算法分别在此集群环境下实现,并进行多次实验对比了改进前与改进后的算法性能,两个改进算法均能有效平衡集群负载,提高集群的资源利用率,缩短作业的执行时间。
[Abstract]:In cloud computing and big data environment, load balancing problem has gradually become one of the focus of research. Load balancing is one of the main objectives to realize the optimal scheduling of cluster, and the load balance of computing nodes is not balanced. It will lead to low efficiency of task execution on cloud platform, serious waste of resources and so on. When the task size in Hadoop cluster is very large and the load of more nodes is high, Further optimization scheduling algorithm can effectively avoid the extremely unbalanced load between cluster nodes. In this paper, the load balancing mechanism of Hadoop cluster is studied, and the partition algorithm and intelligent algorithm are improved respectively. In order to improve the efficiency and performance of the cluster. The main contents of this paper include: 1) dynamic load balancing algorithm based on improved partitioning strategy; data caused by partitioning algorithm based on Hadoop platform without considering the density of data values. Uneven division, In this paper, the number of partitions is expanded, and dynamic task transfer mechanism is added in the operation, which makes full use of idle nodes to balance the high load nodes, so as to ensure load balance at the same time. Research on load balancing Optimization based on dual swarm fusion intelligent algorithm; make full use of the advantages of two different intelligent algorithms to overcome the shortcomings of the two. Therefore, by using the excellent global search ability of ant colony algorithm and the excellent horizontal search ability of bee colony algorithm, the two intelligent algorithms are fused, and a dual colony fusion intelligent algorithm is proposed. So that they can give full play to their respective advantages, balance the load of the cluster, improve the utilization of cluster resources, improve the convergence efficiency of the algorithm, and shorten the task execution time. Finally, the experimental environment Hadoop cluster is built. The above two algorithms are implemented in this cluster environment respectively, and the performance of the improved algorithm before and after the improvement is compared through many experiments. The two improved algorithms can effectively balance the load of the cluster and improve the resource utilization ratio of the cluster. Shorten the execution time of the job.
【学位授予单位】:河北经贸大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP18
【相似文献】
相关期刊论文 前10条
1 谢天宇;曹奇英;;基于Hadoop集群的分布式入侵检测系统的设计与实现[J];微计算机信息;2012年09期
2 逄利华;张锦春;;基于Hadoop的分布式数据库系统[J];办公自动化;2014年05期
3 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期
4 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期
5 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期
6 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期
7 ;大数据不等于Hadoop[J];办公自动化;2014年06期
8 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期
9 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期
10 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期
相关重要报纸文章 前8条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年
相关博士学位论文 前9条
1 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年
2 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年
3 刘春明;基于增强学习和车辆动力学的高速公路自主驾驶研究[D];国防科学技术大学;2014年
4 张敏霞;生物地理学优化算法及其在应急交通规划中的应用研究[D];浙江工业大学;2015年
5 李红;流程挖掘算法研究[D];云南大学;2015年
6 卜晨阳;演化约束优化及演化动态优化求解算法研究[D];中国科学技术大学;2017年
7 陈拉明;基于非凸优化的稀疏重建理论与算法[D];清华大学;2016年
8 刘新旺;多核学习算法研究[D];国防科学技术大学;2013年
9 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年
相关硕士学位论文 前10条
1 刘君;基于Hadoop技术的气象数据采集及数据挖掘平台的研究[D];天津理工大学;2015年
2 谭旭;基于物流数据的快递网络分析与建模[D];浙江大学;2015年
3 赵伟;基于Hadoop的数据挖掘算法并行化研究[D];西南交通大学;2015年
4 赵振崇;基于Hadoop的决策树挖掘算法的研究[D];兰州大学;2015年
5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年
6 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年
7 席屏;基于Hadoop的视频大数据智能预警系统应用研究[D];江苏科技大学;2015年
8 董立明;基于HADOOP的分布式推荐引擎[D];复旦大学;2013年
9 陆艺达;基于Hadoop分布式计算框架的垃圾短信群发检测系统[D];复旦大学;2013年
10 沈德利;基于Hadoop的密文检索关键技术研究[D];西安电子科技大学;2014年
,本文编号:1499441
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1499441.html