云环境下分布式文件系统的负载均衡研究
发布时间:2021-01-26 02:06
随着云计算及互联网技术的飞速发展,日益增长的信息需求与互联网之间的交互产生了海量的数据,传统的使用单台服务器存储数据的文件系统已经不能很好的满足海量数据的存储,因此需求存储大量数据的存储系统应运而生。分布式文件系统基于服务器客户端模式的设计解决了单机存储的局限性,通过多台服务器之间协同存储数据。对于云环境下海量数据的存储,分布式文件系统涉及大量的数据服务器节点和网络设备,这些节点可以分布在各个地方,节点之间的配置存在差异,随着线上任务的运行以及数据的读写,会产生节点之间数据存储的不均衡,数据存储的均衡程度对系统性能有重要的意义。因此,如何解决云环境下分布式文件系统的数据负载均衡称为了重要的研究课题。本文针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)中数据块副本存放不均衡导致系统性能降低的问题,进行了详细的研究和分析。主要从数据迁移过程中的阈值和节点匹配方案两个角度分析,分别提出了基于多变量的动态阈值调整策略和基于队列排序的改进算法。基于多变量的动态阈值调整策略是根据Hadoop集群数据节点的多方影响因素进行系统评价,通过定期循环...
【文章来源】:南京邮电大学江苏省
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究的目的与意义
1.2 课题研究现状
1.3 本文主要工作与组织结构
第二章 相关背景知识介绍
2.1 Hadoop简介
2.1.1 Hadoop相关开源项目
2.1.2 分布式计算框架MapReduce
2.1.3 分布式文件系统HDFS
2.2 HDFS负载均衡技术
2.2.1 负载均衡的意义
2.2.2 常用负载均衡算法
2.3 多属性权重确定方法
2.3.1 层次分析法
2.3.2 序关系分析法
2.4 本章小结
第三章 基于多变量的动态阈值均衡策略
3.1 Hadoop负载均衡算法
3.1.1 HDFS负载均衡算法
3.1.2 均衡算法问题描述
3.2 多变量动态阈值获取优化模型
3.2.1 算法思想分析
3.2.2 磁盘空间使用离散度
3.2.3 评价指标选取
3.2.4 集群状态评估
3.3 多变量动态阈值算法描述
3.4 本章小结
第四章 基于队列排序的负载均衡算法优化
4.1 Balancer算法分析
4.1.1 Balancer存在的意义
4.1.2 Balancer算法描述
4.1.3 相关规则
4.1.4 算法缺陷
4.2 基于队列排序的优化模型
4.2.1 队列排序策略
4.2.2 算法思想分析
4.2.3 算法描述
4.3 基于队列排序算法证明
4.4 本章小结
第五章 实验与结果分析
5.1 实验环境
5.1.1 硬件环境
5.1.2 软件环境
5.2 多因素动态阈值实验结果分析
5.2.1 参数计算
5.2.2 实验结果分析
5.3 队列排序优化算法实验结果分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 研究展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间申请的专利
附录3 攻读硕士学位期间参加的科研项目
致谢
【参考文献】:
期刊论文
[1]基于Hopfield神经网络的云存储负载均衡策略[J]. 李强,刘晓峰. 计算机应用. 2017(08)
[2]一种自适应文件系统元数据服务负载均衡策略[J]. 佘楚玉,温武少,肖扬,刘育擘,贾殷. 软件学报. 2017(08)
[3]基于大数据的铁路信号系统数据存储与分析系统设计与实现[J]. 王伟,廖正宇,张辉,郭栋. 信息网络安全. 2017(01)
[4]分布式文件系统元数据服务的负载均衡框架[J]. 孙耀,刘杰,叶丹,钟华. 软件学报. 2016(12)
[5]基于增量式分区策略的MapReduce数据均衡方法[J]. 王卓,陈群,李战怀,潘巍,尤立. 计算机学报. 2016(01)
[6]基于序关系分析法的节水型社会评价指标权重的确定[J]. 徐健,杜贞栋,林洪孝,袁娜,冯忠伦,张昊. 水电能源科学. 2014(10)
[7]基于Hadoop的PB级海量数据处理系统的设计与实现[J]. 简玲. 信息网络安全. 2013(11)
本文编号:3000289
【文章来源】:南京邮电大学江苏省
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究的目的与意义
1.2 课题研究现状
1.3 本文主要工作与组织结构
第二章 相关背景知识介绍
2.1 Hadoop简介
2.1.1 Hadoop相关开源项目
2.1.2 分布式计算框架MapReduce
2.1.3 分布式文件系统HDFS
2.2 HDFS负载均衡技术
2.2.1 负载均衡的意义
2.2.2 常用负载均衡算法
2.3 多属性权重确定方法
2.3.1 层次分析法
2.3.2 序关系分析法
2.4 本章小结
第三章 基于多变量的动态阈值均衡策略
3.1 Hadoop负载均衡算法
3.1.1 HDFS负载均衡算法
3.1.2 均衡算法问题描述
3.2 多变量动态阈值获取优化模型
3.2.1 算法思想分析
3.2.2 磁盘空间使用离散度
3.2.3 评价指标选取
3.2.4 集群状态评估
3.3 多变量动态阈值算法描述
3.4 本章小结
第四章 基于队列排序的负载均衡算法优化
4.1 Balancer算法分析
4.1.1 Balancer存在的意义
4.1.2 Balancer算法描述
4.1.3 相关规则
4.1.4 算法缺陷
4.2 基于队列排序的优化模型
4.2.1 队列排序策略
4.2.2 算法思想分析
4.2.3 算法描述
4.3 基于队列排序算法证明
4.4 本章小结
第五章 实验与结果分析
5.1 实验环境
5.1.1 硬件环境
5.1.2 软件环境
5.2 多因素动态阈值实验结果分析
5.2.1 参数计算
5.2.2 实验结果分析
5.3 队列排序优化算法实验结果分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 研究展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间申请的专利
附录3 攻读硕士学位期间参加的科研项目
致谢
【参考文献】:
期刊论文
[1]基于Hopfield神经网络的云存储负载均衡策略[J]. 李强,刘晓峰. 计算机应用. 2017(08)
[2]一种自适应文件系统元数据服务负载均衡策略[J]. 佘楚玉,温武少,肖扬,刘育擘,贾殷. 软件学报. 2017(08)
[3]基于大数据的铁路信号系统数据存储与分析系统设计与实现[J]. 王伟,廖正宇,张辉,郭栋. 信息网络安全. 2017(01)
[4]分布式文件系统元数据服务的负载均衡框架[J]. 孙耀,刘杰,叶丹,钟华. 软件学报. 2016(12)
[5]基于增量式分区策略的MapReduce数据均衡方法[J]. 王卓,陈群,李战怀,潘巍,尤立. 计算机学报. 2016(01)
[6]基于序关系分析法的节水型社会评价指标权重的确定[J]. 徐健,杜贞栋,林洪孝,袁娜,冯忠伦,张昊. 水电能源科学. 2014(10)
[7]基于Hadoop的PB级海量数据处理系统的设计与实现[J]. 简玲. 信息网络安全. 2013(11)
本文编号:3000289
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3000289.html