基于HDFS的云存储关键技术研究
本文关键词:基于HDFS的云存储关键技术研究
更多相关文章: 云存储 分布式文件系统 HDFS 元数据 负载均衡 副本
【摘要】:云存储系统为存储大规模数据应运而生,其底层采用分布式文件系统作为存储平台。HDFS(Hadoop Distributed File Sysytem)是开源的云计算平台Hadoop提出的分布式文件系统,其设计简单,应用广泛。但是随着数据量的指数型增长,在可用性、可靠性、扩展性和数据访问性能等方面已经难以满足日益增长的数据量的存储需求。HDFS采用单一的元数据服务器(MetaData Server, MDS)来管理整个系统的元数据信息,这样虽然设计简单,但是单一的元数据服务器经常成为整个系统性能的瓶颈,限制元数据的数量,可扩展性差,并且单一的服务器节点也会带来单点失效问题,当其发生故障时,整个系统将不能工作,影响系统可用性。同时,在现有的HDFS中,系统将默认保存三个文件副本来保证数据可靠性,但是副本分配数量固定,副本放置时位置的选择可能会带来负载不均衡等问题,影响系统效率。针对以上问题,本文进行了如下研究:对HDFS的系统架构设计和工作原理进行了深入了解。本文提出一种集群化元数据服务器架构,在此基础上,提出了一种引入虚拟节点的改进一致性Hash算法,采用目录子树划分和改进的一致性Hash算法相结合的方式对元数据进行划分。为解决数据访问引起的局部过热问题,提出一种基于改进的一致性Hash算法中虚拟节点迁移的动态负载均衡算法,动态调整运行过程中数据访问热度差异引起的局部过热问题。实验证明该算法在负载均衡性能方面具有较好的效果。为解决云数据可靠性,针对现有的文件系统中副本数量固定,副本放置位置选择可能带来负载不均衡等问题,提出了一种动态的副本数量调整策略,该策略可以随用户访问热度和访问请求响应时间的变化而动态调整副本的数量。为了使访问效率更高,提出基于传输代价的副本放置算法,在放置副本时,选择访问效率最高的最佳放置位置。最后实验证明了副本策略的有效性。
【关键词】:云存储 分布式文件系统 HDFS 元数据 负载均衡 副本
【学位授予单位】:广西大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 绪论11-14
- 1.1 研究背景11-12
- 1.2 研究意义12
- 1.3 论文研究内容12-13
- 1.4 论文组织结构13-14
- 第二章 云存储相关技术研究14-29
- 2.1 云存储14-15
- 2.1.1 云存储的概念14
- 2.1.2 云存储发展现状14-15
- 2.2 分布式文件系统与HDFS15-16
- 2.2.1 分布式文件系统简介15-16
- 2.2.2 HDFS简介16
- 2.3 HDFS基本原理与工作流程16-22
- 2.3.1 HDFS系统架构16-17
- 2.3.2 HDFS主要数据结构17-20
- 2.3.3 HDFS读写工作流程20-22
- 2.4 分布式文件系统的可用性与元数据管理22-27
- 2.4.1 分布式文件系统可用性22-23
- 2.4.2 HDFS的单点失效问题23-24
- 2.4.3 HDFS的单点失效问题解决方案24-25
- 2.4.4 去中心化元数据服务器架构及元数据管理25-27
- 2.5 分布式文件系统的可靠性与副本管理27-29
- 2.5.1 分布式文件系统的可靠性27-28
- 2.5.2 分布式文件系统的副本管理28-29
- 第三章 基于高可用的NameNode集群元数据管理方案研究29-43
- 3.1 相关研究背景29-31
- 3.1.1 多元数据服务器分布式文件系统29-30
- 3.1.2 多元数据服务器架构的元数据管理30-31
- 3.2 基于双机高可用的分布式文件系统架构31-33
- 3.3 基于目录子树划分和一致性Hash算法的元数据管理方案33-36
- 3.3.1 一致性Hash算法33-35
- 3.3.2 目录子树划分算法35-36
- 3.4 元数据服务器集群的负载均衡36-41
- 3.4.1 静态负载均衡37-39
- 3.4.2 动态负载均衡39-41
- 3.5 实验及结果分析41-43
- 3.5.1 实验环境41
- 3.5.2 实验过程及结果41-43
- 第四章 云存储系统中动态副本策略研究43-52
- 4.1 相关研究背景43-44
- 4.2 动态副本数量调整的依据44-46
- 4.2.1 文件热度44-45
- 4.2.2 请求响应时间45-46
- 4.2.3 副本数量调整的依据46
- 4.3 动态调整副本数量46-48
- 4.3.1 确定需要调整的副本46-47
- 4.3.2 确定需要调整的副本的数量47-48
- 4.4 基于传输代价的副本放置算法48-49
- 4.4.1 集群节点负载率48-49
- 4.4.2 放置节点选择49
- 4.5 实验及结果分析49-52
- 4.5.1 实验环境49-50
- 4.5.2 实验过程及结果50-52
- 第五章 总结与展望52-54
- 5.1 论文总结52-53
- 5.2 下一步工作53-54
- 参考文献54-59
- 致谢59-60
- 攻读硕士学位期间发表论文情况60
【参考文献】
中国期刊全文数据库 前10条
1 刘健;张军伟;张浩;邵冰清;杨洪章;刘振军;;蓝鲸元数据服务器集群的细粒度负载迁移[J];计算机研究与发展;2014年S1期
2 王强;李雄飞;王婧;;云计算中的数据放置与任务调度算法[J];计算机研究与发展;2014年11期
3 英昌甜;于炯;廖彬;鲁亮;;一种面向低延迟的内存HDFS数据存储策略[J];微电子学与计算机;2014年11期
4 孙知信;黄涵霞;;基于云计算的数据存储技术研究[J];南京邮电大学学报(自然科学版);2014年04期
5 师明;刘轶;唐歌实;;一种面向分布式文件系统的文件预取模型的设计与实现[J];计算机科学;2014年07期
6 周江;王伟平;孟丹;马灿;古晓艳;蒋杰;;面向大数据分析的分布式文件系统关键技术[J];计算机研究与发展;2014年02期
7 魏光辉;李杰斌;王程玉;何震瀛;汪卫;;一种分布式系统上的元数据管理系统[J];计算机研究与发展;2013年S1期
8 陶永才;张宁宁;石磊;卫琳;;异构环境下云计算数据副本动态管理研究[J];小型微型计算机系统;2013年07期
9 陈涛;肖侬;刘芳;;对象存储系统中自适应的元数据负载均衡机制[J];软件学报;2013年02期
10 陶永才;石磊;;异构资源环境下的MapReduce性能优化[J];小型微型计算机系统;2013年02期
中国博士学位论文全文数据库 前2条
1 林文辉;基于Hadoop的海量网络数据处理平台的关键技术研究[D];北京邮电大学;2014年
2 史小冬;分布式文件系统高可用问题研究[D];中国科学院研究生院(计算技术研究所);2002年
中国硕士学位论文全文数据库 前5条
1 李梦楠;基于HDFS的名字节点的性能优化技术研究[D];沈阳工业大学;2015年
2 李铁;面向海量小文件存取的HDFS优化研究[D];东华大学;2015年
3 刘通;基于HDFS的小文件处理与副本策略优化研究[D];中国海洋大学;2014年
4 季钱飞;高可用HDFS管理平台的设计与实现[D];南京大学;2013年
5 刘晓伟;一种基于P2P的云存储模型研究[D];西安电子科技大学;2012年
,本文编号:1059646
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1059646.html