基于HDFS的分布式存储研究与实现
发布时间:2017-09-27 10:19
本文关键词:基于HDFS的分布式存储研究与实现
【摘要】:随着信息化社会的快速发展,互联网中的数据急剧膨胀。大规模的数据生产就必然伴随着大规模的数据存储,但传统存储方式很难突破其存储限制,分布式存储系统应运而生。Hadoop是由Apache软件基金会开发的一个分布式计算框架,目前已广泛应用于各大互联网公司。Hadoop的核心是Map Reduce和HDFS,分别为数据提供计算和存储服务。HDFS是Hadoop的分布式文件系统,也是Google公司设计的GFS的一种开源实现,所以其基本结构与GFS一致,都属于主从模式。目前,由于Hadoop在云计算领域被越来越广泛地使用,以及HDFS本身优秀的存储能力,HDFS受到了广泛关注,许多公司和科研单位纷纷开展HDFS的研究工作。但是,HDFS仍有许多不完善的地方,它仍在不停地改进和更新。本文深入分析了HDFS的结构和运行机制,指出了其部分设计缺陷,针对HDFS的副本策略进行改进,主要工作如下:(1)HDFS默认的静态副本冗余策略并不能区分热点数据,导致存放这些数据的节点成为集群的一个瓶颈。针对这一问题,本文提出了一种基于数据热度的动态冗余策略。该策略统计并预测每个文件的访问情况,并且每个文件的统计周期随其访问频率的变化而变化,这样能快速反映出数据热度的趋势,及时增加或减少副本。使用该策略能加快系统响应速度,提高集群的吞吐量,减少作业时间。(2)HDFS没有考虑Data Node的异构性,如果性能差的节点存放了更多的数据,那么读取、处理数据时低性能节点需要承担更多的负载,闲置了高性能节点的处理能力,负载分配不均衡。针对这一问题,本文提出了一种基于节点性能评价和网络距离的放置策略。首先提供一个接口让用户自定义节点状态信息并配置其权重,然后使用改进的TOPSIS算法评价节点,最后综合网络距离选择节点放置副本。该策略允许用户自行设置关注点,并且在此基础上均衡各节点的负载,提高系统整体性能。(3)进行大量仿真和实验,并且基于改进的HDFS集群开发了C/S模型的云存储系统,用HDFS默认策略对比本文的改进策略,实验证明本文的改进策略能较好地提升集群性能。
【关键词】:HDFS 分布式存储 动态副本 副本放置
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-16
- 1.1 研究背景10-12
- 1.2 国内外研究现状以及意义12-14
- 1.3 论文主要工作内容14
- 1.4 论文组织结构14-16
- 第二章 分布式存储关键技术16-25
- 2.1 网络存储技术简介16-17
- 2.2 分布式存储系统概述17
- 2.3 HDFS分布式文件系统17-24
- 2.3.1 HDFS的设计理念17-18
- 2.3.2 HDFS的体系结构18
- 2.3.3 Name Node与Data Node18-19
- 2.3.4 HDFS相关技术简介19-24
- 2.4 本章小结24-25
- 第三章 一种基于热点数据的动态副本策略25-41
- 3.1 HDFS的静态副本策略25-26
- 3.2 典型的动态副本策略26-28
- 3.3 基于热点的动态副本策略28-35
- 3.3.1 访问增长率29-30
- 3.3.2 访问比30-31
- 3.3.3 动态时间窗31-33
- 3.3.4 动态副本数33-34
- 3.3.5 副本选择34-35
- 3.4 仿真实验35-40
- 3.4.1 Optor Sim模拟测试35-38
- 3.4.2 副本选择仿真38-39
- 3.4.3 小型集群环境39-40
- 3.5 本章小结40-41
- 第四章 一种基于节点状态和节点距离的副本放置策略41-58
- 4.1 HDFS的副本放置策略41-44
- 4.1.1 HDFS网络拓扑41-42
- 4.1.2 心跳机制42-43
- 4.1.3 机架感知43-44
- 4.2 改进算法描述44-53
- 4.2.1 设计思想44-46
- 4.2.2 更改心跳协议46-47
- 4.2.3 节点评价算法47-51
- 4.2.4 节点选择51-53
- 4.3 仿真实验53-57
- 4.3.1 算法性能测试53-54
- 4.3.2 单机架仿真54-55
- 4.3.3 多机架仿真55-57
- 4.4 本章小结57-58
- 第五章 基于HDFS的分布式存储系统的设计与实现58-73
- 5.1 系统环境和结构58-61
- 5.1.1 总体结构介绍58-60
- 5.1.2 系统相关技术60-61
- 5.1.3 系统环境61
- 5.2 系统部署61-64
- 5.2.1 HDFS集群部署61-63
- 5.2.2 数据库部署63
- 5.2.3 PROXY SERVER部署63-64
- 5.3 系统功能展示64-69
- 5.4 实验验证与分析69-72
- 5.4.1 动态副本实验69-70
- 5.4.2 副本放置实验70-72
- 5.5 本章小结72-73
- 第六章 总结与展望73-75
- 6.1 全文总结73
- 6.2 未来展望73-75
- 致谢75-76
- 参考文献76-80
- 攻硕期间的研究成果80-81
【参考文献】
中国期刊全文数据库 前3条
1 朱媛媛;王晓京;;基于GE码的HDFS优化方案[J];计算机应用;2013年03期
2 李晓恺;代翔;李文杰;崔U,
本文编号:929127
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/929127.html