当前位置:主页 > 科技论文 > 计算机论文 >

基于HDFS的分布式存储研究与实现

发布时间:2017-09-27 10:19

  本文关键词:基于HDFS的分布式存储研究与实现


  更多相关文章: HDFS 分布式存储 动态副本 副本放置


【摘要】:随着信息化社会的快速发展,互联网中的数据急剧膨胀。大规模的数据生产就必然伴随着大规模的数据存储,但传统存储方式很难突破其存储限制,分布式存储系统应运而生。Hadoop是由Apache软件基金会开发的一个分布式计算框架,目前已广泛应用于各大互联网公司。Hadoop的核心是Map Reduce和HDFS,分别为数据提供计算和存储服务。HDFS是Hadoop的分布式文件系统,也是Google公司设计的GFS的一种开源实现,所以其基本结构与GFS一致,都属于主从模式。目前,由于Hadoop在云计算领域被越来越广泛地使用,以及HDFS本身优秀的存储能力,HDFS受到了广泛关注,许多公司和科研单位纷纷开展HDFS的研究工作。但是,HDFS仍有许多不完善的地方,它仍在不停地改进和更新。本文深入分析了HDFS的结构和运行机制,指出了其部分设计缺陷,针对HDFS的副本策略进行改进,主要工作如下:(1)HDFS默认的静态副本冗余策略并不能区分热点数据,导致存放这些数据的节点成为集群的一个瓶颈。针对这一问题,本文提出了一种基于数据热度的动态冗余策略。该策略统计并预测每个文件的访问情况,并且每个文件的统计周期随其访问频率的变化而变化,这样能快速反映出数据热度的趋势,及时增加或减少副本。使用该策略能加快系统响应速度,提高集群的吞吐量,减少作业时间。(2)HDFS没有考虑Data Node的异构性,如果性能差的节点存放了更多的数据,那么读取、处理数据时低性能节点需要承担更多的负载,闲置了高性能节点的处理能力,负载分配不均衡。针对这一问题,本文提出了一种基于节点性能评价和网络距离的放置策略。首先提供一个接口让用户自定义节点状态信息并配置其权重,然后使用改进的TOPSIS算法评价节点,最后综合网络距离选择节点放置副本。该策略允许用户自行设置关注点,并且在此基础上均衡各节点的负载,提高系统整体性能。(3)进行大量仿真和实验,并且基于改进的HDFS集群开发了C/S模型的云存储系统,用HDFS默认策略对比本文的改进策略,实验证明本文的改进策略能较好地提升集群性能。
【关键词】:HDFS 分布式存储 动态副本 副本放置
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 绪论10-16
  • 1.1 研究背景10-12
  • 1.2 国内外研究现状以及意义12-14
  • 1.3 论文主要工作内容14
  • 1.4 论文组织结构14-16
  • 第二章 分布式存储关键技术16-25
  • 2.1 网络存储技术简介16-17
  • 2.2 分布式存储系统概述17
  • 2.3 HDFS分布式文件系统17-24
  • 2.3.1 HDFS的设计理念17-18
  • 2.3.2 HDFS的体系结构18
  • 2.3.3 Name Node与Data Node18-19
  • 2.3.4 HDFS相关技术简介19-24
  • 2.4 本章小结24-25
  • 第三章 一种基于热点数据的动态副本策略25-41
  • 3.1 HDFS的静态副本策略25-26
  • 3.2 典型的动态副本策略26-28
  • 3.3 基于热点的动态副本策略28-35
  • 3.3.1 访问增长率29-30
  • 3.3.2 访问比30-31
  • 3.3.3 动态时间窗31-33
  • 3.3.4 动态副本数33-34
  • 3.3.5 副本选择34-35
  • 3.4 仿真实验35-40
  • 3.4.1 Optor Sim模拟测试35-38
  • 3.4.2 副本选择仿真38-39
  • 3.4.3 小型集群环境39-40
  • 3.5 本章小结40-41
  • 第四章 一种基于节点状态和节点距离的副本放置策略41-58
  • 4.1 HDFS的副本放置策略41-44
  • 4.1.1 HDFS网络拓扑41-42
  • 4.1.2 心跳机制42-43
  • 4.1.3 机架感知43-44
  • 4.2 改进算法描述44-53
  • 4.2.1 设计思想44-46
  • 4.2.2 更改心跳协议46-47
  • 4.2.3 节点评价算法47-51
  • 4.2.4 节点选择51-53
  • 4.3 仿真实验53-57
  • 4.3.1 算法性能测试53-54
  • 4.3.2 单机架仿真54-55
  • 4.3.3 多机架仿真55-57
  • 4.4 本章小结57-58
  • 第五章 基于HDFS的分布式存储系统的设计与实现58-73
  • 5.1 系统环境和结构58-61
  • 5.1.1 总体结构介绍58-60
  • 5.1.2 系统相关技术60-61
  • 5.1.3 系统环境61
  • 5.2 系统部署61-64
  • 5.2.1 HDFS集群部署61-63
  • 5.2.2 数据库部署63
  • 5.2.3 PROXY SERVER部署63-64
  • 5.3 系统功能展示64-69
  • 5.4 实验验证与分析69-72
  • 5.4.1 动态副本实验69-70
  • 5.4.2 副本放置实验70-72
  • 5.5 本章小结72-73
  • 第六章 总结与展望73-75
  • 6.1 全文总结73
  • 6.2 未来展望73-75
  • 致谢75-76
  • 参考文献76-80
  • 攻硕期间的研究成果80-81

【参考文献】

中国期刊全文数据库 前3条

1 朱媛媛;王晓京;;基于GE码的HDFS优化方案[J];计算机应用;2013年03期

2 李晓恺;代翔;李文杰;崔U,

本文编号:929127


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/929127.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fad73***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com