当前位置:主页 > 科技论文 > 计算机论文 >

HDFS云存储系统可用性能的优化研究

发布时间:2017-10-04 06:10

  本文关键词:HDFS云存储系统可用性能的优化研究


  更多相关文章: Hadoop分布式文件系统 单点故障 ZooKeeper 分布式Name Node节点


【摘要】:互联网信息化技术的迅猛发展,直接导致了数据的急剧暴增。为解决海量数据的存储和处理,分布式存储系统应运而生并迅速成为趋势。Hadoop是Apache研发的一个开源的分布式云计算软件框架,能够为当前大数据提供计算与存储服务。HDFS是Hadoop的分布式文件系统,采用主从式的分布式系统架构,但由于它只有一个Name Node节点,会产生单点故障问题,所以它并不支持系统的高可用性。所以它并不支持系统的高可用性。随着海量数据的急剧膨胀,HDFS本身架构所存在的缺陷问题也越来越凸显,单一NameNode架构直接严重影响到了系统的可用性,成为了整个分布式文件系统的性能瓶颈。本文对HDFS的体系架构、元数据模型、数据组织以及数据流等进行了详细的解析,并简单阐述了现有的HDFS高可用性解决方案进行对比分析,提出了本文的高可用性方案-基于ZooKeeper的分布式Name Node节点集群。本文主要工作如下:(1)概述了云存储的相关理论知识,对HDFS分布式文件系统的体系架构、数据组织与数据交互等进行了深入的分析。另外,详细介绍了ZooKeeper的基础知识。(2)介绍高可用性的相关概念并分析HDFS本身架构所存在的缺陷,重点对HDFS现有的高可用性解决方案进行分析,并最终提出本文的高可用性方案-基于ZooKeeper的分布式NameNode节点集群,然后进行了简单的分析对比。(3)本文基于ZooKeeper的分布式Name Node节点的高可用性方案中,利用ZooKeeper来监控所有NameNode节点的工作状态并协调它们的工作,实现了主从Name Node的自动切换。同时分布式Name Node节点可以将元数据信息数据块及其备份分布存放在不同的元数据节点中,并采用基于大多数节点返回响应结果来保证元数据的一致性。所以,当主Name Node节点失效时,从Name Node节点能够快速进行切换,对外提供服务,由此保证了系统的高可用性。(4)经过一系列的实验,来验证本文所提出方案的高可用性。
【关键词】:Hadoop分布式文件系统 单点故障 ZooKeeper 分布式Name Node节点
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP333
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 绪论10-17
  • 1.1 课题背景10-11
  • 1.2 国内外研究现状11-13
  • 1.3 研究意义13-14
  • 1.4 研究内容14-15
  • 1.5 论文结构组织安排15-17
  • 第二章 相关研究17-36
  • 2.1 云存储17-18
  • 2.2 Hadoop分布式文件系统18-30
  • 2.2.1 元数据节点与数据节点20-22
  • 2.2.2 元数据22-24
  • 2.2.3 数据组织24-25
  • 2.2.4 数据流25-30
  • 2.2.5 客户端30
  • 2.3 ZooKeeper30-35
  • 2.3.1 基本原理30-32
  • 2.3.2 基本特性32-35
  • 2.4 本章小结35-36
  • 第三章 HDFS高可用性解决方案的研究36-47
  • 3.1 高可用性36-41
  • 3.1.1 HA定义和度量36-37
  • 3.1.2 HDFS HA原因分析37-41
  • 3.2 HDFS现有高可用性解决方案41-44
  • 3.2.1 Hadoop的元数据备份方案41
  • 3.2.2 Secondary Name Node与Checkpoint Node方案41-42
  • 3.2.3 Backup Node方案42-43
  • 3.2.4 FaceBook的Avatar Node方案43-44
  • 3.3 与本文HDFS HA方案的分析对比44-46
  • 3.4 本章小结46-47
  • 第四章 基于ZooKeeper的分布式NameNode节点集群47-69
  • 4.1 问题描述47-48
  • 4.2 总体设计48-62
  • 4.2.1 系统框架设计49-53
  • 4.2.2 一致性策略研究53-56
  • 4.2.3 故障恢复机制56-61
  • 4.2.4 负载均衡评估策略61-62
  • 4.3 元数据管理62-68
  • 4.3.1 元数据组织结构62-63
  • 4.3.2 元数据分布算法63-66
  • 4.3.3 元数据冗余机制66
  • 4.3.4 元数据同步机制66-68
  • 4.4 本章小结68-69
  • 第五章 实验环境搭建与测试69-77
  • 5.1 实验环境69-71
  • 5.1.1 系统软硬件环境69
  • 5.1.2 配置HDFS69-71
  • 5.2 实验结果分析71-76
  • 5.2.1 负载均衡测试71-72
  • 5.2.2 同步机制测试72-75
  • 5.2.3 时间切换测试75-76
  • 5.3 本章小结76-77
  • 第六章 总结与展望77-79
  • 6.1 本文工作总结77
  • 6.2 未来研究工作展望77-79
  • 致谢79-80
  • 参考文献80-83

【相似文献】

中国期刊全文数据库 前10条

1 陈剑;龚发根;;一种优化分布式文件系统的文件合并策略[J];计算机应用;2011年S2期

2 郎为民;杨德鹏;;云计算中的分布式文件系统[J];电信快报;2012年02期

3 陈文捷;蔡立志;楼志斌;王洁萍;李海波;;应用级分布式文件系统接口标准化探索[J];信息技术与标准化;2012年10期

4 应朝晖,高洪奎,,黄若衡;分布式文件系统[J];计算机工程与科学;1995年03期

5 卢军;卢显良;韩宏;许腾;;基于移动Agent的新型分布式文件系统研究[J];计算机科学;2002年10期

6 寒江约叟;N个资源一次看——分布式文件系统妙用[J];电脑应用文萃;2004年07期

7 黄华,张建刚,许鲁;蓝鲸分布式文件系统的分布式分层资源管理模型[J];计算机研究与发展;2005年06期

8 黄华;张建刚;许鲁;;蓝鲸分布式文件系统的客户端元数据缓存模型[J];计算机科学;2005年09期

9 黄华;张敬亮;张建刚;许鲁;;蓝鲸分布式文件系统的物理资源管理模型[J];计算机工程;2006年06期

10 阴四海;王文杰;李秀斌;范军涛;;并行分布式文件系统的改进[J];计算机应用;2007年S2期

中国重要会议论文全文数据库 前4条

1 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年

2 洪穗;;微软WINDOWS Server 2003 R2分布式文件系统解决方案分析[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年

3 罗志明;张大华;王电钢;常健;;电力分布式云存储关键技术研究[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年

4 徐文斌;;大数据时代的交管综合应用云平台[A];第八届中国智能交通年会论文集[C];2013年

中国重要报纸全文数据库 前10条

1 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统的历史与现状[N];中国计算机报;2005年

2 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年

3 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年

4 ;分布式文件系统一瞥[N];网络世界;2002年

5 王春海 刘立;分布式文件系统在网络中的应用[N];电脑报;2004年

6 ;Hadoop:为构建海量数据架构而生[N];人民邮电;2012年

7 本报记者 于翔;“大数据”的大承诺[N];网络世界;2010年

8 IBM大数据专家 James Kobielus 范范 编译;YARN动摇了MapReduce对Hadoop的掌控[N];网络世界;2013年

9 张力平;云计算和物联网的美妙融合[N];学习时报;2014年

10 《网络世界》记者 于翔;大数据治理多管齐下[N];网络世界;2012年

中国博士学位论文全文数据库 前4条

1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年

2 史小冬;分布式文件系统高可用问题研究[D];中国科学院研究生院(计算技术研究所);2002年

3 黄华;蓝鲸分布式文件系统的资源管理[D];中国科学院研究生院(计算技术研究所);2005年

4 杨德志;分布式文件系统可扩展元数据服务关键问题研究[D];中国科学院研究生院(计算技术研究所);2008年

中国硕士学位论文全文数据库 前10条

1 冷志强;基于分布式文件系统GlusterFS的横向扩展云存储的研究与实现[D];复旦大学;2014年

2 眭椰敏;阿里云分布式文件系统客户端的设计与实现[D];南京大学;2014年

3 周克利;分布式文件系统中的若干关键算法研究[D];南京大学;2013年

4 董乾豪;通用可扩展的分布式文件系统性能测试框架研究与实现[D];南京大学;2016年

5 吴森;分布式文件系统小文件性能优化技术研究[D];华中科技大学;2014年

6 胡梦楠;HDFS云存储系统可用性能的优化研究[D];电子科技大学;2016年

7 周涛;分布式文件系统的研究[D];电子科技大学;2005年

8 林凌;大规模分布式文件系统的研究与实现[D];福州大学;2006年

9 胡雨壮;分布式文件系统吞吐率优化研究[D];中国科学院研究生院(计算技术研究所);2002年

10 吴晨涛;分布式文件系统中对象存储目标镜像的设计与实现[D];华中科技大学;2006年



本文编号:969033

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/969033.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户927f7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com