当前位置:主页 > 科技论文 > 计算机论文 >

HDFS存储机制的分析与研究

发布时间:2017-04-27 00:07

  本文关键词:HDFS存储机制的分析与研究,由笔耕文化传播整理发布。


【摘要】:近年来,互联网中数据量激增,一般的文件系统无法存储海量数据,为解决这个问题,研究人员提出了分布式文件系统的概念。目前国内外众多知名企业使用Hadoop处理海量数据。Hadoop是一个可以处理和存储海量数据的云计算平台,它自行实现一个分布式文件系统HDFS。在HDFS中,存在一种称为NameNode的元数据服务器用于存放整个HDFS的元数据信息,还有一种称为DataNode的数据节点用于存放具体的文件数据。一个文件在HDFS中会有多个备份用于保证数据的可靠性,当数据损坏时,可以使用备份数据。 本文对HDFS的存储机制进行了分析与研究,主要是分析和研究HDFS中存在的两个问题:大量小文件处理问题和元数据服务器的单点失效问题。 针对小文件问题,本文首先分析了Archive归档工具和SequenceFile方案的优点与不足,然后设计一种新的方案Multi-NameNode Cluster。Multi-NameNode不存在单个NameNode的内存性能瓶颈,并且不同的NameNode处理不同的文件请求,因此每个NameNode内存中存放不同文件的元数据,NameNode之间相互独立,且一台NameNode失效不影响其他NameNode的正常工作。最后对该方案进行了模拟实现,并将该方案和Archive方案进行对比实验和结果分析。 针对单点失效问题,,本文先对Hadoop1.x中的解决方案进行了介绍分析,然后着重分析Hadoop2.x中的QJM方案。QJM的原理在于集群中启动两个元数据服务器和一组日志服务器,处于活跃状态的NameNode把日志写入到日志服务器中,而处于等待状态的NameNode则从日志服务器中读取日志,从而两者中的元数据可以达成一致。在一个NameNode失效后,另外一个NameNode可以快速的接管工作。最后提出RAID方案,在QJM方案的基础上增加一个对日志存储的保护措施,使用独立磁盘阵列对Active NN写入本地的日志进行备份,使得在发生主从切换时能最大程度的恢复日志。
【关键词】:分布式文件系统 单点失效 双机热备 大量小文件处理
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第1章 绪论9-17
  • 1.1 课题的研究背景及意义9-12
  • 1.1.1 研究背景9-11
  • 1.1.2 选题意义11-12
  • 1.2 研究现状及存在的问题12-15
  • 1.2.1 HDFS 存储机制的研究现状12-14
  • 1.2.2 存在问题的分析14-15
  • 1.3 主要研究内容15
  • 1.4 论文组织结构15-17
  • 第2章 HDFS 中小文件处理方案17-31
  • 2.1 小文件导致的问题17-18
  • 2.2 传统解决方法的分析18-22
  • 2.2.1 Hadoop Archive 方法18-19
  • 2.2.2 SequenceFile 方法19-22
  • 2.3 Multi-NameNode Cluster 方案的设计22-30
  • 2.3.1 Multi-NameNode 的总体设计22-26
  • 2.3.2 集群中节点的抽象描述26-28
  • 2.3.3 NameNode 内存中元数据结构的改进28-29
  • 2.3.4 Multi-NameNode 性能的理论分析29-30
  • 2.4 小结30-31
  • 第3章 HDFS 集群单点失效问题的分析31-43
  • 3.1 Secondary NameNode 的功能31-32
  • 3.2 QJM 方案的原理分析32-37
  • 3.2.1 QJM 方案中 NameNode 的启动分析33
  • 3.2.2 fsimage 与 edits 的文件名形式33-34
  • 3.2.3 主从切换时的日志恢复34-37
  • 3.3 基于 QJM 的独立磁盘阵列方案的探讨37-42
  • 3.3.1 QJM 方案的不足之处37
  • 3.3.2 基于 QJM 的独立磁盘阵列方案的设计37-41
  • 3.3.3 RAID1 磁盘阵列备份机制的模拟41-42
  • 3.4 小结42-43
  • 第4章 实验结果与分析43-58
  • 4.1 实验环境的配置和 Hadoop 的部署43-47
  • 4.2 Multi-NameNode Cluster 的实验结果和分析47-54
  • 4.2.1 使用多线程模拟客户端的并发请求47-48
  • 4.2.2 模拟实现的正确性验证48-50
  • 4.2.3 对比实验和结果分析50-54
  • 4.3 基于 QJM 的 RAID 方案的实验和结果分析54-57
  • 4.3.1 确定 QJM 日志恢复失败的标准54
  • 4.3.2 实验结果和分析54-57
  • 4.4 小结57-58
  • 第5章 总结与展望58-60
  • 5.1 总结58-59
  • 5.2 展望59-60
  • 致谢60-61
  • 参考文献61-63

【参考文献】

中国期刊全文数据库 前2条

1 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期

2 王意洁;孙伟东;周松;裴晓强;李小勇;;云计算环境下的分布存储关键技术[J];软件学报;2012年04期


  本文关键词:HDFS存储机制的分析与研究,由笔耕文化传播整理发布。



本文编号:329498

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/329498.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户021a0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com