当前位置:主页 > 科技论文 > 计算机论文 >

HDFS分布式文件系统存储策略研究

发布时间:2017-05-20 10:07

  本文关键词:HDFS分布式文件系统存储策略研究,由笔耕文化传播整理发布。


【摘要】:互联网技术的高速发展和应用,带来了数据规模的爆炸式增长,使得大规模数据存储和处理成为目前高性能计算领域的研究热点。传统的数据处理模式多用于计算密集型作业。分布式存储的出现为海量的数据存储提供了全新的解决方案,它以“按需付费”的独特模式,为用户提供低成本、高可靠性、高性能的在线数据存储和访问服务。因此,如何在保证数据可用性和可靠性前提下高效存储和访问数据,成为分布式存储系统中尤为关键的一个问题。现有的数据副本决策算法主要是基于整个文件访问情况进行动态调整,然而,很多时候用户仅仅对文件中的部分数据块感兴趣,如果单纯的基于整个文件进行副本系数动态调整,有可能降低集群存储资源利用率和增加数据副本一致性维护开销。同时,在某些应用场景下,如视频点播应用中,HDFS并没有针对那些被用户频繁访问的热点数据进行读取优化。重复数据的频繁访问会使得DataNode节点产生频繁的磁盘I/O操作,增加数据访问延迟。同时,由于数据的重复传输大大浪费了集群系统网络流量。针对上述问题,本文在HDFS分布式文件系统的数据副本管理策略和数据访问流程两方面展开深入研究。本文完成的主要工作如下:1.在深入分析现有分布式存储系统数据副本管理技术的基础上,提出了基于数据块的副本系数动态调整策略。该策略基于数据块而非整个文件实现,首先,在数据访问具有时间局部性原则下,通过为数据块的各个历史访问周期赋予不同的权重,预测出数据块下一周期的访问频率。然后,根据HDFS中数据访问规律近似二八定律这一事实确定热点数据块阈值,从而对数据块进行热点判定,根据判定结果动态调整数据块副本系数。最后,通过实验对该策略的有效性进行验证。2.在对HDFS文件读取过程进行深入分析后,针对HDFS中频繁访问的热点数据提出了一种基于热点数据块的DataNode本地二级缓存策略。该策略通过在DataNode节点设置基于本地内存和本地磁盘的二级缓存机制,分别用于缓存HDFS中那些被频繁访问的热点小文件和热点大文件。该策略一定程度上提高了数据访问效率,减少了DataNode磁盘I/O负载以及节省了集群系统的网络带宽。最后,通过实验对该策略的有效性进行验证。
【关键词】:分布式存储 HDFS 热点数据 副本系数决策 Localcache
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 绪论10-16
  • 1.1 研究背景及意义10-11
  • 1.2 国内外研究现状11-13
  • 1.3 课题来源和主要研究内容13-14
  • 1.4 论文组织结构14-15
  • 1.5 本章小结15-16
  • 第二章 分布式存储及副本管理相关技术16-29
  • 2.1 分布式存储概述16-20
  • 2.1.1 分布式存储概念16-17
  • 2.1.2 分布式存储架构模型17
  • 2.1.3 分布式存储分层结构模型17-19
  • 2.1.4 典型的分布式存储系统19-20
  • 2.2 HDFS分布式文件系统架构分析20-24
  • 2.2.1 HDFS整体架构20-21
  • 2.2.2 HDFS关键实体21-22
  • 2.2.3 HDFS数据读写机制22-23
  • 2.2.4 HDFS健壮性23-24
  • 2.3 数据副本管理技术24-27
  • 2.3.1 数据副本技术概念24
  • 2.3.2 数据副本管理策略分类24-26
  • 2.3.3 数据副本管理技术优点26
  • 2.3.4 数据副本管理技术要点26-27
  • 2.4 本章小结27-29
  • 第三章 基于数据块的动态副本调整策略29-52
  • 3.1 现有副本系数决策算法29-30
  • 3.2 基于数据块的动态副本调整策略30-42
  • 3.2.1 设计思想31-32
  • 3.2.2 数据块访问频率计算32-34
  • 3.2.3 数据块副本系数范围34-38
  • 3.2.4 数据块副本数量的动态调整38-42
  • 3.3 实验与结果分析42-51
  • 3.3.1 实验目的42-43
  • 3.3.2 实验环境43-44
  • 3.3.3 实验设计与结果分析44-51
  • 3.4 本章小结51-52
  • 第四章 基于热点数据块的本地缓存策略52-75
  • 4.1 HDFS数据读取原理52-56
  • 4.1.1 HDFS读数据流程52-53
  • 4.1.2 HDFS读数据之获取Block位置信息53-54
  • 4.1.3 HDFS读数据之读取Block数据54-56
  • 4.2 基于热点数据块的本地缓存策略56-67
  • 4.2.1 HDFS数据访问不足之处56-58
  • 4.2.2 基于热点数据块的本地内存缓存策略58-60
  • 4.2.3 基于热点数据块的本地磁盘缓存策略60-63
  • 4.2.4 基于热点数据块的本地二级缓存策略63-67
  • 4.3 实验与结果分析67-73
  • 4.3.1 实验目的67
  • 4.3.2 实验环境67
  • 4.3.3 实验设计与结果分析67-73
  • 4.4 本章小结73-75
  • 第五章 总结与展望75-77
  • 5.1 全文总结75-76
  • 5.2 未来工作展望76-77
  • 致谢77-78
  • 参考文献78-82

【相似文献】

中国期刊全文数据库 前10条

1 何公明;张元涛;;面向数字媒体的高性能分布式存储系统的研究与应用[J];广播电视信息;2009年10期

2 范剑波,郭建康;分布式存储系统性能模型的建立与应用[J];计算机工程与应用;2001年13期

3 范剑波,徐利浩;分布式存储系统可靠性的研究[J];计算机工程;2001年06期

4 吴英;谢广军;刘t,

本文编号:381303


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/381303.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7afa3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com