当前位置:主页 > 科技论文 > 计算机论文 >

基于HDFS平台的海量小文件存储与访问优化策略研究

发布时间:2020-12-16 07:12
  由于近年来大数据技术发展迅猛,使得数据量呈井喷式的增长。这对数据的存储与访问技术来说是极具挑战性的难题。为了应对这种情形,许多大数据处理系统应运而生。目前,Hadoop分布式文件系统(HDFS)作为个中翘楚,具有高容错度、高扩展性、高吞吐量和高可靠性的特点,成为了业界和学术界最为流行的分布式文件存储系统。然而,由于本身的架构特点和其特有的读写机制所限,HDFS仅在超大文件的读取和访问上表现良好。在应对海量小文件场景时却有着天然的不足:1)HDFS的主从式的系统架构和以数据块的形式存储文件的存储机制,使得其在存储大量小文件时,会给系统主节点带来巨大的内存消耗,从而降低文件的存储效率;2)频繁的文件访问操作将对元数据管理节点和数据存储节点磁盘造成较大的访问压力,使文件的访问效率降低。在已有的研究当中,解决HDFS平台小文件存取效率问题的主要思路有:对于存储效率的提升,通过采用合并存储的方式,达到减少文件个数的目的,从而缓解主节点的内存压力;对于访问效率的提升,通过为HDFS的架构增设缓存机制,以减少节点间通信时间开销,提升访问效率。本文在前人的研究基础之上,展开了对HDFS中小文件存取效率... 

【文章来源】:北京工业大学北京市 211工程院校

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 选题背景和研究意义
    1.2 国内外研究现状
        1.2.1 小文件存储优化的研究现状
        1.2.2 小文件访问优化的研究现状
    1.3 本文研究内容及主要贡献
    1.4 本文的组织结构
第2章 相关技术研究
    2.1 Hadoop分布式文件系统
        2.1.1 HDFS系统架构
        2.1.2 HDFS的文件读写机制
        2.1.3 HDFS的小文件问题
    2.2 小文件存储优化的关键技术研究
        2.2.1 小文件存储的开销模型
        2.2.2 Hadoop的解决方案
        2.2.3 基于相关性的合并
        2.2.4 基于文件分布的合并
    2.3 小文件访问优化的关键技术研究
        2.3.1 小文件访问的开销模型
        2.3.2 缓存与缓存替换技术
    2.4 本章小结
第3章 基于文件相关度和文件分布的小文件合并存储策略
    3.1 基本思想
    3.2 文件相关度
    3.3 算法设计
    3.4 算法实现
    3.5 本章小结
第4章 基于文件驻留价值的小文件分层缓存
    4.1 基本思想
    4.2 缓存文件的价值判断
        4.2.1 缓存价值的影响因素
        4.2.2 文件的价值判断函数
    4.3 小文件的分层缓存与缓存替换
        4.3.1 分层依据
        4.3.2 缓存的更新过程
    4.4 本章小结
第5章 系统架构与实验分析
    5.1 系统架构
    5.2 实验环境
        5.2.1 硬件环境
        5.2.2 软件环境
    5.3 小文件存储优化效果
        5.3.1 文件存储的时间开销对比
        5.3.2 Namenode内存开销对比
        5.3.3 文件的空间局部性对比
    5.4 小文件访问优化效果
        5.4.1 缓存命中率对比
        5.4.2 文件访问效率对比
    5.5 本章小结
结论
参考文献
攻读硕士学位期间获得的科研成果
致谢



本文编号:2919755

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2919755.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e504c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com