HDFS存储高利用率及强扩展性优化研究
发布时间:2021-12-24 04:05
HDFS凭借其高容错、高可靠等特性,成为了大数据存储领域应用最为广泛的分布式文件系统。然而随着大数据时代的不断发展,数据量呈现井喷式增长,要求HDFS具有更高的存储利用率及强扩展性。基于以上的需求,本文在深入分析HDFS的基础上发现以下三个问题:(1)HDFS通过3x副本策略实现数据冗余,保证了文件数据的高可靠性,然而其附加的副本在正常操作期间很少被访问,却增加了200%的存储空间和其他资源开销,存储空间利用率低下。(2)HDFS存储海量小文件时将产生大量的元数据并增加Namenode的内存消耗与负载,影响HDFS的存储性能。(3)HDFS中的元数据存放于FSImage和EditLog两个文件中并由Namenode加载到内存中进行管理,这种基于文件的元数据管理策略使得Namenode成为了HDFS扩展性的瓶颈。本文以提高HDFS的存储空间利用率与扩展性为目标,设计了一种基于HDFS的高扩展性分布式文件系统L-HDFS来解决以上三个问题。本文研究内容及研究成果主要包括:(1)提出了一种基于RS码的纠删码局部化算法CLRC来实现HDFS的数据冗余。相较于多副本策略,显著的提高了存储空间利用...
【文章来源】:东华理工大学江西省
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 分布式存储数据冗余研究现状
1.2.2 HDFS小文件存储研究现状
1.2.3 元数据管理研究现状
1.3 本文的主要工作
1.3.1 研究目的
1.3.2 研究内容
1.3.3 创新点
1.4 论文的组织结构
第2章 高性能及强扩展性的分布式文件系统L-HDFS设计
2.1 研究思路
2.2 HDFS关键技术研究
2.2.1 HDFS架构
2.2.2 HDFS文件读写流程
2.2.3 HDFS文件存放方法及冗余机制
2.2.4 HDFS元数据管理机制
2.3 L-HDFS需求分析
2.4 L-HDFS关键设计
2.4.1 L-HDFS数据冗余策略设计
2.4.2 L-HDFS小文件存储优化设计
2.4.3 L-HDFS元数据管理机制设计
2.4.4 实验设计
2.5 本章小结
第3章 纠删码局部化算法CLRC设计
3.1 研究思路
3.2 Erasure Code算法
3.2.1 名词定义与说明
3.2.2 Array Codes
3.2.3 RS码(Reed-solomon码)
3.3 纠删码局部化算法CLRC设计
3.3.1 优化方案
3.3.2 CLRC编码
3.3.3 CLRC解码
3.4 实验对比测试
3.4.1 编码效率测试
3.4.2 重构效率测试
3.5 本章小结
第4章 小文件编码合并算法FEMA设计
4.1 研究思路
4.2 HDFS小文件优化方法
4.2.1 HAR
4.2.2 SequenceFile
4.2.3 MapFile
4.3 小文件合并及文件名编码算法FEMA设计
4.3.1 小文件合并
4.3.2 文件预取与缓存
4.3.3 FMEA的文件读写流程
4.4 实验和评估
4.4.1 Namenode内存使用对比
4.4.2 存储性能对比
4.4.3 随机读取性能对比
4.5 本章小结
第5章 基于RDBMS的元数据管理扩展方案MBR设计
5.1 研究思路
5.2 MBR需求分析
5.3 基于RDBMS的元数据管理机制设计
5.3.1 MBR架构
5.3.2 MBR的元数据关系模式
5.3.3 MBR的 RDBMS元数据库
5.3.4 MBR性能分析
5.4 实验及结果分析
5.4.1 鲁棒性实验
5.4.2 可用性实验
5.4.3 可伸缩性实验
5.5 本章小结
第6章 总结与展望
6.1 总结
6.2 展望
致谢
参考文献
本文编号:3549787
【文章来源】:东华理工大学江西省
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 分布式存储数据冗余研究现状
1.2.2 HDFS小文件存储研究现状
1.2.3 元数据管理研究现状
1.3 本文的主要工作
1.3.1 研究目的
1.3.2 研究内容
1.3.3 创新点
1.4 论文的组织结构
第2章 高性能及强扩展性的分布式文件系统L-HDFS设计
2.1 研究思路
2.2 HDFS关键技术研究
2.2.1 HDFS架构
2.2.2 HDFS文件读写流程
2.2.3 HDFS文件存放方法及冗余机制
2.2.4 HDFS元数据管理机制
2.3 L-HDFS需求分析
2.4 L-HDFS关键设计
2.4.1 L-HDFS数据冗余策略设计
2.4.2 L-HDFS小文件存储优化设计
2.4.3 L-HDFS元数据管理机制设计
2.4.4 实验设计
2.5 本章小结
第3章 纠删码局部化算法CLRC设计
3.1 研究思路
3.2 Erasure Code算法
3.2.1 名词定义与说明
3.2.2 Array Codes
3.2.3 RS码(Reed-solomon码)
3.3 纠删码局部化算法CLRC设计
3.3.1 优化方案
3.3.2 CLRC编码
3.3.3 CLRC解码
3.4 实验对比测试
3.4.1 编码效率测试
3.4.2 重构效率测试
3.5 本章小结
第4章 小文件编码合并算法FEMA设计
4.1 研究思路
4.2 HDFS小文件优化方法
4.2.1 HAR
4.2.2 SequenceFile
4.2.3 MapFile
4.3 小文件合并及文件名编码算法FEMA设计
4.3.1 小文件合并
4.3.2 文件预取与缓存
4.3.3 FMEA的文件读写流程
4.4 实验和评估
4.4.1 Namenode内存使用对比
4.4.2 存储性能对比
4.4.3 随机读取性能对比
4.5 本章小结
第5章 基于RDBMS的元数据管理扩展方案MBR设计
5.1 研究思路
5.2 MBR需求分析
5.3 基于RDBMS的元数据管理机制设计
5.3.1 MBR架构
5.3.2 MBR的元数据关系模式
5.3.3 MBR的 RDBMS元数据库
5.3.4 MBR性能分析
5.4 实验及结果分析
5.4.1 鲁棒性实验
5.4.2 可用性实验
5.4.3 可伸缩性实验
5.5 本章小结
第6章 总结与展望
6.1 总结
6.2 展望
致谢
参考文献
本文编号:3549787
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3549787.html