HDFS的副本放置与缓存优化研究
发布时间:2022-11-06 08:59
随着互联网技术的高速发展及互联网应用的快速增加,使得网络上数据量呈爆炸式增长,大规模数据存储、访问随之成为大数据领域的研究热点。当前,Hadoop分布式文件系统HDFS因高效、稳定的存储能力在大数据领域中被广泛应用。然而,HDFS仍有很多不足之处,需要不断进行改进和完善。首先,HDFS设计时并没有考虑数据节点上磁盘存储异构性,其底层存储只支持单一存储介质,导致HDFS集群不能很好的利用RAM盘(Random-Access Memory Disk)、固态硬盘(Solid State Drives,SSD)等高效存储设备来提高系统的I/O性能和吞吐量。其次,HDFS不能区分热数据,导致存放热数据的节点成为集群性能的一个瓶颈。最后,当HDFS集群存在海量小文件,并且这些小文件中存在大量热数据时,HDFS没有一个很好的缓存策略解决小文件缓存问题,这导致访问小文件时需不断的与硬盘交互,大大降低了客户端频繁访问小文件的效率。为了缓解上述问题,本文研究了HDFS文件副本放置和缓存机制,并进行了针对性的改进。本文主要工作如下:(1)针对HDFS不能高效利用RAM盘和SSD的问题,本文根据数据节点存储异...
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景与意义
1.1.1 海量数据产生与存储
1.1.2 海量小文件的产生
1.2 国内外研究现状
1.2.1 HDFS及其存储策略
1.2.2 HDFS存储性能优化
1.2.2.1 副本系数确定
1.2.2.2 合理引入高性能磁盘
1.2.2.3 海量小文件性能优化
1.3 论文研究工作和内容安排
1.3.1 研究工作
1.3.2 内容安排
第2章 HDFS基础理论与技术
2.1 分布式存储概述
2.2 HDFS分布式文件系统
2.2.1 HDFS设计目标
2.2.2 HDFS整体架构
2.2.3 HDFS关键实体
2.2.4 HDFS副本放置策略
2.2.5 HDFS读写机制
2.3 文件副本管理技术
2.3.1 文件副本技术概念及优点
2.3.2 文件副本技术要点
2.4 HDFS集中式缓存
2.5 本章小结
第3章 基于热度感知的混合HDFS副本自适应移动策略设计
3.1 HDFS 多目录存储策略
3.1.1 轮询选择策略
3.1.2 剩余空间选择策略
3.2 HPAMP设计
3.2.1 系统架构及基本方案
3.2.1.1 系统架构
3.2.1.2 文件副本初始放置方案
3.2.1.3 文件副本移动方案
3.2.2 基于灰度预测的文件访问热度计算
3.2.3 文件副本自适应移动设计
3.2.4 整体算法
3.3 实验验证与结果分析
3.3.1 实验目的
3.3.2 基本情况
3.3.3 实验设计与结果分析
3.4 本章小结
第四章 基于ARC替换算法的HDFS小文件缓存管理方法
4.1 缓存概述
4.2 缓存替换算法介绍
4.2.1 基于Recency的替换策略
4.2.2 基于Frecency的替换策略
4.2.3 ARC缓存替换算法
4.3 基于ARC替换算法的HDFS小文件缓存管理方法
4.3.1 缓存管理设计目标
4.3.2 缓存替换算法ARC运行流程
4.3.3 缓存管理工作流程
4.3.3.1 缓存空间建立
4.3.3.2 缓存管理模块划分
4.3.3.3 缓存管理处理请求流程
4.3.3.4 整体算法
4.4 实验验证与结果分析
4.4.1 实验目的
4.4.2 实验环境
4.4.3 实验设计与结果分析
4.4.3.1 ARC算法性能验证
4.4.3.2 缓存效果验证
4.5 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
附录
【参考文献】:
期刊论文
[1]电信运营商“互联网+”业务中的分布式存储技术研究[J]. 石春达,栾文魁,张伟,赵晓光. 信息通信技术. 2016(05)
[2]内存计算技术研究综述[J]. 罗乐,刘轶,钱德沛. 软件学报. 2016(08)
[3]可信固态硬盘:大数据安全的新基础[J]. 田洪亮,张勇,许信辉,李超,邢春晓. 计算机学报. 2016(01)
[4]面向大数据分析的分布式文件系统关键技术[J]. 周江,王伟平,孟丹,马灿,古晓艳,蒋杰. 计算机研究与发展. 2014(02)
[5]MRU Cache替换算法平均性能剖析[J]. 吕鸣松,郭浩,关楠. 东北大学学报(自然科学版). 2013(11)
[6]国外大数据产业的发展及启示[J]. 刘小刚. 金融经济. 2013(18)
[7]基于MapFile的HDFS小文件存储效率问题[J]. 洪旭升,林世平. 计算机系统应用. 2012(11)
[8]Hadoop中海量小文件的处理分析[J]. 朱光耀. 科技资讯. 2012(28)
[9]云计算架构下的动态副本管理策略[J]. 祝家钰,肖丹. 计算机工程与设计. 2012(09)
[10]云计算及其关键技术[J]. 陈全,邓倩妮. 计算机应用. 2009(09)
硕士论文
[1]LRFU及其自适应算法的研究[D]. 还璋武.安徽工业大学 2016
本文编号:3703218
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景与意义
1.1.1 海量数据产生与存储
1.1.2 海量小文件的产生
1.2 国内外研究现状
1.2.1 HDFS及其存储策略
1.2.2 HDFS存储性能优化
1.2.2.1 副本系数确定
1.2.2.2 合理引入高性能磁盘
1.2.2.3 海量小文件性能优化
1.3 论文研究工作和内容安排
1.3.1 研究工作
1.3.2 内容安排
第2章 HDFS基础理论与技术
2.1 分布式存储概述
2.2 HDFS分布式文件系统
2.2.1 HDFS设计目标
2.2.2 HDFS整体架构
2.2.3 HDFS关键实体
2.2.4 HDFS副本放置策略
2.2.5 HDFS读写机制
2.3 文件副本管理技术
2.3.1 文件副本技术概念及优点
2.3.2 文件副本技术要点
2.4 HDFS集中式缓存
2.5 本章小结
第3章 基于热度感知的混合HDFS副本自适应移动策略设计
3.1 HDFS 多目录存储策略
3.1.1 轮询选择策略
3.1.2 剩余空间选择策略
3.2 HPAMP设计
3.2.1 系统架构及基本方案
3.2.1.1 系统架构
3.2.1.2 文件副本初始放置方案
3.2.1.3 文件副本移动方案
3.2.2 基于灰度预测的文件访问热度计算
3.2.3 文件副本自适应移动设计
3.2.4 整体算法
3.3 实验验证与结果分析
3.3.1 实验目的
3.3.2 基本情况
3.3.3 实验设计与结果分析
3.4 本章小结
第四章 基于ARC替换算法的HDFS小文件缓存管理方法
4.1 缓存概述
4.2 缓存替换算法介绍
4.2.1 基于Recency的替换策略
4.2.2 基于Frecency的替换策略
4.2.3 ARC缓存替换算法
4.3 基于ARC替换算法的HDFS小文件缓存管理方法
4.3.1 缓存管理设计目标
4.3.2 缓存替换算法ARC运行流程
4.3.3 缓存管理工作流程
4.3.3.1 缓存空间建立
4.3.3.2 缓存管理模块划分
4.3.3.3 缓存管理处理请求流程
4.3.3.4 整体算法
4.4 实验验证与结果分析
4.4.1 实验目的
4.4.2 实验环境
4.4.3 实验设计与结果分析
4.4.3.1 ARC算法性能验证
4.4.3.2 缓存效果验证
4.5 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
附录
【参考文献】:
期刊论文
[1]电信运营商“互联网+”业务中的分布式存储技术研究[J]. 石春达,栾文魁,张伟,赵晓光. 信息通信技术. 2016(05)
[2]内存计算技术研究综述[J]. 罗乐,刘轶,钱德沛. 软件学报. 2016(08)
[3]可信固态硬盘:大数据安全的新基础[J]. 田洪亮,张勇,许信辉,李超,邢春晓. 计算机学报. 2016(01)
[4]面向大数据分析的分布式文件系统关键技术[J]. 周江,王伟平,孟丹,马灿,古晓艳,蒋杰. 计算机研究与发展. 2014(02)
[5]MRU Cache替换算法平均性能剖析[J]. 吕鸣松,郭浩,关楠. 东北大学学报(自然科学版). 2013(11)
[6]国外大数据产业的发展及启示[J]. 刘小刚. 金融经济. 2013(18)
[7]基于MapFile的HDFS小文件存储效率问题[J]. 洪旭升,林世平. 计算机系统应用. 2012(11)
[8]Hadoop中海量小文件的处理分析[J]. 朱光耀. 科技资讯. 2012(28)
[9]云计算架构下的动态副本管理策略[J]. 祝家钰,肖丹. 计算机工程与设计. 2012(09)
[10]云计算及其关键技术[J]. 陈全,邓倩妮. 计算机应用. 2009(09)
硕士论文
[1]LRFU及其自适应算法的研究[D]. 还璋武.安徽工业大学 2016
本文编号:3703218
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3703218.html