云计算环境下海量小文件处理方法研究
发布时间:2021-01-31 04:46
Hadoop是近几年发展比较成熟的云计算平台之一,作为一种开源软件框架,它凭借其可靠性、可扩展性和分布式的计算和存储而迅速发展,为众多企业和研究研究者所认可。Hadoop主要由底层分布式文件系统HDFS和上层并行编程模型MapReduce引擎构成,其中HDFS以其优异性能至今仍被广泛应用。HDFS采用主从架构模式,由单一NameNode和多个DataNode组成,其主要针对流式数据访问模式而设计,但对海量小文件(指比HDFS默认文件块(64MB)小很多的文件)处理性能不佳,而现实应用中却存在HDFS存储海量小文件的需求。目前针对HDFS小文件问题,主要对策是对文件进行合并,在进行文件合并时,对于小文件并没有明确的定义,然而文件分界点问题直接关系到HDFS文件存储策略、文件合并策略的研究,对HDFS海量小文件的存储有着至关重要的意义。针对HDFS (Hadoop Distributed File System)中小文件处理性能不佳的问题,本文研究HDFS设计架构及其对应的存储机制,分析HDFS文件操作相关过程,以及HDFS在进行文件操作时采用的一些量化标准,从中分析出导致HDFS在处理小...
【文章来源】:东北林业大学黑龙江省 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 工业界与学术界研究现状
1.2.1 工业界研究现状
1.2.2 学术界研究现状
1.3 论文结构安排
1.4 本章小结
2 海量小文件处理技术
2.1 HDFS架构分析
2.1.1 NameNode
2.1.2 DataNode
2.1.3 SecondaryNameNode
2.2 HDFS主要工作流程
2.2.1 客户端与NameNode交互过程
2.2.2 删除文件
2.3 灰色关联分析
2.4 本章小结
3 HDFS小文件问题研究进展
3.1 小文件对HDFS影响
3.2 HDFS小文件存在问题
3.2.1 HDFS小文件问题产生原因
3.2.2 HDFS小文件存储时面临问题
3.3 HDFS小文件问题解决方法
3.3.1 Hadoop自身修正方法
3.3.2 通用解决方法
3.3.3 特定解决方法
3.4 本章小结
4 基于灰色关联分析的小文件处理方法研究
4.1 FM、FMUFS与FMAFS测试标准选择
4.2 评价矩阵建立
4.3 评价矩阵标准化方法
4.4 基于熵权法的灰色关联度计算
4.5 文件分界点确定方法
4.6 本章小结
5 实验及结果分析
5.1 实验环境建立
5.2 NameNode消耗内存与文件大小实验
5.3 文件上传与下载速度与文件大小实验
5.4 有效性与稳定性实验
5.5 本章小结
结论
参考文献
攻读学位期间发表的学术论文
致谢
【参考文献】:
期刊论文
[1]SMDFS分布式海量小文件系统的大空间聚合存储技术[J]. 严巍巍,何连跃,李三霞,成颖佼. 计算机研究与发展. 2015(S2)
[2]HDFS下海量小文件高效存储与索引方法[J]. 肖玉泽,张利军,潘巍,张小芳,李战怀. 小型微型计算机系统. 2015(10)
[3]一种面向海量小文件的文件接收和存储优化方案[J]. 张守利,杨冬菊,韩燕波. 小型微型计算机系统. 2015(08)
[4]基于Hadoop的海量气象雷达小文件存储研究[J]. 杨芙容,王永丽,王文明. 成都信息工程学院学报. 2015(03)
[5]HDFS中高效存储小文件的方法[J]. 尹颖,林庆,林涵阳. 计算机工程与设计. 2015(02)
[6]一种基于混合索引的HDFS小文件存储策略[J]. 熊安萍,黄容,邹洋. 重庆邮电大学学报(自然科学版). 2015(01)
[7]灰色系统研究进展(2004—2014)[J]. 刘思峰,杨英杰. 南京航空航天大学学报. 2015(01)
[8]面向Hadoop分布式文件系统的小文件存取优化方法[J]. 李铁,燕彩蓉,黄永锋,宋亚龙. 计算机应用. 2014(11)
[9]面向大数据分析的分布式文件系统关键技术[J]. 周江,王伟平,孟丹,马灿,古晓艳,蒋杰. 计算机研究与发展. 2014(02)
[10]云存储中面向访问任务的小文件合并与预取策略[J]. 王涛,姚世红,徐正全,熊炼. 武汉大学学报(信息科学版). 2013(12)
本文编号:3010232
【文章来源】:东北林业大学黑龙江省 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 工业界与学术界研究现状
1.2.1 工业界研究现状
1.2.2 学术界研究现状
1.3 论文结构安排
1.4 本章小结
2 海量小文件处理技术
2.1 HDFS架构分析
2.1.1 NameNode
2.1.2 DataNode
2.1.3 SecondaryNameNode
2.2 HDFS主要工作流程
2.2.1 客户端与NameNode交互过程
2.2.2 删除文件
2.3 灰色关联分析
2.4 本章小结
3 HDFS小文件问题研究进展
3.1 小文件对HDFS影响
3.2 HDFS小文件存在问题
3.2.1 HDFS小文件问题产生原因
3.2.2 HDFS小文件存储时面临问题
3.3 HDFS小文件问题解决方法
3.3.1 Hadoop自身修正方法
3.3.2 通用解决方法
3.3.3 特定解决方法
3.4 本章小结
4 基于灰色关联分析的小文件处理方法研究
4.1 FM、FMUFS与FMAFS测试标准选择
4.2 评价矩阵建立
4.3 评价矩阵标准化方法
4.4 基于熵权法的灰色关联度计算
4.5 文件分界点确定方法
4.6 本章小结
5 实验及结果分析
5.1 实验环境建立
5.2 NameNode消耗内存与文件大小实验
5.3 文件上传与下载速度与文件大小实验
5.4 有效性与稳定性实验
5.5 本章小结
结论
参考文献
攻读学位期间发表的学术论文
致谢
【参考文献】:
期刊论文
[1]SMDFS分布式海量小文件系统的大空间聚合存储技术[J]. 严巍巍,何连跃,李三霞,成颖佼. 计算机研究与发展. 2015(S2)
[2]HDFS下海量小文件高效存储与索引方法[J]. 肖玉泽,张利军,潘巍,张小芳,李战怀. 小型微型计算机系统. 2015(10)
[3]一种面向海量小文件的文件接收和存储优化方案[J]. 张守利,杨冬菊,韩燕波. 小型微型计算机系统. 2015(08)
[4]基于Hadoop的海量气象雷达小文件存储研究[J]. 杨芙容,王永丽,王文明. 成都信息工程学院学报. 2015(03)
[5]HDFS中高效存储小文件的方法[J]. 尹颖,林庆,林涵阳. 计算机工程与设计. 2015(02)
[6]一种基于混合索引的HDFS小文件存储策略[J]. 熊安萍,黄容,邹洋. 重庆邮电大学学报(自然科学版). 2015(01)
[7]灰色系统研究进展(2004—2014)[J]. 刘思峰,杨英杰. 南京航空航天大学学报. 2015(01)
[8]面向Hadoop分布式文件系统的小文件存取优化方法[J]. 李铁,燕彩蓉,黄永锋,宋亚龙. 计算机应用. 2014(11)
[9]面向大数据分析的分布式文件系统关键技术[J]. 周江,王伟平,孟丹,马灿,古晓艳,蒋杰. 计算机研究与发展. 2014(02)
[10]云存储中面向访问任务的小文件合并与预取策略[J]. 王涛,姚世红,徐正全,熊炼. 武汉大学学报(信息科学版). 2013(12)
本文编号:3010232
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3010232.html