Hadoop集群中小文件的存取优化研究
发布时间:2022-10-30 09:16
近年来,全球大数据进入加速发展阶段,数据总量每年增长50%,呈现出海量聚集、爆发增长的态势,引领转型的新特征,如何存储、分析和利用这些数据是当前人类急需解决的一大难题。由HDFS、MapReduce、Hive、HBase等组件构成的Hadoop凭借其出色的性能、稳定安全的生态体系和开源等优势逐渐成为了通用的大数据存储平台,然而由于固定的NameNode内存有对应文件数量上限的限制,使其并不适合存储海量小文件。因而在查阅相关文献及研究、分析了HDFS存取文件的过程、HBase读取数据的过程后,本文提出一种海量小文件存取优化方案,主要做了以下研究:针对目前业内没有明确给出小文件的度量标准,而且当超大规模的小文件存储在HDFS中时,必将出现因元数据量的急剧增长导致的内存紧张问题,本文提出了确定适合硬件配置的大、小文件判定阈值的方法和结合背包数学模型与KMeans聚类算法的合并方法。首先利用Hadoop性能测试工具TestDFSIO确定适合硬件环境的大、小文件判定阈值,将目标文件分为大文件和小文件;然后采用背包模型下的K-Means聚类算法将待处理的文件分为多个聚类簇,再用贪心搜索策略分别选取...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 本文研究内容
1.4 本文结构安排
第二章 Hadoop集群及相关技术介绍
2.1 Hadoop体系架构
2.2 分布式文件系统HDFS
2.2.1 HDFS系统架构及特征
2.2.2 HDFS数据交互
2.3 HBase分布式数据库
2.3.1 HBase数据库架构
2.3.2 HBase数据结构
2.4 MySQL数据库
2.5 Ehcache缓存框架
2.6 背包问题数学模型
2.6.1 0 -1 背包问题概述
2.6.2 贪心算法
2.7 K-Means聚类算法
2.8 本章小结
第三章 海量小文件存储优化研究
3.1 NameNode内存消耗分析
3.2 现有解决方案
3.2.1 Hadoop Archives方案
3.2.2 SequenceFile方案和MapFile方案
3.2.3 CombineFile方案
3.3 小文件存储方案设计
3.4 文件大、小判定模块
3.4.1 大、小文件判定阈值的选取
3.4.2 判定算法描述
3.5 文件合并模块
3.5.1 贪心搜索策略
3.5.2 背包模型下的K-Means聚类合并方法
3.5.3 算法实现过程
3.6 实验结果与分析
3.6.1 实验环境及内容
3.6.2 大、小文件判定阈值T的确定
3.6.3 文件合并的均匀性测试
3.6.4 写入性能测试
3.6.5 内存占用测试
3.7 本章小结
第四章 海量小文件读取优化研究
4.1 文件访问时间分析
4.2 文件索引模块
4.2.1 索引实现过程
4.2.2 HBase索引表设计
4.3 文件缓存模块
4.3.1 缓存结构设计
4.3.2 缓存置换策略
4.4 小文件读取模块
4.4.1 小文件读取方法设计
4.4.2 小文件读取过程的描述
4.5 文件管理方法
4.5.1 添加文件方法
4.5.2 删除文件方法
4.5.3 替换文件方法
4.6 实验结果与分析
4.6.1 实验环境及内容
4.6.2 读取性能测试
4.7 本章小结
第五章 HDFS文件管理演示系统设计与实现
5.1 系统需求及可行性分析
5.1.1 系统需求分析
5.1.2 系统可行性分析
5.2 系统开发环境
5.2.1 硬件环境
5.2.2 软件环境
5.3 系统功能详细介绍
5.3.1 用户登录模块
5.3.2 配置文件选择模块
5.3.3 HDFS文件管理模块
5.3.4 用户信息管理模块
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间发表论文和参与科研情况
致谢
【参考文献】:
期刊论文
[1]大数据管理系统的历史、现状与未来[J]. 杜小勇,卢卫,张峰. 软件学报. 2019(01)
[2]中医云健康平台的体系架构研究[J]. 丁琪,侯曦,温川飙. 中国数字医学. 2018(10)
[3]基于贪心算法的一致性哈希负载均衡优化[J]. 王诚,李奇源. 南京邮电大学学报(自然科学版). 2018(03)
[4]航空货运中海量小文件的存储优化[J]. 李国,李汶晓,徐俊洁. 计算机工程与设计. 2018(05)
[5]基于萤火虫优化的副本放置方法[J]. 李君,侯孟书. 计算机应用研究. 2019(02)
[6]HDFS中海量小文件合并与预取优化方法的研究[J]. 郑通,郭卫斌,范贵生. 计算机科学. 2017(S2)
[7]SCoS:基于Spark的并行谱聚类算法设计与实现[J]. 朱光辉,黄圣彬,袁春风,黄宜华. 计算机学报. 2018(04)
[8]Hadoop平台下海量图像处理实现[J]. 谭台哲,向云鹏. 计算机工程与设计. 2017(04)
[9]大数据热点技术综述[J]. 陈军成,丁治明,高需. 北京工业大学学报. 2017(03)
[10]基于改进型K-means聚类的温度插值算法[J]. 杜景林,沈晓燕. 计算机工程与设计. 2016(11)
硕士论文
[1]基于Hadoop的离线数据分析平台设计与实现[D]. 朱雪.河北工程大学 2018
[2]基于Hadoop的航空货运海量小文件存储研究[D]. 李汶晓.中国民航大学 2018
[3]基于HBase的车辆轨迹数据管理与分析[D]. 雷云鹏.西南交通大学 2017
[4]改进步长与策略的果蝇优化算法及其应用[D]. 桂龙.安徽大学 2017
[5]基于HDFS的海量小文件存储策略的研究[D]. 徐士坤.北京工业大学 2017
[6]面向海量小文件存取的HDFS优化研究[D]. 李铁.东华大学 2015
[7]Hadoop小文件存储管理的研究与实现[D]. 左大鹏.北京交通大学 2015
[8]k-means聚类算法的改进研究及其应用[D]. 王康.大连理工大学 2014
[9]数据缓存实现快速数据访问的设计[D]. 关海生.上海交通大学 2012
本文编号:3698618
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 本文研究内容
1.4 本文结构安排
第二章 Hadoop集群及相关技术介绍
2.1 Hadoop体系架构
2.2 分布式文件系统HDFS
2.2.1 HDFS系统架构及特征
2.2.2 HDFS数据交互
2.3 HBase分布式数据库
2.3.1 HBase数据库架构
2.3.2 HBase数据结构
2.4 MySQL数据库
2.5 Ehcache缓存框架
2.6 背包问题数学模型
2.6.1 0 -1 背包问题概述
2.6.2 贪心算法
2.7 K-Means聚类算法
2.8 本章小结
第三章 海量小文件存储优化研究
3.1 NameNode内存消耗分析
3.2 现有解决方案
3.2.1 Hadoop Archives方案
3.2.2 SequenceFile方案和MapFile方案
3.2.3 CombineFile方案
3.3 小文件存储方案设计
3.4 文件大、小判定模块
3.4.1 大、小文件判定阈值的选取
3.4.2 判定算法描述
3.5 文件合并模块
3.5.1 贪心搜索策略
3.5.2 背包模型下的K-Means聚类合并方法
3.5.3 算法实现过程
3.6 实验结果与分析
3.6.1 实验环境及内容
3.6.2 大、小文件判定阈值T的确定
3.6.3 文件合并的均匀性测试
3.6.4 写入性能测试
3.6.5 内存占用测试
3.7 本章小结
第四章 海量小文件读取优化研究
4.1 文件访问时间分析
4.2 文件索引模块
4.2.1 索引实现过程
4.2.2 HBase索引表设计
4.3 文件缓存模块
4.3.1 缓存结构设计
4.3.2 缓存置换策略
4.4 小文件读取模块
4.4.1 小文件读取方法设计
4.4.2 小文件读取过程的描述
4.5 文件管理方法
4.5.1 添加文件方法
4.5.2 删除文件方法
4.5.3 替换文件方法
4.6 实验结果与分析
4.6.1 实验环境及内容
4.6.2 读取性能测试
4.7 本章小结
第五章 HDFS文件管理演示系统设计与实现
5.1 系统需求及可行性分析
5.1.1 系统需求分析
5.1.2 系统可行性分析
5.2 系统开发环境
5.2.1 硬件环境
5.2.2 软件环境
5.3 系统功能详细介绍
5.3.1 用户登录模块
5.3.2 配置文件选择模块
5.3.3 HDFS文件管理模块
5.3.4 用户信息管理模块
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间发表论文和参与科研情况
致谢
【参考文献】:
期刊论文
[1]大数据管理系统的历史、现状与未来[J]. 杜小勇,卢卫,张峰. 软件学报. 2019(01)
[2]中医云健康平台的体系架构研究[J]. 丁琪,侯曦,温川飙. 中国数字医学. 2018(10)
[3]基于贪心算法的一致性哈希负载均衡优化[J]. 王诚,李奇源. 南京邮电大学学报(自然科学版). 2018(03)
[4]航空货运中海量小文件的存储优化[J]. 李国,李汶晓,徐俊洁. 计算机工程与设计. 2018(05)
[5]基于萤火虫优化的副本放置方法[J]. 李君,侯孟书. 计算机应用研究. 2019(02)
[6]HDFS中海量小文件合并与预取优化方法的研究[J]. 郑通,郭卫斌,范贵生. 计算机科学. 2017(S2)
[7]SCoS:基于Spark的并行谱聚类算法设计与实现[J]. 朱光辉,黄圣彬,袁春风,黄宜华. 计算机学报. 2018(04)
[8]Hadoop平台下海量图像处理实现[J]. 谭台哲,向云鹏. 计算机工程与设计. 2017(04)
[9]大数据热点技术综述[J]. 陈军成,丁治明,高需. 北京工业大学学报. 2017(03)
[10]基于改进型K-means聚类的温度插值算法[J]. 杜景林,沈晓燕. 计算机工程与设计. 2016(11)
硕士论文
[1]基于Hadoop的离线数据分析平台设计与实现[D]. 朱雪.河北工程大学 2018
[2]基于Hadoop的航空货运海量小文件存储研究[D]. 李汶晓.中国民航大学 2018
[3]基于HBase的车辆轨迹数据管理与分析[D]. 雷云鹏.西南交通大学 2017
[4]改进步长与策略的果蝇优化算法及其应用[D]. 桂龙.安徽大学 2017
[5]基于HDFS的海量小文件存储策略的研究[D]. 徐士坤.北京工业大学 2017
[6]面向海量小文件存取的HDFS优化研究[D]. 李铁.东华大学 2015
[7]Hadoop小文件存储管理的研究与实现[D]. 左大鹏.北京交通大学 2015
[8]k-means聚类算法的改进研究及其应用[D]. 王康.大连理工大学 2014
[9]数据缓存实现快速数据访问的设计[D]. 关海生.上海交通大学 2012
本文编号:3698618
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3698618.html