基于HDFS的小文件处理优化方法研究
发布时间:2023-06-23 18:39
随着信息技术的高速发展,数据呈现指数增长的趋势,海量数据的存在对于社会与科技的发展是机遇也是挑战。大数据给传统的技术带来了难题,海量的数据存储与处理得到了社会各界广泛关注。而在海量数据中,包含了很大比例的小文件。小文件以各种形式存在人们的生活中,怎样从海量小文件中挖掘出信息潜在的价值,将其用于解决人们的实际生活中,是目前急于解决的问题。Hadoop作为开源式云计算平台,一经发布便广受国内外专家学者的关注,各大互联网公司更是将其应用于公司的发展中。HDFS(Hadoop Distributed File System)是Hadoop的分布式文件系统,拥有高可靠,高并发,高可用,高容错等特点。HDFS对于大数据的存储与处理十分有效。然而HDFS的主从架构模式的特点在海量小文件存储与处理方面存在一定的弊端,海量小文件的元数据量成为了制约NameNode的瓶颈问题,并且严重影响了小文件的读取效率。针对HDFS存储与处理海量小文件效果不佳的问题,本文提出一种动态队列的方案,减少NameNode中的元数据,并采用预取缓存策略,提高小文件的读取效率。本文的主要工作如下:(1)分析研究了 HDFS在存...
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.1.1 大数据的研究背景与意义
1.1.2 海量小文件数据的研究背景与意义
1.2 研究现状
1.2.1 工业界研究现状
1.2.2 学术界研究现状
1.3 论文主要工作与结构安排
1.4 本章小结
2 Hadoop以及文本数据处理技术分析
2.1 Hadoop概述
2.2 分布式文件系统HDFS
2.2.1 HDFS框架结构
2.2.2 HDFS的工作流程
2.2.3 HDFS存储处理海量小文件问题总结分析
2.3 并行编程框架MapReduce
2.4 文本相似性检测方法
2.5 数据处理方法
2.5.1 层次分析法
2.5.2 数据标准化方法
2.6 本章小结
3 基于动态队列的小文件存储优化研究
3.1 动态队列方法研究
3.1.1 关键指标权重计算
3.1.2 系统性能评价分析
3.1.3 文本相似性检测方法
3.2 二级索引目录
3.3 预取缓存策略
3.3.1 预取缓存方案
3.3.2 预取缓存替换方案
3.4 本章小结
4 实验及结果分析
4.1 实验基础环境建立
4.2 动态队列实验验证
4.3 实验结果验证分析
4.4 本章小结
结论
参考文献
攻读学位期间发表的学术论文
致谢
本文编号:3835102
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.1.1 大数据的研究背景与意义
1.1.2 海量小文件数据的研究背景与意义
1.2 研究现状
1.2.1 工业界研究现状
1.2.2 学术界研究现状
1.3 论文主要工作与结构安排
1.4 本章小结
2 Hadoop以及文本数据处理技术分析
2.1 Hadoop概述
2.2 分布式文件系统HDFS
2.2.1 HDFS框架结构
2.2.2 HDFS的工作流程
2.2.3 HDFS存储处理海量小文件问题总结分析
2.3 并行编程框架MapReduce
2.4 文本相似性检测方法
2.5 数据处理方法
2.5.1 层次分析法
2.5.2 数据标准化方法
2.6 本章小结
3 基于动态队列的小文件存储优化研究
3.1 动态队列方法研究
3.1.1 关键指标权重计算
3.1.2 系统性能评价分析
3.1.3 文本相似性检测方法
3.2 二级索引目录
3.3 预取缓存策略
3.3.1 预取缓存方案
3.3.2 预取缓存替换方案
3.4 本章小结
4 实验及结果分析
4.1 实验基础环境建立
4.2 动态队列实验验证
4.3 实验结果验证分析
4.4 本章小结
结论
参考文献
攻读学位期间发表的学术论文
致谢
本文编号:3835102
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3835102.html