当前位置:主页 > 科技论文 > 计算机论文 >

Hadoop平台下基于HDFS的小文件存储问题的优化与实现

发布时间:2021-03-05 02:03
  大数据技术随着互联网的发展及信息量爆炸增长的趋势应运而生。面对异常庞大的数据,多种分布式文件系统为大数据的存储提供了解决方案。其中Hadoop由于自身高扩展性、高可靠性等优点被业界广泛使用。HDFS作为Hadoop的核心组件,为处理大数据提供了文件存储服务。然而HDFS更擅长处理流式的大文件,面对海量小文件存储时的表现不佳。本文为了解决HDFS存储小文件效率低下的问题,对Hadoop架构和HDFS存储文件的流程进行详细分析,提出了引入多级处理模块MPM(Multilevel Processing Module for Small Files)的方案。该方案首先通过文件预处理模块,对系统中发出操作请求的文件进行过滤,筛选4.35MB以下的文件为小文件,并将其按文件扩展名进行初步分类。随后文件合并模块会将预处理后的小文件合并成尽可能少的大文件,以减少系统NameNode内存负载。为了提高小文件的查询速度,方案中除了利用小文件创建时间和小文件扩展名建立的二级索引模块,还引入了基于用户常用文件的预取和缓存模块。最后,针对系统长时间运行导致的碎片问题,当系统满足设定条件时,碎片整理模块会对合并文... 

【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

Hadoop平台下基于HDFS的小文件存储问题的优化与实现


Hadoop生态系统

系统架构


Hadoop 会根据各个节点当下的实际负载情况进行动态分配各节点负载的均衡性。同时,实现了集群整体的高效运行。4)容错性高。Hadoop 可以自动保存数据副本。当某一任务没有成功,复数据,并且被重新执行。5)低成本。与其他的商用大数据处理系统相比,Hadoop 是开源的。且要求不高,用户可以利用价格便宜的普通计算机搭建一个完整的计算行数据处理。项目的软、硬件成本大大降低。布式文件系统 HDFSHDFS 架构DFS 是 Hadoop 项目的核心组成,是存储和管理文件数据的基础。采r/Slave 的系统结构,NameNode、SecondaryNameNode[38]、Client、Data组成部分。HDFS 的系统结构如图 2-2 所示。

过程图,文件读取,过程,文件


华 中 科 技 大 学 硕 士 学 位 论 文于一个基础存储空间的大小(通常为 64MB),存储空间通常不会被文件占满,有节点内存无法承载海量的小文件带来的内存浪费。因此在面对海量小文件时,HD存储性能并不尽如人意。.2.3 HDFS 读写过程在 HDFS 存储文件的机制中,得益于 FSDataInputStream 类提供的两个接口ositionReadable 接口和 Seekable 接口,系统可以支持的文件操作方式十分丰富。常文件操作指令有新建文件、删除文件、修改文件、查询文件等,其中新建文件和文件是分布式文件系统中更加常用的请求。分别对应于文件的读取过程[40]和写入[40],接下来将对这两个操作过程进行详细的介绍。(1) 文件读取过程用户通过客户端读取数据过程如图 2-3 所示。


本文编号:3064371

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3064371.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e7d2a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com