基于HDFS的小文件存储模型研究与实现
发布时间:2017-04-29 02:01
本文关键词:基于HDFS的小文件存储模型研究与实现,,由笔耕文化传播整理发布。
【摘要】:大数据是当前计算机领域研究的热点问题之一。企业通过大数据分析消费者行为,部门销售数据等指标,能得出对企业增加市场竞争力产生重要作用的情报数据。随着大数据对企业发展带来积极的影响,越来越多的企业将利用大数据,以及寻求适用于大数据的数据存储解决方案。HDFS是一个开源的分布式文件系统,因其较低的成本,良好的可靠性等特点而成为企业与科研院所首选的海量数据存储解决方案。HDFS适用于采用流式数据访问和存储超大文件,在存储大数据研究过程中产生的海量小文件时,则表现出存储空间不足,读写效率低下等问题。如何使HDFS高效存储小文件,是一个十分有意义的研究方向。针对HDFS在存储小文件时表现出的效率低下等问题,本文从磁盘、网络通信和元数据等因素详细分析小文件问题产生原因,并提出包含管理节点与工作节点的小文件存储模型以优化HDFS上的小文件问题。论文主要工作如下:(1)提出小文件存储模型架构。存储模型是一个基于HDFS的应用。它通过采用小文件优化存储策略,代替HDFS处理客户端的读写小文件请求,达到优化小文件存储的目的。(2)小文件合并存储。即多个客户端上传的小文件共同保存在一个HDFS文件中,该方法能有效减少HDFS中系统元数据的数目,并降低HDFS读取小文件数据的磁盘寻道时间。(3)小文件索引管理。索引管理主要包括:创建、序列化与反序列化小文件索引。每个工作节点在内存中保存与其相关的小文件集合的索引信息。通过查询索引表实现工作节点快速定位小文件数据在HDFS文件中的偏移地址。(4)小文件缓存管理。本文在工作节点的内存和磁盘上构建小文件缓存区,保存最近写入的和访问频率的小文件。缓存管理内置多种常用缓存置换算法,有效减少工作节点与HDFS交互次数,提高客户端访问小文件的效率。(5)通过部署多节点实验平台,对小文件存储模型进行了读写性能测试。测试结果与HDFS读写文件性能对比发现:小文件存储模型方案具有可行性,且表现出良好的小文件读写性能。
【关键词】:HDFS 小文件 分布式 合并存储 元数据 缓存
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要5-7
- Abstract7-12
- 第1章 绪论12-16
- 1.1 研究背景12-13
- 1.2 研究现状13-14
- 1.3 研究内容14
- 1.4 论文结构14-16
- 第2章 Hadoop分布式文件系统16-32
- 2.1 HDFS架构16-19
- 2.1.1 名字节点17-18
- 2.1.2 数据节点18-19
- 2.2 HDFS集群启动19-21
- 2.2.1 名字节点启动19-20
- 2.2.2 数据节点启动与心跳20-21
- 2.3 HDFS元数据管理21-23
- 2.4 HDFS文件读写分析23-26
- 2.4.1 HDFS读文件23-24
- 2.4.2 HDFS写文件24-26
- 2.5 HDFS序列文件26-28
- 2.5.1 SequenceFile26-28
- 2.5.2 MapFile28
- 2.6 HDFS集中式缓存28-29
- 2.7 本章小结29-32
- 第3章 小文件存储模型设计32-50
- 3.1 小文件问题分析32-33
- 3.2 小文件存储模型33-37
- 3.2.1 模型架构34-35
- 3.2.2 管理节点35-36
- 3.2.3 工作节点36-37
- 3.3 小文件合并存储37-41
- 3.3.1 存储空间37-38
- 3.3.2 存储块文件38-39
- 3.3.3 小文件合并存储流程39-41
- 3.4 小文件索引管理41-44
- 3.4.1 文件全局编号41
- 3.4.2 索引文件41-42
- 3.4.3 索引表42-43
- 3.4.4 索引创建与保存43-44
- 3.5 小文件缓存管理44-49
- 3.5.1 缓存技术介绍44-45
- 3.5.2 缓存管理设计目标45
- 3.5.3 缓存管理模块划分45-46
- 3.5.4 缓存管理工作流程46-47
- 3.5.5 缓存管理置换策略47-48
- 3.5.6 缓存管理实现48-49
- 3.6 本章小结49-50
- 第4章 小文件存储模型实现与优化50-62
- 4.1 网络通信的实现50-53
- 4.1.1 写数据50-51
- 4.1.2 读数据51-53
- 4.2 文件I/O的实现53-57
- 4.2.1 上传小文件53-54
- 4.2.2 访问小文件54-55
- 4.2.3 删除小文件55-57
- 4.3 小文件存储模型的优化57-60
- 4.3.1 客户端关系缓存表57-58
- 4.3.2 最优可写存储块文件数58-60
- 4.4 本章小结60-62
- 第5章 性能测试与分析62-68
- 5.1 实验平台部署与配置62-63
- 5.1.1 实验环境62
- 5.1.2 实验节点部署62
- 5.1.3 存储模型配置62-63
- 5.2 最优可写存储块个数测试63-64
- 5.3 小文件存储测试64-66
- 5.3.1 读测试64-65
- 5.3.2 写测试65-66
- 5.4 本章小结66-68
- 第6章 总结与展望68-70
- 6.1 工作总结68
- 6.2 工作展望68-70
- 参考文献70-76
- 致谢76-78
- 科研项目与论文工作情况78
【相似文献】
中国期刊全文数据库 前1条
1 杨公平,曾广周,卢朝霞;移动Agent系统中的排队机制研究[J];计算机学报;2005年11期
中国硕士学位论文全文数据库 前1条
1 李宁;基于HDFS的小文件存储模型研究与实现[D];东北大学;2014年
本文关键词:基于HDFS的小文件存储模型研究与实现,由笔耕文化传播整理发布。
本文编号:333949
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/333949.html