基于HDFS的小文件存储方法的研究与应用
发布时间:2017-09-21 09:20
本文关键词:基于HDFS的小文件存储方法的研究与应用
更多相关文章: HDFS 小文件 MySQL 索引 索引预取
【摘要】:随着科学技术的不断发展,传统的存储方法已经无法满足当前海量数据的存取需求,海量数据的存储和处理成为当下研究的一个新课题。分布式计算平台Hadoop因其开源的优良特性,高吞吐量、高可靠性和伸缩性等优点,已经广泛的应用在云计算领域。Hadoop核心技术之一的分布式文件系统HDFS,对计算机的硬件要求低,并具有高容错性,现已广泛应用于存储大规模的数据文件。然而,HDFS的设计是针对海量的大规模数据文件,在存取小文件方面性能还不够高效。本文针对HDFS在小文件存储方面的低效问题,结合公安实用云存储平台的系统要求,提出可行的小文件存储方案来提升整个系统性能。首先,为了解决HDFS存储大量小文件对Name Node造成的内存资源耗费的问题,在对HDFS自带的小文件存储方法进行分析之后,设计了一个独立的小文件处理模块,将海量小文件在上传HDFS之前进行预合并,减轻Name Node内存的存储压力,提高存储效率。其次,为了满足公安系统高安全性的需求,提出通过在集群中添加一台数据服务器对小文件的元数据进行备份,来减少当Name Node出现故障时可能出现的信息丢失情况,提高系统的安全性。为了实现合并后小文件的快速访问,提出在数据服务器上创建My Sql数据库,保存小文件的索引信息,为访问小文件提供索引;同时根据公安系统中数据的相关性,提出了小文件索引信息预取方案,提高小文件的读取速度。最后,通过模拟实验,对优化后的算法和HDFS自带的算法在小文件存储和访问两面的性能进行比较,验证优化后的算法的可行性和有效性。
【关键词】:HDFS 小文件 MySQL 索引 索引预取
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 研究背景10-11
- 1.2 国内外研究现状11-14
- 1.2.1 Hadoop技术的新要求11-12
- 1.2.2 相关解决方法的理论研究12-14
- 1.3 本文研究内容14-15
- 1.4 本文组织结构15-16
- 第2章 相关技术研究16-25
- 2.1 Hadoop分布式平台介绍16-20
- 2.1.1 Hadoop概述16
- 2.1.2 分布式文件系统HDFS16-18
- 2.1.3 分布式编程模型Map Reduce18-20
- 2.2 Hadoop处理小文件时存在的问题20-22
- 2.2.1 存储问题21-22
- 2.2.2 读写问题22
- 2.3 Hadoop安全问题22-23
- 2.4 本章小结23-25
- 第3章 基于Sequence File的小文件合并算法及优化25-35
- 3.1 Hadoop自带的决方案25-28
- 3.1.1 Hadoop Archive25-26
- 3.1.2 Sequence File26-27
- 3.1.3 Combine File Input Format27-28
- 3.2 系统总体结构的设计与实现28-32
- 3.2.1 系统总体结构的设计28
- 3.2.2 系统总体结构的实现28-32
- 3.3 Sequence File合并算法的优化32-34
- 3.3.1 元数据结构的优化32-33
- 3.3.2 小文件合并优化算法33-34
- 3.4 本章小结34-35
- 第4章 小文件合并后访问算法35-48
- 4.1 系统架构设计35-36
- 4.2 基于Mysql索引的基本结构36
- 4.3 基于Map Reduce生成的My Sql索引结构36-40
- 4.3.1 创建Map Reduce与数据库的数据交互36-37
- 4.3.2 基于Map Reduce生成索引算法37-39
- 4.3.3 重写数据输出接39-40
- 4.4 单个小文件访问算法及优化40-47
- 4.4.1 基于My SQL的小文件查询与搜索算法40-42
- 4.4.2 查找小文件算法42-45
- 4.4.3 预取小文件索引算法45
- 4.4.4 单个文件下载算法及优化45-47
- 4.5 本章小结47-48
- 第5章 系统测试与分析48-59
- 5.1 实验目的48
- 5.2 实验环境和数据48-50
- 5.3 测试的项目与目标50-58
- 5.3.1 实验用到的Java程序50
- 5.3.2 上传文件测试50-53
- 5.3.3 访问小文件测试53-58
- 5.4 本章小结58-59
- 结论59-60
- 参考文献60-63
- 攻读硕士学位期间承担的科研任务与主要成果63-64
- 致谢64-65
- 作者简介65
【参考文献】
中国期刊全文数据库 前6条
1 栾亚建;黄烂,
本文编号:893657
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/893657.html