当前位置:主页 > 科技论文 > 计算机论文 >

基于HDFS的小文件存储方法的研究与应用

发布时间:2017-09-21 09:20

  本文关键词:基于HDFS的小文件存储方法的研究与应用


  更多相关文章: HDFS 小文件 MySQL 索引 索引预取


【摘要】:随着科学技术的不断发展,传统的存储方法已经无法满足当前海量数据的存取需求,海量数据的存储和处理成为当下研究的一个新课题。分布式计算平台Hadoop因其开源的优良特性,高吞吐量、高可靠性和伸缩性等优点,已经广泛的应用在云计算领域。Hadoop核心技术之一的分布式文件系统HDFS,对计算机的硬件要求低,并具有高容错性,现已广泛应用于存储大规模的数据文件。然而,HDFS的设计是针对海量的大规模数据文件,在存取小文件方面性能还不够高效。本文针对HDFS在小文件存储方面的低效问题,结合公安实用云存储平台的系统要求,提出可行的小文件存储方案来提升整个系统性能。首先,为了解决HDFS存储大量小文件对Name Node造成的内存资源耗费的问题,在对HDFS自带的小文件存储方法进行分析之后,设计了一个独立的小文件处理模块,将海量小文件在上传HDFS之前进行预合并,减轻Name Node内存的存储压力,提高存储效率。其次,为了满足公安系统高安全性的需求,提出通过在集群中添加一台数据服务器对小文件的元数据进行备份,来减少当Name Node出现故障时可能出现的信息丢失情况,提高系统的安全性。为了实现合并后小文件的快速访问,提出在数据服务器上创建My Sql数据库,保存小文件的索引信息,为访问小文件提供索引;同时根据公安系统中数据的相关性,提出了小文件索引信息预取方案,提高小文件的读取速度。最后,通过模拟实验,对优化后的算法和HDFS自带的算法在小文件存储和访问两面的性能进行比较,验证优化后的算法的可行性和有效性。
【关键词】:HDFS 小文件 MySQL 索引 索引预取
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 绪论10-16
  • 1.1 研究背景10-11
  • 1.2 国内外研究现状11-14
  • 1.2.1 Hadoop技术的新要求11-12
  • 1.2.2 相关解决方法的理论研究12-14
  • 1.3 本文研究内容14-15
  • 1.4 本文组织结构15-16
  • 第2章 相关技术研究16-25
  • 2.1 Hadoop分布式平台介绍16-20
  • 2.1.1 Hadoop概述16
  • 2.1.2 分布式文件系统HDFS16-18
  • 2.1.3 分布式编程模型Map Reduce18-20
  • 2.2 Hadoop处理小文件时存在的问题20-22
  • 2.2.1 存储问题21-22
  • 2.2.2 读写问题22
  • 2.3 Hadoop安全问题22-23
  • 2.4 本章小结23-25
  • 第3章 基于Sequence File的小文件合并算法及优化25-35
  • 3.1 Hadoop自带的决方案25-28
  • 3.1.1 Hadoop Archive25-26
  • 3.1.2 Sequence File26-27
  • 3.1.3 Combine File Input Format27-28
  • 3.2 系统总体结构的设计与实现28-32
  • 3.2.1 系统总体结构的设计28
  • 3.2.2 系统总体结构的实现28-32
  • 3.3 Sequence File合并算法的优化32-34
  • 3.3.1 元数据结构的优化32-33
  • 3.3.2 小文件合并优化算法33-34
  • 3.4 本章小结34-35
  • 第4章 小文件合并后访问算法35-48
  • 4.1 系统架构设计35-36
  • 4.2 基于Mysql索引的基本结构36
  • 4.3 基于Map Reduce生成的My Sql索引结构36-40
  • 4.3.1 创建Map Reduce与数据库的数据交互36-37
  • 4.3.2 基于Map Reduce生成索引算法37-39
  • 4.3.3 重写数据输出接39-40
  • 4.4 单个小文件访问算法及优化40-47
  • 4.4.1 基于My SQL的小文件查询与搜索算法40-42
  • 4.4.2 查找小文件算法42-45
  • 4.4.3 预取小文件索引算法45
  • 4.4.4 单个文件下载算法及优化45-47
  • 4.5 本章小结47-48
  • 第5章 系统测试与分析48-59
  • 5.1 实验目的48
  • 5.2 实验环境和数据48-50
  • 5.3 测试的项目与目标50-58
  • 5.3.1 实验用到的Java程序50
  • 5.3.2 上传文件测试50-53
  • 5.3.3 访问小文件测试53-58
  • 5.4 本章小结58-59
  • 结论59-60
  • 参考文献60-63
  • 攻读硕士学位期间承担的科研任务与主要成果63-64
  • 致谢64-65
  • 作者简介65

【参考文献】

中国期刊全文数据库 前6条

1 栾亚建;黄烂,

本文编号:893657


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/893657.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ede40***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com