基于HDFS的小文件存储方法的研究与优化
发布时间:2017-05-02 15:16
本文关键词:基于HDFS的小文件存储方法的研究与优化,由笔耕文化传播整理发布。
【摘要】:随着互联网的飞速发展,数字信息正在呈现爆炸式的增长,人类已步入大数据时代,传统的存储方式在处理海量数据方面显得越来越乏力。如何高效地处理和存储海量数据已成为一个亟待解决的问题。伴随着数据处理以及存储技术的快速发展,云计算的概念应运而生。云存储是云计算的延伸和发展,它具有结构灵活、响应效率高、管理方便等优点,已经成为世界各国解决数据爆炸性增长方案的首选。 Hadoop分布式文件系统(HDFS)作为目前应用非常广泛的云存储平台具有开源、廉价、高容错以及高可扩展性的特点。但是由于自身的主从式结构和元数据的存储方式导致其在处理海量小文件时NameNode内存占用率高、存储访问效率低、并发用户的访问时延长,这些问题已经成为制约HDFS整体性能的瓶颈。因此,基于HDFS的海量小文件存储方法的研究与优化是云计算技术领域的一个重要研究课题。 为了解决HDFS处理海量小文件时耗费内存资源和检索效率低的问题,本文首先研究了HDFS下处理小文件的现有方法,,分析了各自的优缺点,并在此基础上提出了一种具有独立小文件处理模块的分布式文件系统。该架构是在分布式文件系统的基础之上加入一个完全独立于HDFS的小文件处理模块,负责小文件的合并、映射、预取,在传统HDFS处理之前将小文件整合为大文件。该架构使得HDFS系统在处理小文件的同时不影响对大文件或者对已合并小文件的写入或读取,从而提高系统的存储访问效率。并且,本文所提架构更加符合传统HDFS高效处理大文件的设计理念,在解决多用户高并发访问问题上也有一定优势。 最后通过系统仿真,说明在元数据耗费内存资源、存储访问效率、用户并发访问方面所提架构比原HDFS系统及HAR方法具有较大提升。
【关键词】:HDFS海量小文件 小文件处理模块 并发访问 存储访问效率
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要3-4
- Abstract4-7
- 第一章 绪论7-13
- 1.1 课题背景7-9
- 1.2 研究意义和现状9-11
- 1.2.1 研究意义9
- 1.2.2 研究现状9-11
- 1.3 本文结构11-13
- 第二章 相关技术研究13-21
- 2.1 Hadoop 分布式平台结构13-14
- 2.2 HDFS 系统14-18
- 2.2.1 HDFS 架构14-17
- 2.2.2 HDFS 的目标特性17-18
- 2.3 HDFS 处理小文件关键问题18-19
- 2.4 HDFS 处理小文件相关技术19-21
- 第三章 HDFS 处理小文件方案的分析和设计21-33
- 3.1 归档文件和序列化文件21-22
- 3.1.1 归档文件技术21-22
- 3.1.2 序列化文件技术22
- 3.2 BlueSky 系统案例研究22-24
- 3.3 一种具有独立小文件处理模块的 HDFS 架构的设计24-26
- 3.3.1 系统设计的初衷和目标24-25
- 3.3.2 系统设计思路25-26
- 3.4 系统架构26-32
- 3.4.1 整体结构设计26-28
- 3.4.2 小文件模块的细化设计28-32
- 3.5 本章总结32-33
- 第四章 文件操作和多用户高并发访问策略33-45
- 4.1 HDFS 文件读写操作33-37
- 4.1.1 原 HDFS 系统的文件操作33-35
- 4.1.2 具有独立小文件处理模块的架构文件操作35-37
- 4.2 多用户高并发访问策略的分析37-40
- 4.2.1 程序的顺序执行和并发执行37-38
- 4.2.2 本文 HDFS 架构的顺序处理和并发处理38-40
- 4.3 性能评估40-43
- 4.3.1 HDFS 存储访问效率标准40-41
- 4.3.2 HDFS 存储访问效率仿真结果分析41-43
- 4.4 本章小结43-45
- 第五章 总结45-47
- 致谢47-49
- 参考文献49-53
- 作者攻读硕士期间参加的科研项目53-54
【参考文献】
中国期刊全文数据库 前5条
1 彭明军,李宗华,杨存吉;WebGIS实现技术及发展研究[J];测绘信息与工程;2001年01期
2 刘旭辉;韩冀中;贺劲;韩承德;;基于集群系统的空间数据并行处理策略研究[J];高技术通讯;2009年10期
3 史强;;GFS云存储技术可靠性简介[J];福建电脑;2012年01期
4 罗军舟;金嘉晖;宋爱波;东方;;云计算:体系架构与关键技术[J];通信学报;2011年07期
5 付鹏,周华春,陈旭东;CDN技术在IPTV系统中的应用[J];中国有线电视;2004年07期
本文关键词:基于HDFS的小文件存储方法的研究与优化,由笔耕文化传播整理发布。
本文编号:341212
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/341212.html