云环境下海量小文件存储技术的研究与应用
本文关键词:云环境下海量小文件存储技术的研究与应用,由笔耕文化传播整理发布。
【摘要】:大数据时代的到来,导致人类所产生的信息数据量以井喷的形势汹涌而来,尤其是像图片、邮件、电子档案这类的海量小文件。传统的存储技术已经无法适应大数据时代海量文件的存储需求,如何高效地应对海量小文件的存储是当前技术领域一个有待解决的问题。大数据与云计算相伴相随,而云存储则是在云计算的概念之上产生出来的,它是云计算的发展和延生,它具有响应速度快,管理高效,结构灵活多变等优点,已经成为世界各国解决数据爆炸性增长的重要解决方案。因此,云环境下海量小文件处理技术是一个重要的课题。本文深入分析了HADDOP分布式文件系统(HDFS)的工作原理,重点讨论了它作为现如今炙手可热的云存储平台,具有的开源、高容错、可扩展性强和成本相对节约的优点。同时针对目前的应用环境和需求,提出了海量小文件存储这一现实性的问题,结合HADOOP架构自身的主从结构和元数据存储方式,提出了它在处理海量小文件的时候会出现存取时间长和NameNode节点内存占有率高这两个方面的问题。为了解决这一问题,本文研究了现有的小文件处理方法,分析了各自的优缺点之后,提出了一个云环境下小文件问题的通用解决方案,具有独立小文件处理模块的分布式文件系统。这一架构是在现有的分布式文件系统之前加入小文件处理模块来实现小文件的合并、分离、缓存等功能,进而再交由传统HDFS进行处理,既不改变原有的架构,也不影响对大文件的和合并后的小文件的处理,从而提高整个系统对小文件的存取效率。进一步提出了相适应的的元数据类型与结构,通过分组算法、合并算法、检索算法和缓存方法,修改了相关接口功能,最后实现了新的小文件读写流程。最后通过系统的仿真实验,对比HDFS原有方法,证实了此改进方式对于系统在存取时间的减少和元数据内存消耗的降低有很大的帮助,整体上提高了系统的小文件存储性能。
【关键词】:云存储 海量小文件 HADOOP平台 HDFS
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
- 摘要4-5
- Abstract5-10
- Contents10-13
- 第一章 绪论13-19
- 1.1 选题背景和意义13-16
- 1.1.1 选题背景13-16
- 1.1.2 研究意义16
- 1.2 技术研究现状16-18
- 1.3 本文结构安排18-19
- 第二章 相关技术研究综述19-40
- 2.1 云存储19-22
- 2.1.1 云存储的分类19-20
- 2.1.2 云存储的技术支撑20-21
- 2.1.3 云存储的应用21-22
- 2.2 分布式存储系统22-30
- 2.2.1 Amazon S3系统23-24
- 2.2.2 淘宝TFS系统24-26
- 2.2.3 Google GFS系统26-27
- 2.2.4 Haystack系统27-30
- 2.3 HADOOP平台30-39
- 2.3.1 HDFS分布式存储31-34
- 2.3.2 MapReduce分布式计算34-36
- 2.3.3 Hadoop处理小文件时存在的问题36-39
- 2.4 本章小结39-40
- 第三章 小文件处理技术研究与优化设计实现40-60
- 3.1 HADOOP自带的解决方案40-43
- 3.1.1 Hadoop Archive40-42
- 3.1.2 SequenceFile42
- 3.1.3 MapFile42-43
- 3.1.4 HDFS Federation方案43
- 3.2 设计方案目的和思路43-45
- 3.2.1 设计目的43-45
- 3.2.2 系统设计思路45
- 3.3 优化方案设计45-51
- 3.3.1 总体方案设计46-47
- 3.3.2 小文件合并47-48
- 3.3.3 小文件分解48-50
- 3.3.4 小文件缓存50-51
- 3.4 相关数据结构与算法51-56
- 3.4.1 元数据类型与结构51-53
- 3.4.2 分组算法53-54
- 3.4.3 合并算法54-55
- 3.4.4 分解算法55
- 3.4.5 缓存相关信息说明55-56
- 3.5 小文件的读写流程与接口56-58
- 3.5.1 小文件读56-57
- 3.5.2 小文件写57-58
- 3.6 实现58-59
- 3.7 本章小结59-60
- 第四章 小文件优化处理仿真及结果分析60-71
- 4.1 HDFS原有读写过程60-63
- 4.1.1 HDFS数据写入流程60-62
- 4.1.2 HDFS的读出流程62-63
- 4.2 带有小文件处理模块的HDFS读写实现过程63-64
- 4.2.1 改进后的写入流程63
- 4.2.2 改进后的读出流程63-64
- 4.3 实验环境64-65
- 4.4 仿真及分析65-70
- 4.4.1 小文件读写时间性能测试及分析65-68
- 4.4.2 Namenode备份元数据变化测试及分析68-70
- 4.5 本章小结70-71
- 总结与展望71-72
- 参考文献72-76
- 攻读硕士学位期间发表的论文76-77
- 致谢77
【相似文献】
中国期刊全文数据库 前10条
1 王春靖;FAT32的优点[J];电脑爱好者;1998年03期
2 何文才;郑钊;刘培鹤;杜敏;;一种基于目录数据分离存储的文件存储方法的研究与实现[J];网络安全技术与应用;2014年01期
3 飞雪散花;;手机文件存储看我的[J];电脑迷;2012年05期
4 孙有军;张大兴;;海量图片文件存储去重技术研究[J];计算机应用与软件;2014年04期
5 ;金刚指——计算机文件存储的保护神[J];信息安全与通信保密;2001年12期
6 赵跃龙;谢晓玲;蔡咏才;王国华;刘霖;;一种性能优化的小文件存储访问策略的研究[J];计算机研究与发展;2012年07期
7 周国安;李强;陈新;胡旭;;云环境下海量小文件存储技术研究综述[J];信息网络安全;2014年06期
8 张美芳;电子文件存储方式的研究[J];数字与缩微影像;2005年02期
9 陶慧;于守谦;刘夏;;适于测控系统的文件存储结构研究[J];计算机应用与软件;2010年11期
10 方勇;史跃辉;;浅谈减少地形图电子文件存储冗余的几种方法[J];江西测绘;2006年02期
中国重要会议论文全文数据库 前6条
1 任勇;朱立谷;张雷;彭建峰;;新型虚拟文件存储系统的设计[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 李浩;;基于制播分离的文件存储和传输方式的探讨[A];中国新闻技术工作者联合会五届二次理事会暨学术年会论文集(上篇)[C];2010年
3 陈海波;侯建卫;;针对海量详单快速存储检索的实现方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 陈海波;侯建卫;;针对海量详单快速存储检索的实现方法[A];2011全国无线及移动通信学术大会论文集[C];2011年
5 袁旦;张智君;;预览时间对颜色判断任务下客体文件存储的影响[A];第十一届全国心理学学术会议论文摘要集[C];2007年
6 黄步根;黄政;刘建军;;SANYO数码相机中被删除视频的恢复[A];第26次全国计算机安全学术交流会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 郭平;Isilon扩充文件存储产品线[N];计算机世界;2009年
2 本报记者 郭平;容量与性能 一样都不能少[N];计算机世界;2010年
3 张峰;统一存储 业务连续[N];网络世界;2006年
4 清水 编译;基于文件存储大行其道[N];计算机世界;2011年
5 本报记者 郭涛;HCP Anywhere:为HDS内容云锦上添花[N];中国计算机报;2013年
6 于翔;让IT如业务般运营的应用路径[N];网络世界;2009年
7 刘一冰;IBM SoNAS专攻高端存储客户[N];电脑商报;2010年
8 清水 编译;云存储:机遇下暗藏挑战[N];计算机世界;2010年
9 沈建苗;互联网存储 你信得过吗[N];计算机世界;2007年
10 ;一月 笔类和文件存储产品关注度较高[N];消费日报;2010年
中国硕士学位论文全文数据库 前10条
1 宫海林;支持事务的文件存储技术研究与系统实现[D];国防科学技术大学;2006年
2 曹挹芬;分布式文件存储与检索平台的设计与实现[D];湖南大学;2009年
3 黄斌;并行文件存储系统关键技术的研究[D];华南理工大学;2012年
4 蒋浩;分布式文件存储系统副本管理方法研究[D];浙江大学;2013年
5 张聪萍;钱塘分布式文件存储系统性能优化[D];浙江大学;2011年
6 周峰;互联网文件存储服务系统研究[D];华中科技大学;2011年
7 郑钊;专控计算机分离式文件存储的研究[D];西安电子科技大学;2014年
8 何娟;基于分布式文件存储的个人信息融合系统的研究与实践[D];北京邮电大学;2010年
9 江柳;HDFS下小文件存储优化相关技术研究[D];北京邮电大学;2011年
10 董其文;基于HDFS的小文件存储方法的研究[D];大连海事大学;2013年
本文关键词:云环境下海量小文件存储技术的研究与应用,由笔耕文化传播整理发布。
,本文编号:302474
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/302474.html