当前位置:主页 > 科技论文 > 计算机论文 >

面向海量小文件存取的HDFS优化研究

发布时间:2017-10-05 05:24

  本文关键词:面向海量小文件存取的HDFS优化研究


  更多相关文章: HDFS 分布式文件系统 小文件 文件合并 预取缓存


【摘要】:Hadoop是近几年发展比较成熟的云计算平台之一,凭借其可靠,高效,可伸缩的特性在互联网领域得到了广泛应用,比如Yahoo、Amazon、Facebook等公司成功地应用了Hadoop,同时也得到了学术界的普遍关注。HDFS作为Hadoop的分布式文件系统有着高可用的特性,但它是为大文件的存储与计算而设计,却忽略了对小文件处理的优化,当大量的小文件存储到HDFS中就会产生大量的元数据,因而占用NameNode大量的内存。而对海量小文件高并发的访问使得HDFS的NameNode和DataNode都负载过大。这使得HDFS不适合存储小文件。 针对HDFS在小文件处理的不足,本文提出了一个基于HDFS的中间件HMFS来解决HDFS的小文件问题。它由用户接口层、任务层和存储层组成。能够很好的实现对小文件的上传、下载、修改、删除操作。并且它所有的任务都在后台运行,通过读写分离机制大大地提高文件的上传效率,通过缓存预取机制提高了文件的下载效率。 在小文件合并的优化方面,本文提出了SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,同时采用基于预取的缓存替换算法Prefetching-LFU来管理缓存空间,提高文件的命中率。 最后,本文将HMFS与SmartFS的优点相结合,设计并实现一个基于HDFS的通用高效的小文件系统,该系统使用HMFS进行在线的文件处理,如文件上传、下载、更新及删除。并使用SmartFS来分析历史的访问日志得到文件关联,再将相关联的文件重新合并上传到HDFS中。在预取与缓存策略上,它结合HMFS与SmartFS两种情况进行预取与缓存,保证了各种情况的高效运行。 实验表明该系统的上传,下载速度相对HDFS有极大的提升,且减少了HDFS元数据量,使得HDFS能够支持海量的小文件处理,并且它能将相关联的文件合并提高了预取与缓存的效率。综上,该系统是一种通用且高效的HDFS小文件解决方案。
【关键词】:HDFS 分布式文件系统 小文件 文件合并 预取缓存
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第1章 引言10-13
  • 1.1 课题研究背景10
  • 1.2 课题研究意义10-11
  • 1.3 课题研究内容11
  • 1.4 论文组织结构11-13
  • 第2章 HDFS 深入研究13-22
  • 2.1 HDFS 架构13-17
  • 2.2 HDFS 主要流程17-20
  • 2.3 本章小结20-22
  • 第3章 HDFS 小文件问题及现有解决方案22-33
  • 3.1 小文件的定义22-23
  • 3.2 HDFS 小文件性能23
  • 3.3 HDFS 小文件问题原因分析23-24
  • 3.4 HDFS 小文件处理现有优化方法24-31
  • 3.5 当前优化方法的不足31-32
  • 3.6 本章小结32-33
  • 第4章 基于 HDFS 的中间件设计33-42
  • 4.1 HMFS 架构33-34
  • 4.2 文件操作接口34-37
  • 4.3 文件合并37-40
  • 4.4 文件预取与缓存40-41
  • 4.5 本章小结41-42
  • 第5章 关联文件合并及缓存优化42-52
  • 5.1 SmartFS 架构42-43
  • 5.2 基于关联的小文件合并43-48
  • 5.3 基于文件关联的小文件预取与缓存48-51
  • 5.4 本章小结51-52
  • 第6章 系统实现与实验分析52-61
  • 6.1 系统设计与实现52-55
  • 6.2 实验分析55-60
  • 6.3 本章小结60-61
  • 第7章 总结及展望61-64
  • 7.1 总结61-62
  • 7.2 展望62-64
  • 参考文献64-66
  • 致谢66-67
  • 攻读硕士学位期间发表的论文67

【参考文献】

中国期刊全文数据库 前5条

1 付松龄;廖湘科;黄辰林;王蕾;李姗姗;;FlatLFS:一种面向海量小文件处理优化的轻量级文件系统[J];国防科技大学学报;2013年02期

2 金志刚,张钢,舒炎泰;基于网络性能的智能Web加速技术——缓存与预取[J];计算机研究与发展;2001年08期

3 石磊;孟彩霞;韩英杰;;基于预测的Web缓存替换策略[J];计算机应用;2007年08期

4 赵晓永;杨扬;孙莉莉;陈宇;;基于Hadoop的海量MP3文件存储架构[J];计算机应用;2012年06期

5 张春明;芮建武;何婷婷;;一种Hadoop小文件存储和读取的方法[J];计算机应用与软件;2012年11期



本文编号:975023

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/975023.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户42f2f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com