HDFS下小文件存储优化相关技术研究
发布时间:2021-06-07 13:44
云计算是目前计算机领域最热的话题,HADOOP下的默认分布式文件系统Hadoop distributed file system(HDFS)因为其可靠性伸缩性以及在存储大文件时提供了强大的性能已经成为当今云计算研究领域事实上的标准,但在处理大量小文件时由于所有的文件请求都需要单Namenode进行处理,性能十分低下。本文首先对一些常用的分布式文件系统的原理以及内部实现做了简要介绍,然后对本文的目标原型HDFS作了深入的分析,包括架构,数据结构,数据块设置,以及读写策略,数据流模式等,并且分析了现有解决HDFS上小文件存储的一些方案的性能以及不足。针对HDFS存储小文件的不足,本文提出了一种通过Datanode缓存部分小文件元数据的策略来解决Namenode在存储小文件时的性能瓶颈,通过Datanode来缓存部分小文件的元数据,让客户端在请求数据时将绝大多数的小文件请求由Datanode进行处理,只有当Datanode请求不到需要的数据时才向请求Namenode进行请求,从而大量Namenode接受请求的次数,解决单Namenode由于频繁的请求造成的瓶颈。同时,针对Web2.0特殊的应...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
一IGFS架构图
图2一IHDFS架构图[川DFS采用master/slave架构。一个HDFS集群是由一个NamenodDatanode组成,这些Datanode定时和Namenode通信,像Nam以及接受Namenode的指令[川。为了减轻Namenode的负担,N需要永久保存所有Datanode上包含有哪些数据块的信息,而ode在启动时的上报数据块信息,来更新Namenode上的映射表。件系统的名字空间,用户可以通过以文件的形式在上面存储数据。个文件其实被分成一个或多个数据块(至少需要被划分成一个块存储在多个Datanode上,通过冗余性来保证可靠性以及加快后期Datanode负责处理分布式文件系统客户端的实际的读写数据请ode的统一调度下进行数据块的创建、删除和复制。
向Datanode里写入数据,当写入成功后,通知Namenode,最后Namenode写入上面所述的三种主要类型的元数据。HDFs实现了了Google数据流的写文件时的机制〔’3〕,如图2一4:{。1!t。,飞tf)爪扎入。d引价a松入odCZD“1。入。、}。3}_________l图2一3HDFS写文件数据流[13]数据流从客户端开始,流经一系列节点,到达最后一个Datanode。图中的所有Datanode都只需要写一次硬盘,Datanodel和DatanodeZ将会从Soeket上接受到的数据,直接写到下个节点的Sockct上,而不是等待Datanodel写完再把数据块复制给DatanodeZ,也就是说如果当前Datanode处于数据流的中间,该数据包会发送到下一个节点。在进行实际的数据写之前
【参考文献】:
期刊论文
[1]并行文件系统研究综述[J]. 霍严梅,杨可新,胡亮,鞠九滨. 小型微型计算机系统. 2008(09)
[2]基于对象存储系统的动态负载均衡算法[J]. 覃灵军,冯丹,曾令仿,刘群. 计算机科学. 2006(05)
[3]大规模并行文件系统中的数据可靠性机制[J]. 谈华芳,侯紫峰. 计算机工程. 2006(09)
[4]文件分配问题的一种动态解决算法[J]. 陈俊杰,张武生,沈美明,郑纬民. 小型微型计算机系统. 2004(07)
[5]数据网格环境下一种动态自适应的副本定位方法[J]. 李东升,李春江,肖侬,王意洁,卢锡城. 计算机研究与发展. 2003(12)
[6]分布式文件系统中Cache一致性的验证[J]. 王建勇,祝明发. 计算机学报. 1999(05)
博士论文
[1]数据网格副本管理关键技术研究[D]. 孙海燕.国防科学技术大学 2005
硕士论文
[1]基于Lustre文件系统的并行I/O技术研究[D]. 林松涛.国防科学技术大学 2004
本文编号:3216686
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
一IGFS架构图
图2一IHDFS架构图[川DFS采用master/slave架构。一个HDFS集群是由一个NamenodDatanode组成,这些Datanode定时和Namenode通信,像Nam以及接受Namenode的指令[川。为了减轻Namenode的负担,N需要永久保存所有Datanode上包含有哪些数据块的信息,而ode在启动时的上报数据块信息,来更新Namenode上的映射表。件系统的名字空间,用户可以通过以文件的形式在上面存储数据。个文件其实被分成一个或多个数据块(至少需要被划分成一个块存储在多个Datanode上,通过冗余性来保证可靠性以及加快后期Datanode负责处理分布式文件系统客户端的实际的读写数据请ode的统一调度下进行数据块的创建、删除和复制。
向Datanode里写入数据,当写入成功后,通知Namenode,最后Namenode写入上面所述的三种主要类型的元数据。HDFs实现了了Google数据流的写文件时的机制〔’3〕,如图2一4:{。1!t。,飞tf)爪扎入。d引价a松入odCZD“1。入。、}。3}_________l图2一3HDFS写文件数据流[13]数据流从客户端开始,流经一系列节点,到达最后一个Datanode。图中的所有Datanode都只需要写一次硬盘,Datanodel和DatanodeZ将会从Soeket上接受到的数据,直接写到下个节点的Sockct上,而不是等待Datanodel写完再把数据块复制给DatanodeZ,也就是说如果当前Datanode处于数据流的中间,该数据包会发送到下一个节点。在进行实际的数据写之前
【参考文献】:
期刊论文
[1]并行文件系统研究综述[J]. 霍严梅,杨可新,胡亮,鞠九滨. 小型微型计算机系统. 2008(09)
[2]基于对象存储系统的动态负载均衡算法[J]. 覃灵军,冯丹,曾令仿,刘群. 计算机科学. 2006(05)
[3]大规模并行文件系统中的数据可靠性机制[J]. 谈华芳,侯紫峰. 计算机工程. 2006(09)
[4]文件分配问题的一种动态解决算法[J]. 陈俊杰,张武生,沈美明,郑纬民. 小型微型计算机系统. 2004(07)
[5]数据网格环境下一种动态自适应的副本定位方法[J]. 李东升,李春江,肖侬,王意洁,卢锡城. 计算机研究与发展. 2003(12)
[6]分布式文件系统中Cache一致性的验证[J]. 王建勇,祝明发. 计算机学报. 1999(05)
博士论文
[1]数据网格副本管理关键技术研究[D]. 孙海燕.国防科学技术大学 2005
硕士论文
[1]基于Lustre文件系统的并行I/O技术研究[D]. 林松涛.国防科学技术大学 2004
本文编号:3216686
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3216686.html