当前位置:主页 > 科技论文 > 计算机论文 >

一种基于混合索引的HDFS小文件存储策略

发布时间:2020-02-06 12:10
【摘要】:Hadoop分布式文件系统(hadoop distributed file system,HDFS)因其稳定高效、低成本等优势,已被很多大型企业广泛使用。针对HDFS海量小文件存储时元数据服务器节点内存开销过大,合并文件中小文件访问效率不高的问题,提出一种改进的基于混合索引的小文件存储策略,应用分类器分类标记小文件,并在元数据服务器建立H-B+树索引,在存储节点根据小文件大小建立不同的块内索引,达到提高小文件访问效率的目标。实现中采用缓存结构,以提高客户端访问的响应速度,同时也有利于元数据服务器节点的内存负载。实验结果表明,基于混合索引的小文件存储策略能有效提高小文件访问效率,并显著降低元数据节点内存开销。
【图文】:

架构图,文件存储,架构,文件映射


映射)的B+树索引,DataNode数据端根据所存储小文件的大小,有区别的建立合适的块内索引,以实现小文件高效快速的访问。图1小文件存储架构图Fig.1Smallfilesstoragearchitecture图2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件标签和小文件映射动态增长,对上层的小文件标签建立基于小文件标签的可扩展散列索引。可扩展散列可节省空间,当索引项增长时,动态分配桶,,虽然需要维护桶地址表,这一额外开销影响非常小,我们可以忽略。传统的散列索引结构为了提高数据映射的随机性,相邻数据项在索引项的位置是离散的,这不利于小文件映射记录的局部性访问。本文提出基于文件标签的散列索引,除了保持散列索引的处理速度、存储空间的优势,还能有效提高缓存命中率。该索引结构的主要思路是根据小文件所属标签,使用文件标签代替数据项作为索引单元,保证同一标签的文件映射记录被映射到同一个桶中,访问文件映射记录时,其缓存命中率有所提高,从而使小文件达到更高的访问效率。下层的小文件映射采用B+树结构,由于小文件映射记录海量且要适应多个客户端并发请求,Na-meNode内存不能承担载如此大的负载,所以小文件映射只能存储在磁盘上,需按文件块读取到内存。要有效查询小文件映射,必须减少磁盘访问次数,而B+树索引具有搜索路径短的特点,适合作为小文件映射的索引结构。B+树索引的搜索路径小于[log[n/2]()K](n为结点的阶,K为索引项的总数量)。例如,结点的大小一般为磁盘块大小(4KByte),如果搜索码大小为32Byte,n=4×210/32=100,如果索引项有1000000个,一次查询访问磁盘次数为log[100/2](1000000)=4次。再加上缓存的作用,访问磁盘的次数更少。

索引,策略,文件映射


映射)的B+树索引,DataNode数据端根据所存储小文件的大小,有区别的建立合适的块内索引,以实现小文件高效快速的访问。图1小文件存储架构图Fig.1Smallfilesstoragearchitecture图2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件标签和小文件映射动态增长,对上层的小文件标签建立基于小文件标签的可扩展散列索引。可扩展散列可节省空间,当索引项增长时,动态分配桶,虽然需要维护桶地址表,这一额外开销影响非常小,我们可以忽略。传统的散列索引结构为了提高数据映射的随机性,相邻数据项在索引项的位置是离散的,这不利于小文件映射记录的局部性访问。本文提出基于文件标签的散列索引,除了保持散列索引的处理速度、存储空间的优势,还能有效提高缓存命中率。该索引结构的主要思路是根据小文件所属标签,使用文件标签代替数据项作为索引单元,保证同一标签的文件映射记录被映射到同一个桶中,访问文件映射记录时,其缓存命中率有所提高,从而使小文件达到更高的访问效率。下层的小文件映射采用B+树结构,由于小文件映射记录海量且要适应多个客户端并发请求,Na-meNode内存不能承担载如此大的负载,所以小文件映射只能存储在磁盘上,需按文件块读取到内存。要有效查询小文件映射,必须减少磁盘访问次数,而B+树索引具有搜索路径短的特点,适合作为小文件映射的索引结构。B+树索引的搜索路径小于[log[n/2]()K](n为结点的阶,K为索引项的总数量)。例如,结点的大小一般为磁盘块大小(4KByte),如果搜索码大小为32Byte,n=4×210/32=100,如果索引项有1000000个,一次查询访问磁盘次数为log[100/2](1000000)=4次。再加上缓存的作用,访问磁盘的次数更少。

【参考文献】

相关期刊论文 前3条

1 郝杰;逯彦博;刘鑫吉;夏树涛;;分布式存储中的再生码综述[J];重庆邮电大学学报(自然科学版);2013年01期

2 赵跃龙;谢晓玲;蔡咏才;王国华;刘霖;;一种性能优化的小文件存储访问策略的研究[J];计算机研究与发展;2012年07期

3 王铃惠;李小勇;张轶彬;;海量小文件存储文件系统研究综述[J];计算机应用与软件;2012年08期

【共引文献】

相关期刊论文 前10条

1 董新华;李瑞轩;周湾湾;王聪;薛正元;廖东杰;;Hadoop系统性能优化与功能增强综述[J];计算机研究与发展;2013年S2期

2 陈渝;;基于Cache的海量图片存取优化方案[J];计算机测量与控制;2014年08期

3 英昌甜;于炯;鲁亮;刘建矿;;基于小文件的内存云存储优化策略[J];计算机应用;2014年11期

4 杨洪章;张军伟;许鲁;刘振军;;基于pNFS的小文件间数据预读机制研究[J];计算机研究与发展;2014年S1期

5 徐教显;王雅文;;基于缓存估算模型的代码测试系统性能优化方法[J];软件;2013年12期

6 程付超;苗放;陈垦;;自适应的分布式文件系统元数据管理模型[J];计算机工程与设计;2014年03期

7 尹颖;林庆;林涵阳;;HDFS中高效存储小文件的方法[J];计算机工程与设计;2015年02期

8 王涛;姚世红;徐正全;熊炼;;云存储中面向访问任务的小文件合并与预取策略[J];武汉大学学报(信息科学版);2013年12期

9 周国安;李强;陈新;胡旭;;云环境下海量小文件存储技术研究综述[J];信息网络安全;2014年06期

10 吴阳;冯径;;面向高效文件访问的目录结构优化研究[J];软件工程师;2014年11期

相关会议论文 前1条

1 陈骁;尚德生;党瑞鹏;;探月工程测控应用系统遥操作软件运行模式研究[A];中国宇航学会深空探测技术专业委员会第十届学术年会论文集[C];2013年

相关硕士学位论文 前7条

1 罗雄威;SDFS分布式文件系统的研究与设计[D];华南理工大学;2013年

2 刘伯睿;海量数据小文件分布式存储系统的设计与实现[D];湖南大学;2013年

3 杨灿;基于HDFS的华图在线文库系统数据存储与管理研究[D];中南大学;2013年

4 蒋向阳;基于Hadoop的云安全存储系统的设计与实现[D];广东工业大学;2014年

5 孔鑫;基于Hadoop的海量小型XML数据文件处理技术的设计和实现[D];西安电子科技大学;2014年

6 何华;GlusterFS的数据分布策略与性能优化研究[D];国防科学技术大学;2013年

7 赵玉龙;基于Hadoop的海量小文件处理性能研究与优化[D];内蒙古科技大学;2014年

【二级参考文献】

相关期刊论文 前1条

1 金海;罗飞;章勤;张浩;;一个基于P2P高性能计算的高效数据传输协议[J];计算机研究与发展;2006年09期

【相似文献】

相关期刊论文 前10条

1 周英华;金培权;岳丽华;龚育昌;;基于位置的web搜索索引研究[J];中国科学技术大学学报;2007年02期

2 陈雍;谢旭升;魏根芽;;Oracle B*树索引内部机制及其应用的研究[J];计算机与现代化;2008年10期

3 赵娟娟;;嵌入数据库索引机制及特点研究[J];硅谷;2011年02期

4 高玉良;张济强;白瑶;;基于Lucene的多索引搜索的研究与应用[J];电脑知识与技术;2012年07期

5 陈仲肃;;浅谈索引失效原因、对策及其应用[J];软件;2012年07期

6 耿庆田;狄婧;常亮;赵宏伟;;基于B+树的数据索引存储[J];吉林大学学报(理学版);2013年06期

7 张

本文编号:2576889


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2576889.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1c9fd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com