一种基于混合索引的HDFS小文件存储策略
【图文】:
映射)的B+树索引,DataNode数据端根据所存储小文件的大小,有区别的建立合适的块内索引,以实现小文件高效快速的访问。图1小文件存储架构图Fig.1Smallfilesstoragearchitecture图2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件标签和小文件映射动态增长,对上层的小文件标签建立基于小文件标签的可扩展散列索引。可扩展散列可节省空间,当索引项增长时,动态分配桶,,虽然需要维护桶地址表,这一额外开销影响非常小,我们可以忽略。传统的散列索引结构为了提高数据映射的随机性,相邻数据项在索引项的位置是离散的,这不利于小文件映射记录的局部性访问。本文提出基于文件标签的散列索引,除了保持散列索引的处理速度、存储空间的优势,还能有效提高缓存命中率。该索引结构的主要思路是根据小文件所属标签,使用文件标签代替数据项作为索引单元,保证同一标签的文件映射记录被映射到同一个桶中,访问文件映射记录时,其缓存命中率有所提高,从而使小文件达到更高的访问效率。下层的小文件映射采用B+树结构,由于小文件映射记录海量且要适应多个客户端并发请求,Na-meNode内存不能承担载如此大的负载,所以小文件映射只能存储在磁盘上,需按文件块读取到内存。要有效查询小文件映射,必须减少磁盘访问次数,而B+树索引具有搜索路径短的特点,适合作为小文件映射的索引结构。B+树索引的搜索路径小于[log[n/2]()K](n为结点的阶,K为索引项的总数量)。例如,结点的大小一般为磁盘块大小(4KByte),如果搜索码大小为32Byte,n=4×210/32=100,如果索引项有1000000个,一次查询访问磁盘次数为log[100/2](1000000)=4次。再加上缓存的作用,访问磁盘的次数更少。
映射)的B+树索引,DataNode数据端根据所存储小文件的大小,有区别的建立合适的块内索引,以实现小文件高效快速的访问。图1小文件存储架构图Fig.1Smallfilesstoragearchitecture图2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件标签和小文件映射动态增长,对上层的小文件标签建立基于小文件标签的可扩展散列索引。可扩展散列可节省空间,当索引项增长时,动态分配桶,虽然需要维护桶地址表,这一额外开销影响非常小,我们可以忽略。传统的散列索引结构为了提高数据映射的随机性,相邻数据项在索引项的位置是离散的,这不利于小文件映射记录的局部性访问。本文提出基于文件标签的散列索引,除了保持散列索引的处理速度、存储空间的优势,还能有效提高缓存命中率。该索引结构的主要思路是根据小文件所属标签,使用文件标签代替数据项作为索引单元,保证同一标签的文件映射记录被映射到同一个桶中,访问文件映射记录时,其缓存命中率有所提高,从而使小文件达到更高的访问效率。下层的小文件映射采用B+树结构,由于小文件映射记录海量且要适应多个客户端并发请求,Na-meNode内存不能承担载如此大的负载,所以小文件映射只能存储在磁盘上,需按文件块读取到内存。要有效查询小文件映射,必须减少磁盘访问次数,而B+树索引具有搜索路径短的特点,适合作为小文件映射的索引结构。B+树索引的搜索路径小于[log[n/2]()K](n为结点的阶,K为索引项的总数量)。例如,结点的大小一般为磁盘块大小(4KByte),如果搜索码大小为32Byte,n=4×210/32=100,如果索引项有1000000个,一次查询访问磁盘次数为log[100/2](1000000)=4次。再加上缓存的作用,访问磁盘的次数更少。
【参考文献】
相关期刊论文 前3条
1 郝杰;逯彦博;刘鑫吉;夏树涛;;分布式存储中的再生码综述[J];重庆邮电大学学报(自然科学版);2013年01期
2 赵跃龙;谢晓玲;蔡咏才;王国华;刘霖;;一种性能优化的小文件存储访问策略的研究[J];计算机研究与发展;2012年07期
3 王铃惠;李小勇;张轶彬;;海量小文件存储文件系统研究综述[J];计算机应用与软件;2012年08期
【共引文献】
相关期刊论文 前10条
1 董新华;李瑞轩;周湾湾;王聪;薛正元;廖东杰;;Hadoop系统性能优化与功能增强综述[J];计算机研究与发展;2013年S2期
2 陈渝;;基于Cache的海量图片存取优化方案[J];计算机测量与控制;2014年08期
3 英昌甜;于炯;鲁亮;刘建矿;;基于小文件的内存云存储优化策略[J];计算机应用;2014年11期
4 杨洪章;张军伟;许鲁;刘振军;;基于pNFS的小文件间数据预读机制研究[J];计算机研究与发展;2014年S1期
5 徐教显;王雅文;;基于缓存估算模型的代码测试系统性能优化方法[J];软件;2013年12期
6 程付超;苗放;陈垦;;自适应的分布式文件系统元数据管理模型[J];计算机工程与设计;2014年03期
7 尹颖;林庆;林涵阳;;HDFS中高效存储小文件的方法[J];计算机工程与设计;2015年02期
8 王涛;姚世红;徐正全;熊炼;;云存储中面向访问任务的小文件合并与预取策略[J];武汉大学学报(信息科学版);2013年12期
9 周国安;李强;陈新;胡旭;;云环境下海量小文件存储技术研究综述[J];信息网络安全;2014年06期
10 吴阳;冯径;;面向高效文件访问的目录结构优化研究[J];软件工程师;2014年11期
相关会议论文 前1条
1 陈骁;尚德生;党瑞鹏;;探月工程测控应用系统遥操作软件运行模式研究[A];中国宇航学会深空探测技术专业委员会第十届学术年会论文集[C];2013年
相关硕士学位论文 前7条
1 罗雄威;SDFS分布式文件系统的研究与设计[D];华南理工大学;2013年
2 刘伯睿;海量数据小文件分布式存储系统的设计与实现[D];湖南大学;2013年
3 杨灿;基于HDFS的华图在线文库系统数据存储与管理研究[D];中南大学;2013年
4 蒋向阳;基于Hadoop的云安全存储系统的设计与实现[D];广东工业大学;2014年
5 孔鑫;基于Hadoop的海量小型XML数据文件处理技术的设计和实现[D];西安电子科技大学;2014年
6 何华;GlusterFS的数据分布策略与性能优化研究[D];国防科学技术大学;2013年
7 赵玉龙;基于Hadoop的海量小文件处理性能研究与优化[D];内蒙古科技大学;2014年
【二级参考文献】
相关期刊论文 前1条
1 金海;罗飞;章勤;张浩;;一个基于P2P高性能计算的高效数据传输协议[J];计算机研究与发展;2006年09期
【相似文献】
相关期刊论文 前10条
1 周英华;金培权;岳丽华;龚育昌;;基于位置的web搜索索引研究[J];中国科学技术大学学报;2007年02期
2 陈雍;谢旭升;魏根芽;;Oracle B*树索引内部机制及其应用的研究[J];计算机与现代化;2008年10期
3 赵娟娟;;嵌入数据库索引机制及特点研究[J];硅谷;2011年02期
4 高玉良;张济强;白瑶;;基于Lucene的多索引搜索的研究与应用[J];电脑知识与技术;2012年07期
5 陈仲肃;;浅谈索引失效原因、对策及其应用[J];软件;2012年07期
6 耿庆田;狄婧;常亮;赵宏伟;;基于B+树的数据索引存储[J];吉林大学学报(理学版);2013年06期
7 张
本文编号:2576889
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2576889.html