HDFS下海量小文件高效存储与索引方法
本文选题:HDFS + 海量小文件 ; 参考:《小型微型计算机系统》2015年10期
【摘要】:分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询.本文针对以上问题,提出一种基于多维列索引的小文件管理方案,支持文件的并发上传、下载及删除操作,并在多个查询维度上提供文件的自由检索.本文提出的小文件合并方案能够明显减少HDFS上的文件数量,经过实验对比,在小文件元信息的查询效率方面,本文提出的多维索引方案优于HBase,同时保证了文件传输的吞吐量.
[Abstract]:Distributed file system (HDFS) is used to store large files. If large files are stored in HDFS, name Node memory will be consumed and system performance will be affected. At the same time, small files are not conducive to parallel processing and analysis using MapReduce framework. In addition, the multidimensional metadata attached to small files also needs to be stored and indexed in a reasonable way to facilitate query. Aiming at the above problems, this paper proposes a small file management scheme based on multidimensional column index, which supports concurrent uploading, downloading and deleting of files, and provides free retrieval of files on multiple query dimensions. The small file merging scheme proposed in this paper can obviously reduce the number of files on HDFS. Through experimental comparison, the multi-dimensional index scheme proposed in this paper is superior to HBasein the query efficiency of small file meta-information, and the throughput of file transfer is guaranteed at the same time.
【作者单位】: 西北工业大学计算机学院;
【基金】:国家“九七三”重点基础研究发展计划项目(2012CB316203)资助 国家自然基金重点项目(61033007)资助 中国航天科技集团公司航天科技创新基金项目(2014H03FK011)资助
【分类号】:TP311.133.1;TP333
【参考文献】
相关期刊论文 前1条
1 卞艺杰;陈超;李亚冰;陆小亮;;Hdspace分布式机构知识库系统的小文件存储[J];计算机系统应用;2014年02期
相关硕士学位论文 前1条
1 康毅;HBase大对象存储方案的设计与实现[D];南京大学;2013年
【共引文献】
相关期刊论文 前10条
1 刘崇富;张子锋;孔浩;;基于J2EE架构的高校档案管理日志模块的设计与实现[J];电脑开发与应用;2014年01期
2 朱世臣;;程序开发教学在高职药学专业中的应用[J];计算机光盘软件与应用;2014年02期
3 赵立军;杨欣;;终端维护信息化管理系统的实现[J];计算机光盘软件与应用;2014年04期
4 邓扬;何军;李奇;;自动化无人机快递系统的研究与设计[J];计算机光盘软件与应用;2014年12期
5 李婷;;数据库架构在计算机软件制作上的应用[J];硅谷;2014年18期
6 杨欣;;投诉管理系统的开发及应用[J];计算机光盘软件与应用;2014年17期
7 孔丽云;;DML触发器实现数据完整性的应用研究[J];电脑知识与技术;2014年34期
8 宋继冉;;高校党校结业考试系统的设计与实现[J];电脑知识与技术;2015年04期
9 李晓明;;维哈柯语网络舆情监测系统的研发[J];硅谷;2015年04期
10 胡健;袁军;王远;;面向电网大数据的分布式实时数据库管理系统[J];电力信息与通信技术;2015年02期
相关博士学位论文 前1条
1 刘新春;大规模实时数据流连接关键技术的研究[D];中国科学技术大学;2015年
相关硕士学位论文 前10条
1 杨进展;基于Hadoop的三维模型管理系统设计与实现[D];西北大学;2013年
2 李军锋;某市电信短信管理平台的设计与实现[D];厦门大学;2014年
3 邵丽娟;中小型企业出口业务管理系统的设计与实现[D];厦门大学;2014年
4 周愉快;税务行政处罚在线处理系统的分析与设计[D];厦门大学;2014年
5 杨印;网络舆情监测系统的设计与实现[D];厦门大学;2014年
6 高永朋;网站开放平台的研究与实现[D];东北大学;2013年
7 蒙新颜;家庭管家系统的设计与实现[D];厦门大学;2014年
8 陈彦恒;企业库存定位盘点系统和质检数据采集系统的研究与设计[D];西南交通大学;2014年
9 姜杉;基于B/S架构的盘锦供电报表管理系统的设计与实现[D];吉林大学;2014年
10 胡_g恺;NCN数字媒体资产管理系统的设计与实现[D];吉林大学;2014年
【二级参考文献】
相关期刊论文 前6条
1 蔡迎春;;机构知识库:基于开放存取的学术交流机制[J];情报理论与实践;2008年05期
2 郎庆华;;机构知识库长期保存的策略分析[J];情报理论与实践;2010年05期
3 都平平;;机构仓储的自存储和强制存储策略研究[J];图书馆杂志;2008年09期
4 张晓林;;机构知识库的政策、功能和支撑机制分析[J];图书情报工作;2008年01期
5 夏明春;;机构知识库发展现状、问题及对策研究[J];图书情报工作;2008年04期
6 符玉霜;;电子书的版权问题研究[J];现代情报;2011年01期
【相似文献】
相关期刊论文 前10条
1 王明;文件删除 不留蛛丝马迹[J];计算机与网络;2004年17期
2 清风;容易被误认为是病毒的文件[J];网络与信息;2004年10期
3 贾培武;这三个文件不是病毒[J];网络与信息;2005年11期
4 ;用户经常怀疑是病毒的文件[J];计算机与网络;2007年06期
5 ;三款软件助你救回被误删除的文件[J];计算机与网络;2008年08期
6 朱猛;用批命令实现文件的移动[J];电脑爱好者;1994年08期
7 吴文,王小平;谈谈文件的删除与反删除[J];山东电子;2001年02期
8 翁永平;;文件删除终极大法[J];电脑知识与技术;2006年04期
9 翁永平;;文件删除终极大法[J];网络与信息;2006年02期
10 凡非;;对症下药 误删文件不用愁[J];微电脑世界;2007年11期
相关重要报纸文章 前10条
1 太平;哪些文件是可以删除的?[N];江苏经济报;2001年
2 江苏 引火虫;确保数据安全的“文件密使”[N];电脑报;2002年
3 春春;如何应对删不掉的文件[N];乐山日报;2006年
4 刘亭;系统中的隐含文件[N];中国电脑教育报;2004年
5 陈晨;把文件藏在回收站里[N];光明日报;2003年
6 ;电脑中的文件保镖[N];大众科技报;2000年
7 李军胜;将文件藏入硬件中[N];中国计算机报;2004年
8 福建尤溪六中 蔡玉琼;aux.txt文件究竟是何方神圣?[N];中国电脑教育报;2006年
9 特约撰稿人 罗庆锋;文件删除的机理与方法[N];电脑报;2002年
10 常晨曦;回收站文件巧删除[N];电脑报;2004年
相关硕士学位论文 前8条
1 张瑾;基于Android的文件浏览器设计与实现[D];山东大学;2013年
2 崔文卿;结构化P2P网络污染文件传播的免疫策略研究[D];大连理工大学;2010年
3 卢梦侨;网络文件远程传输系统的设计与开发[D];西安石油大学;2011年
4 张呈;Hadoop集群下海量小文件优化处理[D];武汉理工大学;2014年
5 王娟;新型电子文件保险箱的设计与实现[D];电子科技大学;2012年
6 林旭;云存储中的数据删除技术研究[D];上海交通大学;2011年
7 陈平;文件透明加密系统的研究与实现[D];杭州电子科技大学;2011年
8 于左宜;建筑工程文件智能下发系统的设计与实现[D];山东大学;2013年
,本文编号:2090964
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2090964.html