基于Hadoop的海量统计小文件存取优化方案
发布时间:2017-09-28 08:34
本文关键词:基于Hadoop的海量统计小文件存取优化方案
更多相关文章: HDFS 小文件 预处理模块 索引预取 缓存机制
【摘要】:Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统HDFS.然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性.本文结合统计工作,提出了一种小文件存储的优化策略,在HDFS之上增加小文件预处理模块将文件进行分类,合并成Mapfile,并建立全局索引,另外该策略引入了索引预取机制和缓存机制.实验证明,该方法能有效提高大批量小文件的存取性能.
【作者单位】: 聊城大学计算机学院;山东省统计局数据管理中心;
【关键词】: HDFS 小文件 预处理模块 索引预取 缓存机制
【基金】:山东省统计科研重点课题(KT15076) 山东省高校智能信息处理与网络安全重点实验室(聊城大学) 聊城大学科研基金项目资助
【分类号】:TP333
【正文快照】: 0引言目前,统计工作已经创新采集数据手段,采用PDA进行现场登记,对普查对象空间定位、拍摄证照、采集和上传数据,海量的电子化、非结构化数据极大的丰富了统计数据的来源[1],但是大量的统计数据和复杂的数据类型给数据的存储和处理带来了巨大的压力.大数据处理技术是一系列使
【相似文献】
中国期刊全文数据库 前4条
1 邱震;靳世红;王晓东;;基于FPGA的某型雷达视频采集预处理模块设计[J];四川兵工学报;2010年05期
2 李云杰,高梅国,付佗,张友益;RCS测量高速数据采集预处理模块的设计与实现[J];系统工程与电子技术;2004年01期
3 ;购买格式程序[J];光盘技术;2003年01期
4 ;[J];;年期
中国硕士学位论文全文数据库 前2条
1 潘奇;基于COMe的回波预处理模块研究[D];南京理工大学;2011年
2 秦媛媛;X射线焊缝缺陷识别系统预处理模块设计与实现[D];北京邮电大学;2009年
,本文编号:934848
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/934848.html