基于HDFS的云存储系统小文件优化方案
本文选题:Hadoop分布式文件系统 切入点:小文件 出处:《计算机工程》2016年03期 论文类型:期刊论文
【摘要】:Hadoop分布式文件系统(HDFS)具有高容错、可伸缩、廉价存储等优良特性,在大数据存储和分析场景中得到广泛应用。但对于海量小文件存储,HDFS存在高内存消耗、高延迟访问等缺陷。为此,结合"合肥城市云"系统"一次上传,多次下载"的特性,提出一种基于小文件属性的优化方案。根据文件之间的相关性设定优先级,对小于5 MB的文件按优先级高低合并后再上传,并生成索引记录。结合随机化思想,采用两级缓存策略,将预提取数据缓存在内存池中,提高访问效率。同时,系统定期查询访问日志,根据用户访问习惯,动态调整预提取因子的大小。实验结果表明,该方案能有效提高小文件访问效率,降低名字节点和数据节点的内存开销,在有海量小文件存取的情况下提升系统的交互性。
[Abstract]:Hadoop (distributed File system) has been widely used in big data storage and analysis scenarios because of its high fault tolerance, scalability and cheap storage, but it has high memory consumption for large amount of small file storage. For this reason, combined with the feature of "once upload, multiple download" in Hefei Urban Cloud system, an optimization scheme based on the attributes of small files is proposed, and the priority is set according to the correlation between files. The files with less than 5 MB are merged according to the priority and then uploaded, and the index records are generated. Combined with the idea of randomization, the pre-extracted data is cached in the memory pool by using the two-level cache strategy, and the access efficiency is improved. The system regularly queries the access log and dynamically adjusts the size of the pre-extraction factor according to the user's visiting habits. The experimental results show that the proposed scheme can effectively improve the access efficiency of small files and reduce the memory overhead of name nodes and data nodes. In the case of large amounts of small file access to enhance the system's interactivity.
【作者单位】: 中国科学技术大学自动化系;
【基金】:国家自然科学基金资助项目(61174062)
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 ;电子文件与纸质文件归档方法配套改革的实践[J];中国档案;2000年08期
2 ;鹿泉市档案局积极抓好村委会换届选举文件归档工作[J];档案天地;2000年02期
3 石慧敏;从《规则》的实施看文件的归档鉴定[J];山西档案;2001年04期
4 于晓庆;文件与档案差异之比较研究[J];中国档案;2001年12期
5 刘晓兰;浅谈水利水电工程设计电子文件的归档和管理问题[J];安徽电力职工大学学报;2001年01期
6 纪立芳,张峰,李华娜,逄真;文件、档案一体化管理工作存在的问题及对策[J];山东档案;2001年01期
7 胥青云 ,尹承宏 ,王培兰;电子文件的特性及其对传统文档工作的影响[J];档案天地;2002年02期
8 何云;诉讼文件归档:一个不容忽视的问题——从某法官隐匿诉讼文件说起[J];湖北档案;2002年04期
9 连成叶,连桂仁;谈电子文件介质归档与整理[J];档案时空;2003年12期
10 戚鸿雁 ,卢朝霞;浅谈办公自动化条件下的文件归档[J];山东档案;2003年02期
相关会议论文 前10条
1 姜萍;;试论高校办公自动化条件下电子文件与纸质文件的相互关系[A];贵州省档案学会2004年档案学术研讨会论文集[C];2004年
2 韩艳平;;电子文件对档案工作的影响及对策[A];齐鲁档案论坛——山东省档案学会2008年学术年会会刊[C];2008年
3 罗廷定;刘亚文;;浅淡电子文件与电子档案的法律证据作用[A];贵州省2007年档案学术交流论文集[C];2007年
4 于丽华;;电子文件的归档与管理[A];齐鲁档案论坛——山东省档案学会2008年学术年会会刊[C];2008年
5 李锐英;;浅议电子文件的归档[A];齐鲁档案论坛——山东省档案学会2008年学术年会会刊[C];2008年
6 罗廷定;刘亚文;;浅淡电子文件与电子档案的法律证据作用[A];纪念《中华人民共和国档案法》颁布20周年档案学术研讨会论文集[C];2007年
7 李慎民;;文件归档与虚拟分类[A];机关档案工作学术研讨会交流论文集[C];2004年
8 夏江宁;;办公自动化的实现与文件归档工作[A];中国当代秘书群星文选[C];1999年
9 袁发立;;浅析电子文件的归档[A];贵州省2007年档案学术交流论文集[C];2007年
10 袁发立;;浅析电子文件的归档[A];纪念《中华人民共和国档案法》颁布20周年档案学术研讨会论文集[C];2007年
相关重要报纸文章 前10条
1 万丽;电子文件的档案属性和归档制度[N];黄河报;2007年
2 潘胜中;南宁制定机关文件归档年检办法[N];中国档案报;2005年
3 小周;理财文件归档事半功倍[N];湖北日报;2001年
4 张岳;建立符合科学发展观的文件归档新机制[N];中国档案报;2007年
5 特约记者 阚景奎;潍坊市财政局文件归档实现规范化[N];中国档案报;2005年
6 特约记者 李冰冰;内蒙古巴彦淖尔市 认真做好党委换届文件归档[N];中国档案报;2011年
7 一冰;安腾普新版ADA3.0 进一步增强文件归档能力[N];电脑商报;2009年
8 特约记者邹伟农;上海深化文件归档鉴定改革[N];中国档案报;2003年
9 中远(集团)总公司档案室负责人 毛永芳;收好管好用好档案 发挥档案资源优势[N];中国远洋报;2007年
10 刘顺平;档案部门应最大限度地杜绝重份文件归档进馆[N];中国档案报;2013年
相关硕士学位论文 前10条
1 杨爽;电子文件利用效益研究[D];吉林大学;2007年
2 张莉;电子商务文件归档管理研究[D];吉林大学;2007年
3 冯洁;电子文件迁移研究[D];苏州大学;2012年
4 孙刚;电子文件真实性保障模型研究[D];天津师范大学;2007年
5 赵玉龙;基于Hadoop的海量小文件处理性能研究与优化[D];内蒙古科技大学;2014年
6 左大鹏;Hadoop小文件存储管理的研究与实现[D];北京交通大学;2015年
7 曹浩;基于文件重构和质量调整的冗余数据删除技术[D];上海交通大学;2013年
8 梁远亮;论电子商务交易文件的凭证性及其保障[D];广西民族大学;2012年
9 刘登峰;维、汉文件档案信息管理系统的设计与实现[D];新疆大学;2008年
10 高伟;莱城工业园辖区企业文件流转系统设计与实现[D];山东大学;2010年
,本文编号:1631603
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1631603.html