一种面向海量小文件的文件接收和存储优化方案
本文选题:HDFS + 海量 ; 参考:《小型微型计算机系统》2015年08期
【摘要】:HDFS是目前最典型的云存储平台,它凭借其高容错、可伸缩和廉价存储的优点支持大规模数据集的存储.但是HDFS对于海量、高并发、连续、高速的小文件的接收和存储效率并不高.针对这一问题,提出一种优化方案RSMSF.在该方法中,文件缓存服务器不断地接收前端文件,给文件添加标识信息并存放到对应的文件队列.当文件队列满足某一窗口阈值时,根据一致性哈希算法将该队列中的文件发送到对应的文件处理服务器上进行文件合并处理,最后上传到HDFS.实验表明,RSMSF方法减少了文件的处理时间,降低了文件丢失率,同时降低了HDFS中内存的开销,节约了存储空间.
[Abstract]:HDFS is the most typical cloud storage platform at present. It supports the storage of large data sets with the advantages of high error tolerance, scalable and cheap storage. But HDFS is not efficient for large, high concurrency, continuous, high speed small files receiving and storing. In this way, an optimization scheme, RSMSF., is proposed for file caching. The server continuously receives the front end file, adds the identification information to the file and stores it to the corresponding file queue. When the file queue satisfies a threshold, the file is sent to the corresponding file processing server to be processed and processed according to the consistency hash algorithm, and finally uploaded to the HDFS. experiment, RSMSF The method reduces the processing time of files, reduces the file loss rate, reduces the memory cost in HDFS, and saves the storage space.
【作者单位】: 山东科技大学信息科学与工程学院;北方工业大学云计算研究中心;
【基金】:北京市教育委员会科技计划面上项目(KM201310009003)资助;北京市教育委员会科技计划重点项目(KZ201310009009)资助 北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130502)资助 北方工业大学博士启动基金资助
【分类号】:TP333
【参考文献】
相关期刊论文 前6条
1 杨_g剑;林波;;分布式存储系统中一致性哈希算法的研究[J];电脑知识与技术;2011年22期
2 朱晓辉;王杰华;石振国;陈苏蓉;;海量图片的分布式存储及负载均衡研究[J];计算机工程;2010年23期
3 赵晓永;杨扬;孙莉莉;陈宇;;基于Hadoop的海量MP3文件存储架构[J];计算机应用;2012年06期
4 亓开元;赵卓峰;房俊;马强;;针对高速数据流的大规模数据实时处理方法[J];计算机学报;2012年03期
5 张春明;芮建武;何婷婷;;一种Hadoop小文件存储和读取的方法[J];计算机应用与软件;2012年11期
6 赵卓峰;魏文飞;马强;;基于无共享架构的海量感知数据实时处理系统[J];微电子学与计算机;2012年09期
【共引文献】
相关期刊论文 前10条
1 丰江帆;朱毅;;云环境下的流式空间信息服务[J];重庆邮电大学学报(自然科学版);2012年06期
2 张媛;;基于Hadoop云平台的数据传输保护研究[J];甘肃联合大学学报(自然科学版);2013年05期
3 杨震;徐敏捷;刘璋峰;秦达;姚晓辉;;语音大数据信息处理架构及关键技术研究[J];电信科学;2013年11期
4 杜政颉;王鹏;黄焱;郎福通;;一种基于Storm编程模型的迭代Topology方案[J];成都信息工程学院学报;2014年01期
5 赵云山;刘焕焕;;大数据技术在电力行业的应用研究[J];电信科学;2014年01期
6 黄庆荣;;基于大数据实时洞察客户感知[J];福建电脑;2014年03期
7 张丽;刘彦良;季峰;;面向大数据的分布式系统设计关键技术研究[J];电子技术与软件工程;2014年17期
8 杨燕艳;朱春燕;韩业俭;;大数据环境下的信息处理[J];电子技术与软件工程;2014年23期
9 鞠洪尧;;大数据网络服务器群智能伸缩机制与架构研究[J];电信科学;2015年03期
10 王剑;黄朝光;;海量农业科学数据存储体系架构与方法研究[J];广东农业科学;2015年02期
相关会议论文 前1条
1 王心光;;基于虚拟机的多服务器集群技术在地铁综合监控系统的应用[A];第八届中国智能交通年会优秀论文集——轨道交通[C];2013年
相关博士学位论文 前6条
1 姚远;海量动态数据流分类方法研究[D];大连理工大学;2013年
2 杨永全;饮食健康中的食物体积估算云计算技术研究[D];中国海洋大学;2013年
3 周勇;基于并行计算的数据流处理方法研究[D];大连理工大学;2013年
4 王海峰;图形处理器通用计算的功耗分析与优化研究[D];上海理工大学;2013年
5 张帆;机械装备状态监测的光纤光栅传感网相关理论与技术研究[D];武汉理工大学;2014年
6 曹振丽;面向养殖环境监测的数据流处理方法研究[D];中国农业大学;2015年
相关硕士学位论文 前10条
1 郑胜利;容灾备份系统中备份服务器及系统安全机制的研究与实现[D];华中科技大学;2011年
2 程斌;负载均衡调度系统的设计与实现[D];华中科技大学;2011年
3 童明;基于HDFS的分布式存储研究与应用[D];华中科技大学;2012年
4 朱岩;Hadoop云存储策略的研究与优化[D];广东工业大学;2013年
5 管莹莹;基于路网的近邻查询算法研究[D];天津理工大学;2013年
6 赵少锋;云存储系统关键技术研究[D];郑州大学;2013年
7 赵满;地震数据并行访问策略的研究[D];东北石油大学;2013年
8 江洋;基于PCI总线的驱动程序设计及实现[D];电子科技大学;2013年
9 张兴;基于Hadoop的云存储平台的研究与实现[D];电子科技大学;2013年
10 张丹;HDFS中文件存储优化的相关技术研究[D];南京师范大学;2013年
【二级参考文献】
相关期刊论文 前7条
1 胡兴军;内容分发网络(CDN)技术及市场应用[J];当代通信;2005年17期
2 毕敬;朱志良;铁鸣;;基于Web services的分布式企业信息整合模型[J];计算机工程;2008年12期
3 田臣;陈金华;王玮;刘文予;;CDN内容分发策略数学建模研究[J];计算机工程与科学;2009年05期
4 王珊;王会举;覃雄派;周p,
本文编号:1917715
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1917715.html