基于Hadoop平台的分布式重删存储系统
本文关键词:基于Hadoop平台的分布式重删存储系统
更多相关文章: 重复数据删除 分布式存储 Hadoop HBase Hadoop分布式文件系统
【摘要】:针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,Map Reduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。
【作者单位】: 解放军理工大学指挥信息系统学院;
【关键词】: 重复数据删除 分布式存储 Hadoop HBase Hadoop分布式文件系统
【基金】:国家863计划项目(2012AA01A509,2012AA01A510) 国家自然科学基金资助项目(61402518)~~
【分类号】:TP333
【正文快照】: 0引言随着信息科技的高速发展,云计算、物联网、信息栅格以及各种社交平台等新兴技术不断涌现,数据类型逐渐多样化,数据量急剧增长,特别是半结构化、非结构化数据。面对持续膨胀的海量数据,存储系统容量以及存储数据管理逐步成为富有挑战性的问题。一方面,数据中心需要增加大
【相似文献】
中国期刊全文数据库 前10条
1 李红;蓝光存储系统 光盘容量高达23G[J];信息记录材料;2004年01期
2 ;存储系统 金融行业应用卓越奖 医疗行业应用卓越奖[J];每周电脑报;2004年20期
3 诺拉;EMC Symmetrix DMX-3存储系统 超大容量 高速存取[J];中国计算机用户;2005年31期
4 谢世诚;;浪潮推出4Gb光纤存储系统[J];微型机与应用;2006年07期
5 ;昆腾分级存储系统[J];软件世界;2009年11期
6 ;超低功耗云存储系统或被地方政府看好[J];中国有线电视;2013年08期
7 汤赫男;;云存储系统的分析与应用研究[J];计算机光盘软件与应用;2013年24期
8 谌伟;;云存储系统的分析与应用探讨[J];数字技术与应用;2013年10期
9 雅君;跟上企业的匆匆脚步——利用HP SureStoreEXP256构筑企业存储系统[J];中国计算机用户;2000年08期
10 贾莉;;Symmetrix8000实现19TB存储[J];每周电脑报;2000年18期
中国重要会议论文全文数据库 前10条
1 赵志刚;;存储系统在企业信息化中的应用[A];2005年安徽通信论文集[C];2006年
2 黄晓峰;张杰;;矿井信息中心存储系统设计[A];安全高效矿井机电装备及信息化技术——陕西省煤炭学会学术年会论文集(2011)[C];2011年
3 孙哲;李昌银;;构建核电高可用云存储系统[A];2012电力行业信息化年会优秀论文专辑[C];2012年
4 焦超;周天彤;李祥学;李建华;;面向灾备的高性能可信存储系统设计[A];第十一届保密通信与信息安全现状研讨会论文集[C];2009年
5 汪位龙;;设计院存储系统建设初探[A];中国公路学会计算机应用分会2004年年会学术论文集[C];2004年
6 梅松竹;李宗伯;;Storage 7000系列混合存储系统分析[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
7 王克敏;张玺;胡江凯;王毅涛;;NWP资料归档方法及其存储系统的应用[A];中国气象学会2006年年会“中尺度天气动力学、数值模拟和预测”分会场论文集[C];2006年
8 孙哲;李昌银;;DeDu:基于云计算的冗余删除存储系统[A];电力行业新一代信息技术研讨会论文集[C];2011年
9 高小伍;党齐民;林晨;;校园网存储系统的研究与实现[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年
10 宫海林;郭长国;苑洪亮;王怀民;;支持事务的非结构化数据聚合存储系统GSL[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
中国重要报纸全文数据库 前10条
1 ;第三季度中国存储系统市场达19.1亿元[N];中国高新技术产业导报;2005年
2 本报记者 薛斐;服务:存储系统的灵魂[N];计算机世界;2002年
3 单群一;惠普推出全新一体化存储系统[N];中国税务报;2007年
4 ;浪潮推出4Gb光纤存储系统[N];人民邮电;2006年
5 ;今年第二季度 存储系统市场价值达12.6亿元[N];人民邮电;2006年
6 郭;日立推出普及型存储系统[N];计算机世界;2007年
7 陈耀光;朗登 扛起存储系统设计院的大旗[N];中国企业报;2001年
8 ;富士通存储系统全面升级[N];网络世界;2009年
9 ;EMC亚洲生产制造中心落户深圳[N];网络世界;2009年
10 临履;存储系统有了“设计院”[N];网络世界;2001年
中国博士学位论文全文数据库 前10条
1 陆承涛;存储系统性能管理问题的研究[D];华中科技大学;2010年
2 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年
3 罗东健;大规模存储系统高可靠性关键技术研究[D];华中科技大学;2011年
4 聂雪军;内容感知存储系统中信息生命周期管理关键技术研究[D];华中科技大学;2010年
5 王鹏;低密度奇偶校验码应用于存储系统的关键技术研究[D];华中科技大学;2013年
6 刁莹;用数学建模方法评价存储系统性能[D];哈尔滨工程大学;2013年
7 符青云;面向大规模流媒体服务的高性能存储系统研究[D];电子科技大学;2009年
8 王玉林;多节点容错存储系统的数据与缓存组织研究[D];电子科技大学;2010年
9 田敬;对等存储系统中的数据可用性与安全性研究[D];北京大学;2007年
10 李怀阳;进化存储系统数据组织模式研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 冯汉超;基于Hadoop的分布式副本策略研究[D];河北工程大学;2015年
2 张明;IaaS中基于热点数据的存储系统研究与实现[D];哈尔滨工业大学;2015年
3 蒋静远;基于数据通道的非结构化数据多存储系统[D];浙江大学;2015年
4 郭晖;面向高清视频监控的流存储系统设计与实现[D];电子科技大学;2015年
5 许孟杰;嵌入式快速存储模块的研究与实现[D];中国舰船研究院;2015年
6 何洁和;面向POI的分布式结构化存储系统存储引擎设计与实现[D];电子科技大学;2014年
7 王晓;混合存储系统高效快照技术研究[D];北京理工大学;2015年
8 邱登峰;基于Hadoop可公共审计云存储的设计与实现[D];大连理工大学;2015年
9 张致元;电子商品存储系统设计与研究[D];复旦大学;2014年
10 朱海涛;嵌入式网络存储系统的设计与应用[D];大连理工大学;2010年
,本文编号:962841
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/962841.html