云存储中数据编码优化和重复数据删除技术研究
本文选题:云存储 + 纠删码 ; 参考:《东北大学》2013年硕士论文
【摘要】:随着云计算时代的到来,各种应用程序需要分析计算的数据所占用的空问越来越大,一度由GB到TB甚至发展到EB数量级。随着数据量的增大,需要的存储空间也变得越来越大,相应的能源消耗也越来越大。在云存储环境下,研究如何利用纠删码编码技术和重复数据删除技术有效的提高存储空间利用率是有现实意义的。本文对现有的云存储技术进行了分析,现有研究表明以纠删码为容灾策略的数据存储技术相比多副本存储技术能够节省更多的存储空间和网络带宽;在云计算平台Hadoop中,大量数据之间存在重复数据,而重复数据删除技术能发现这些重复的数据,避免重复数据的存储,提高存储空间利用率。柯西里德-所罗门编码是一种主流的纠删码编码方式,为了优化云存储中柯西里德-所罗门编码效率,并向云储存系统中加入重复数据删除功能,本文做了以下几方面的工作:(1)提出了一种优化柯西里德-所罗门编码效率的选择框架。任何利用柯西里德-所罗门编码的数据存储系统都可以利用该选择框架产生高效的数据编码调度,以用于提高编码效率。(2)将上述选择框架产生的优化调度方案集成到了Hadoop中去,优化了云存储环境下的柯西里德-所罗门编码的编码效率。(3)在Hadoop平台的每个数据节点实现了重复数据删除功能,提高了每个数据节点的存储空间利用率。在Hadoop云存储实验平台上实现了柯西里德-所罗门编码效率的优化和重复数据删除功能。本文提高了云存储中柯西里德-所罗门编码效率,提高了存储空间利用率。
[Abstract]:With the advent of cloud computing, applications need to analyze the calculation of the data occupied more and more empty question, once from GB to TB and even developed to EB order of magnitude. As the amount of data increases, the storage space needed becomes larger and larger, and the corresponding energy consumption becomes larger and larger. In the cloud storage environment, it is of practical significance to study how to use erasure coding technology and repeated data deletion technology to effectively improve the utilization of storage space. In this paper, the existing cloud storage technology is analyzed. The existing research shows that the data storage technology with erasure code as disaster recovery strategy can save more storage space and network bandwidth than multi-copy storage technology. There are repeated data among a large number of data, and repeated data deletion technology can find these duplicated data, avoid the storage of duplicate data, and improve the utilization of storage space. Caucheld-Solomon coding is a mainstream erasure coding method. In order to optimize the efficiency of Cauchy Reed-Solomon coding in cloud storage, and add duplicate data deletion function to cloud storage system, In this paper, the following work is done: 1) A selection framework is proposed to optimize the efficiency of Caucheld-Solomon coding. Any data storage system using Caucheld-Solomon coding can use the selection framework to generate efficient data coding scheduling, which can be used to improve coding efficiency. (2) the optimal scheduling scheme generated by the above selection framework is integrated into Hadoop. The coding efficiency of Caucheld-Solomon coding in cloud storage environment is optimized. The efficiency of repeated data deletion is realized at each data node in Hadoop platform and the storage space utilization ratio of each data node is improved. The optimization of Caucheld-Solomon coding efficiency and the repeated data deletion are realized on the Hadoop cloud storage experimental platform. In this paper, the efficiency of Cauchy-Solomon coding in cloud storage is improved, and the utilization of storage space is improved.
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 ;重复数据删除可实现25:1压缩[J];每周电脑报;2007年01期
2 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[J];计算机研究与发展;2011年S1期
3 Eric Bassier;;应对数据增长的重磅武器——重复数据删除技术[J];计算机与网络;2013年06期
4 于丹;;昆腾进入重复数据删除市场[J];每周电脑报;2007年09期
5 卢敏;;“零距离”重复数据删除[J];软件世界;2008年11期
6 卢敏;;点亮“重复数据删除”[J];软件世界;2008年06期
7 徐立洋;;选购重复数据删除方案 软硬兼施剔除鸡肋数据[J];中国计算机用户;2009年08期
8 邢延刚;;删除重复值我有妙法[J];电脑迷;2009年09期
9 李刚;;重复数据删除走向“源头”[J];中国计算机用户;2009年16期
10 雷赫;;重复数据删除技术方案选型 删除冗余 优化存储[J];中国计算机用户;2009年23期
相关会议论文 前3条
1 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
2 杨廷梧;;基于重复数据删除的靶场试验信息存储技术[A];2009年西部光子学学术会议论文摘要集[C];2009年
3 肖钧;黄亮;;虚拟化搭配去重,双剑合璧更给力[A];2011年CAD/CAM学术交流会议论文集[C];2011年
相关重要报纸文章 前10条
1 本报记者 张伟;重复数据删除能被扶正吗[N];中国计算机报;2008年
2 王琨月;重复数据删除不该忽视弱点[N];网络世界;2008年
3 本报记者 郭涛;基于硬件的重复数据删除效率更高[N];中国计算机报;2009年
4 朱皎;重复数据删除技术渐成主流[N];电脑商报;2009年
5 邢小萍;重复数据删除技术渐入佳境[N];网络世界;2009年
6 本报记者 刑小萍;重复数据删除市场迎来开门红[N];网络世界;2010年
7 清水 编译;部署重复数据删除[N];计算机世界;2010年
8 编译 张磊;谁在拖重复数据删除的后腿[N];中国计算机报;2009年
9 本报记者 郭涛;重复数据删除2.0追求“双高”[N];中国计算机报;2012年
10 编译 沈建苗;你果真需要重复数据删除技术吗[N];计算机世界;2013年
相关博士学位论文 前10条
1 林彬;主存储服务系统中高I/O性能的重复数据删除技术研究[D];国防科学技术大学;2014年
2 阎芳;重复数据删除系统数据组织研究[D];北京理工大学;2015年
3 周炳;海量数据的重复数据删除中元数据管理关键技术研究[D];清华大学;2015年
4 王国华;高效重复数据删除技术研究[D];华南理工大学;2014年
5 王灿;基于在线重复数据消除的海量数据处理关键技术研究[D];电子科技大学;2012年
6 付印金;面向云环境的重复数据删除关键技术研究[D];国防科学技术大学;2013年
7 周正达;信息存储系统中重复数据删除技术的研究[D];华中科技大学;2012年
8 杨天明;网络备份中重复数据删除技术研究[D];华中科技大学;2010年
9 朱锐;重复数据删除技术中的并行性能优化算法研究[D];华中科技大学;2013年
10 叶鹏迪;云存储系统资源管理关键技术研究[D];北京邮电大学;2014年
相关硕士学位论文 前10条
1 张明月;客户端加密重复数据删除机制的研究[D];西安电子科技大学;2014年
2 黄可;重复数据可删除的云数据审计协议的研究[D];电子科技大学;2015年
3 王振宇;安全云存储中重复数据删除机制研究[D];南京邮电大学;2015年
4 李志然;云存储中集群重复数据删除系统的研究与设计[D];东北大学;2014年
5 张宏亮;重复数据删除技术在云存储中的应用与实现[D];华中科技大学;2014年
6 曹秀秀;面向XML相似性重复数据的清洗方法研究[D];首都经济贸易大学;2016年
7 彭健;基于重复数据删除的教育资源管理系统设计与实现[D];电子科技大学;2016年
8 陈琳;基于存储系统的重复数据删除技术的研究[D];南京邮电大学;2016年
9 涂群;云存储系统中重复数据删除机制的研究[D];南京邮电大学;2016年
10 曲新奎;云存储中数据编码优化和重复数据删除技术研究[D];东北大学;2013年
,本文编号:1799421
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1799421.html