面向分布式的重复数据删除技术研究
发布时间:2020-10-24 06:50
随着互联网及物联网的迅速发展,越来越多的数据被存储在云存储系统中。然而,在对这些数据进行存储过程中,往往伴随着大量的冗余数据,这样不仅占用了大量的存储空间,而且降低了云存储系统的存储效率。针对这些问题,重复数据删除技术给出了很好的解决方法。它可以有效地对存储系统进行优化,并且提高数据在网络传输中的效率。本文对重复数据删除系统的几个关键技术进行了分析和研究,并对影响重复数据删除技术的关键部分进行了相关的改进和优化。本文的主要创新包括以下几项内容:(1)针对传统的重复数据删除系统中出现的分块效率低下的问题,提出了一种非对称最大值的去重分块方法(DAM)。DAM算法利用固定大小的窗口和可变大小的窗口来查找作为分割点的最大值字节,算法首先在固定窗口中寻找最大字节值,如果紧接固定窗口的字节比固定窗口所有值都要大,则该值便作为最大值字节,同时切点也被确定。否则,算法继续移动到下个字节到找到最大值为止。(2)针对传统的数据块指纹算法出现的哈希冲突问题,采用SHA-3标准的Keccak算法作为重复数据分块中数据块的指纹生成方案和指纹匹配,以此取代了传统的SHA-2算法来计算数据块的指纹值。(3)针对传统重复数据删除系统去重效率低下的问题,将改进的内容分块算法-基于非对称最大值的分块算法和基于Keccak的数据块指纹生成算法应用在分布式平台上,设计并搭建了基于Hadoop的重复数据删除系统,并对系统进行了性能优化。
【学位单位】:湖南工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP333
【部分图文】:
面向分布式的重复数据删除技术研究级的重复数据删除是最为广泛的数据消冗技术。重复数据删除已经成为各大企业的焦点。它解决了对存储容量日益增长的需求。Amazon S3,Bitcasa icrosoft Azure 等许多云存储提供商以及 Dropbox 和 Memopal[6]等备份服务正用重复数据删除技术[8]来提高存储效率。
1.基于局部的指纹索引基于局部的方法是指在在备份数据流中类似或相同的文件在大量完整备份中具有非常高的概率出现[64],特别是相邻数据之间。通过将已经过去重处理的局部的数据块的索引置于高速闪存中来增加内存利用率,减少了对磁盘索引的访问,从而缓解了磁盘瓶颈。DDFS[64]中提出了一种基于局部性的重复数据删除技术(Locality PreservedCaching,LPC),如图 2-2 所示。在存储系统中存储着文件 A 的指纹{3b,a7,2f,5c}、文件 B 的指纹{a9,3b,…}等等,根据基于数据流局部性的特征,当需要查询文件C 中 3b 的指纹时,LPC 预先将文件 A 的指纹{3b,a7,2f,5c}保存在 DAM 中,就可以先与 DAM 中的指纹相匹配,从而减少对磁盘索引的访问。DDFS 也使用Bloom 滤波器[65]来快速识别新的(即非重复的)块,避免已知不存在的块的索引查找;这有助于弥补没有或很少地方的情况。 Bloom 滤波器[65]是一种空间有效的数据结构,它使用一个具有多个独立散列函数的位阵列来表示一组项目(例如指纹)的成员资格。
DDFS 的一半一下。SAM[67]首先将全局文件级重复数据删除和本地块级重复数据删除相结合,然后利用文件大小、类型、局部性等文件语义来优化指纹索引。MAD2[68]使用滤镜阵列作为重复数据删除的快速索引,同时还保留了指纹在缓存中的位置。HPDS[61]利用逐步采样索引,通过备份流的固有局部性,进一步减少指纹索引的内存开销。DDFS 通过存储和预取容器中存储的唯一块的顺序来捕获局部性。而 Block Locality Caching(BLC)[69]是通过利用长期备份系统中最新备份的局部性来提高索引性能。2.基于相似性的指纹索引对于局部性很弱的数据集,一些研究提出了利用上下文中之间存在相似性的特点来提高指纹索引效率。一个常见的相似性检索技术是用一组数据块中指纹的最大值或者最小值表示一整个文件[70],因此,选定的指纹可用于构建主索引,并将重复数据删除索引的 DAM 的开销降至最低,特别是对于位置很少或者不存在的数据集。Extreme Binning[70]是一种基于相似性的方法,首先通过利用文件的相似性作为索引,然后在对相似性高的文件进行分块,再以 chunk 为单位进行索引。
【参考文献】
本文编号:2854151
【学位单位】:湖南工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP333
【部分图文】:
面向分布式的重复数据删除技术研究级的重复数据删除是最为广泛的数据消冗技术。重复数据删除已经成为各大企业的焦点。它解决了对存储容量日益增长的需求。Amazon S3,Bitcasa icrosoft Azure 等许多云存储提供商以及 Dropbox 和 Memopal[6]等备份服务正用重复数据删除技术[8]来提高存储效率。
1.基于局部的指纹索引基于局部的方法是指在在备份数据流中类似或相同的文件在大量完整备份中具有非常高的概率出现[64],特别是相邻数据之间。通过将已经过去重处理的局部的数据块的索引置于高速闪存中来增加内存利用率,减少了对磁盘索引的访问,从而缓解了磁盘瓶颈。DDFS[64]中提出了一种基于局部性的重复数据删除技术(Locality PreservedCaching,LPC),如图 2-2 所示。在存储系统中存储着文件 A 的指纹{3b,a7,2f,5c}、文件 B 的指纹{a9,3b,…}等等,根据基于数据流局部性的特征,当需要查询文件C 中 3b 的指纹时,LPC 预先将文件 A 的指纹{3b,a7,2f,5c}保存在 DAM 中,就可以先与 DAM 中的指纹相匹配,从而减少对磁盘索引的访问。DDFS 也使用Bloom 滤波器[65]来快速识别新的(即非重复的)块,避免已知不存在的块的索引查找;这有助于弥补没有或很少地方的情况。 Bloom 滤波器[65]是一种空间有效的数据结构,它使用一个具有多个独立散列函数的位阵列来表示一组项目(例如指纹)的成员资格。
DDFS 的一半一下。SAM[67]首先将全局文件级重复数据删除和本地块级重复数据删除相结合,然后利用文件大小、类型、局部性等文件语义来优化指纹索引。MAD2[68]使用滤镜阵列作为重复数据删除的快速索引,同时还保留了指纹在缓存中的位置。HPDS[61]利用逐步采样索引,通过备份流的固有局部性,进一步减少指纹索引的内存开销。DDFS 通过存储和预取容器中存储的唯一块的顺序来捕获局部性。而 Block Locality Caching(BLC)[69]是通过利用长期备份系统中最新备份的局部性来提高索引性能。2.基于相似性的指纹索引对于局部性很弱的数据集,一些研究提出了利用上下文中之间存在相似性的特点来提高指纹索引效率。一个常见的相似性检索技术是用一组数据块中指纹的最大值或者最小值表示一整个文件[70],因此,选定的指纹可用于构建主索引,并将重复数据删除索引的 DAM 的开销降至最低,特别是对于位置很少或者不存在的数据集。Extreme Binning[70]是一种基于相似性的方法,首先通过利用文件的相似性作为索引,然后在对相似性高的文件进行分块,再以 chunk 为单位进行索引。
【参考文献】
相关期刊论文 前3条
1 李芳;肖侬;刘芳;孙振;邢玉轩;;重复数据删除预测技术研究[J];计算机研究与发展;2014年S1期
2 刘厚贵;邢晶;霍志刚;安学军;;一种支持海量数据备份的可扩展分布式重复数据删除系统[J];计算机研究与发展;2013年S2期
3 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
相关硕士学位论文 前1条
1 于悦;基于相似性的分布式重复数据删除技术研究[D];辽宁大学;2014年
本文编号:2854151
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2854151.html