重复数据删除系统数据组织研究
发布时间:2017-04-10 23:43
本文关键词:重复数据删除系统数据组织研究,,由笔耕文化传播整理发布。
【摘要】:在高速增长的数据存储系统中,重复数据删除技术的作用越来越重要,广泛应用于VTL(Virtual Tape Library)系统、数据备份系统、数据归档系统等。重复数据删除的核心思想是将一个数据文件或流分成连续的块,使用哈希函数(如SHA-1)为每个数据块生成相应的摘要信息(称为指纹值),查找指纹值表将每个块的指纹值和所有已存储块的指纹值比较,当数据块出现重复时仅存储其元数据信息,从而减少对存储空间的消耗。国内外在重复数据删除系统领域已经开展了大量的研究,但在数据组织形式方面仍然存在着足够的优化空间。具体的说,是针对重复数据删除系统的特有数据访问模式,研究更加高效的存储架构和数据管理策略,以充分发挥存储设备的效能,降低存储系统能耗。论文围绕重复数据删除系统的节能数据组织、对象级去重、元数据存储策略、数据恢复方法等开展研究,主要创新点如下:(1)提出一种面向分块的交叉分组数据组织方法,针对重复数据删除系统的连续数据访问模式降低存储能耗。重复数据删除系统一般采用RAID(Redundant Array of Independent Disks)来提供存储和数据保护,去重后的数据均匀分布存储在各磁盘上,但少数磁盘即能提供连续数据访问的I/O带宽。论文设计了一种RAID-5交叉分组的数据组织方法以及节能磁盘调度算法,通过调整水平磁盘分组大小适应不同的系统吞吐量要求,通过调整垂直分组大小减少校验磁盘切换次数,从而使I/O请求集中在某个水平磁盘分组,其他分组的磁盘进入待机模式。在Linux操作系统MD(Multiple Device Driver)模块的基础上实现交叉分组布局,验证了该布局在10磁盘3分组的存储配置下降低能耗约26%。(2)提出一种面向OpenXML复合文件去重系统的对象存储数据组织方法,实现去重对象的高效存储。论文设计了一种RAID-4非对称分组的对象存储数据组织方法和磁盘分组调整算法。各个磁盘分组所包含的磁盘数目可以按需调整,有两组磁盘并行工作,分别存储易变类型对象和非易变类型对象。采用预测机制实现分组调整,均分调整算法按照系统的I/O性能要求计算磁盘分组调整因子;按比例调整则考虑不同类型对象的存储比例需求。非对称分组的数据组织适合去重对象的存储,可根据备份数据流的负载变化调整磁盘分组。在10磁盘、初始3分组的存储配置下,磁盘分组的均分调整和按比例调整分别降低约22%和27%的能耗。(3)提出一种基于访问频度的冷热元数据存储组织策略,提高元数据访问效率。为降低磁盘索引访问次数,大多数研究集中在指纹值查找技术,忽略了由索引查找和元数据存储引入的能耗问题。论文将元数据分为热元数据和冷元数据,热元数据的存储采用交叉分组的数据组织,基于B+树组织索引结构,并将指纹值表分成子表,子表的大小受数据组织中存储子块大小的控制,按照数据流中存储块到达顺序存储元数据条目;冷元数据采用单块磁盘顺序写的方式写入磁盘组,使用追加式的文件结构来保持空间局部性。将冷热元数据分开存放,在热元数据5磁盘2分组和冷元数据3磁盘3分组的存储配置下,降低元数据存储能耗约21%。(4)提出一种基于存储位置的副本复制和恢复策略,提高数据恢复效率。存储重复数据块能有效提高数据恢复速度,以往研究大多根据重复访问率来决定需要复制哪些数据块,组成最新备份的数据块往往分布在存储系统的各处,因此恢复去重数据会导致大量对磁盘的随机读取。论文设计一种基于存储位置的有选择复制和数据恢复策略,对交叉分组的数据组织进行进一步的区域划分。引入距离访问矩阵,用块访问距离反映所在存储区域的状态,在恢复去重数据时,选择一个相对最优的读取区域。在10磁盘3分组的交叉分组数据组织下,这种优化策略能够在降低重复数据删除率7.4%的代价下,提高22%的数据恢复性能。对于非对称分组的对象存储数据组织,相比普通RAID-4能够提高约11%的数据恢复性能。
【关键词】:重复数据删除 数据组织 元数据 数据恢复 节能存储系统
【学位授予单位】:北京理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要5-7
- Abstract7-17
- 第1章 绪论17-27
- 1.1 本论文研究的目的和意义17-18
- 1.2 国内外研究现状及发展趋势18-23
- 1.3 本论文的研究背景23-24
- 1.4 本论文的研究内容24-25
- 1.5 本论文的组织结构25-27
- 第2章 重复数据删除系统的节能数据组织27-51
- 2.1 能耗优化的重复数据删除系统原型27-29
- 2.2 重复数据删除系统的数据访问特征29-30
- 2.3 重复数据删除的性能分析模型30-33
- 2.3.1 重复数据删除率分析模型30-33
- 2.3.2 时间性能分析模型33
- 2.4 能耗优化的分块数据组织33-43
- 2.4.1 交叉分组的数据组织34-38
- 2.4.2 磁盘分组参数分析38-39
- 2.4.3 节能磁盘调度算法39-43
- 2.5 能耗优化的分块策略43-45
- 2.6 实验结果及分析45-50
- 2.6.1 数据组织性能测试46-48
- 2.6.2 数据组织节能测试48
- 2.6.3 EOCDC算法的有效性测试48-50
- 2.7 小结50-51
- 第3章 重复数据删除系统的对象级数据组织51-78
- 3.1 面向非结构化复合文件的重复数据删除51-52
- 3.2 基于对象的OpenXML复合文件去重方法52-59
- 3.2.1 基于对象的去重过程52-54
- 3.2.2 OpenXML文件对象提取方法54-55
- 3.2.3 基于对象的OpenXML复合文件去重方法55-59
- 3.3 重复数据删除系统的对象级存储方法59-67
- 3.3.1 对象粒度的存储结构59-60
- 3.3.2 非对称分组的对象存储数据组织60-62
- 3.3.3 面向对象存储的非对称分组调整算法62-67
- 3.4 实验结果及分析67-76
- 3.4.1 非对称分组的对象存储性能测试67-69
- 3.4.2 非对称分组的数据组织节能测试69-70
- 3.4.3 对象级去重效率测试70-76
- 3.5 小结76-78
- 第4章 重复数据删除系统的元数据组织78-90
- 4.1 元数据组织78-86
- 4.1.1 分块重复数据删除的热元数据结构78-81
- 4.1.2 对象级重复数据删除的热元数据结构81-83
- 4.1.3 热元数据的数据存储策略83-85
- 4.1.4 冷元数据的数据存储策略85-86
- 4.2 实验结果及分析86-89
- 4.3 小结89-90
- 第5章 去重数据恢复的优化策略90-103
- 5.1 重复数据删除系统的数据碎片问题90-91
- 5.2 去重数据恢复优化策略91-97
- 5.2.1 存储区域划分91-92
- 5.2.2 基于存储位置的复制与数据恢复策略92-97
- 5.3 实验结果及分析97-102
- 5.3.1 基于交叉分组的去重数据恢复读性能测试97-99
- 5.3.2 基于交叉分组的数据恢复性能对比测试99-100
- 5.3.3 非对称分组数据组织的去重数据恢复性能测试100-102
- 5.4 小结102-103
- 总结103-106
- 参考文献106-114
- 攻读学位期间发表论文与研究成果清单114-115
- 致谢115-116
- 作者简介116
【参考文献】
中国期刊全文数据库 前6条
1 陆游游;敖莉;舒继武;;一种基于重复数据删除的备份系统[J];计算机研究与发展;2012年S1期
2 李哠;谭毓安;李元章;;一种块级连续数据保护系统的快速恢复方法[J];北京理工大学学报;2011年06期
3 周敬利;聂雪军;秦磊华;刘科;朱建峰;王宇;;基于存储环境感知的重复数据删除算法优化[J];计算机科学;2011年02期
4 田磊;冯丹;岳银亮;吴素贞;毛波;;磁盘存储系统节能技术研究综述[J];计算机科学;2010年09期
5 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
6 穆飞;薛巍;舒继武;郑纬民;;基于定位目录的元数据管理方法[J];清华大学学报(自然科学版)网络.预览;2009年08期
本文关键词:重复数据删除系统数据组织研究,由笔耕文化传播整理发布。
本文编号:297828
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/297828.html