当前位置:主页 > 科技论文 > 计算机论文 >

基于相同数据检测的去重技术在存储系统中的应用与实现

发布时间:2017-08-22 22:11

  本文关键词:基于相同数据检测的去重技术在存储系统中的应用与实现


  更多相关文章: 存储 重复数据删除 索引技术 可靠性


【摘要】:目前大数据是科技领域最热门的话题之一,其基础就是数据。而随着信息技术的快速发展,数据总量每两年就要翻一番,这种指数型的增长趋势使得存储提供与存储需求之间的差距越拉越大。而研究表明备份归档、版本管理、邮件等企业系统中存在着大量的重复数据,这些数据的传输和存储极大地增加了企业成本。 重复数据删除技术通过在全局范围内对文件内部、文件间的重复数据进行检测和消除,可以有效的减少企业对存储硬件设备的开销和运营成本。目前重复数据删除研究领域仍然存在诸多问题具有研究价值,如提高去重率,索引设计,数据可靠性等。 本文针对基于相同数据检测的重复数据删除技术在存储系统中的应用进行了研究与实现。通过分析和实验对文件进行了基于类型的数据集划分,对不同数据集使用不同切块算法。实验表明,此方法在提高系统性能的同时对去重率的影响非常小。在使用切块算法的系统中,大多数研究者借鉴了一种使用容器存储数据块的策略。但随着时间推移,具有相关性的数据块集合会越来越离散地存储在不同容器中,造成数据块局部性降低。本文提出了一种基于数据块指纹流与容器指纹相似性的算法,可以有效地将相关性较高的数据块指纹联系在一起,使得指纹查询的局部性提高。并通过分类索引、多级索引、多线程、布隆滤波器等技术来提高指纹查询的速度。针对使用重复数据删除技术后数据可靠性降低的问题,提出一种企业存储服务器与云存储相结合的方案,可以简单有效地提高系统可靠性。
【关键词】:存储 重复数据删除 索引技术 可靠性
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-16
  • 1.1 选题背景及意义9-10
  • 1.2 重复数据删除技术10-12
  • 1.3 国内外研究现状12-15
  • 1.3.1 国外研究现状12-14
  • 1.3.2 国内研究现状14-15
  • 1.4 论文的组织结构15-16
  • 第二章 重复数据删除技术及其存在问题分析16-25
  • 2.1 重复数据删除技术介绍和分析16-21
  • 2.2 重复数据删除问题分析21-25
  • 第三章 系统架构与设计25-31
  • 3.1 系统架构25-26
  • 3.2 系统功能设计与读写流程26-28
  • 3.3 系统流程28-31
  • 第四章 系统关键模块设计与实现31-58
  • 4.1 客户端实现31-36
  • 4.1.1 文件类型分析和数据集划分模块策略31-33
  • 4.1.2 文件切块算法实现33-36
  • 4.2 服务器端实现36-58
  • 4.2.1 服务器端线程与指纹缓冲区实现36-39
  • 4.2.2 系统指纹索引模块39-45
  • 4.2.3 数据块存储模块45-49
  • 4.2.4 部分索引缓存查找流程49-52
  • 4.2.5 两次Bloom filter探测的实现52-54
  • 4.2.6 数据块缓存机制54-55
  • 4.2.7 云存储模块55-58
  • 第五章 系统测试和分析58-67
  • 5.1 测试环境58
  • 5.2 实验与分析58-67
  • 5.2.1 Bloom Filter测试58-59
  • 5.2.2 哈希表测试59-60
  • 5.2.3 系统内文件测试60-65
  • 5.2.4 性能测试65-67
  • 第六章 总结与展望67-68
  • 参考文献68-72
  • 致谢72-73
  • 附录:攻读硕士期间发表的论文73

【相似文献】

中国期刊全文数据库 前10条

1 于丹;;昆腾进入重复数据删除市场[J];每周电脑报;2007年09期

2 卢敏;;“零距离”重复数据删除[J];软件世界;2008年11期

3 卢敏;;点亮“重复数据删除”[J];软件世界;2008年06期

4 徐立洋;;选购重复数据删除方案 软硬兼施剔除鸡肋数据[J];中国计算机用户;2009年08期

5 邢延刚;;删除重复值我有妙法[J];电脑迷;2009年09期

6 李刚;;重复数据删除走向“源头”[J];中国计算机用户;2009年16期

7 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期

8 王树鹏;;重复数据删除技术的发展及应用[J];中兴通讯技术;2010年05期

9 倪显利;;重复数据删除技术的应用与实践[J];中国金融电脑;2011年05期

10 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期

中国重要会议论文全文数据库 前3条

1 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年

2 杨廷梧;;基于重复数据删除的靶场试验信息存储技术[A];2009年西部光子学学术会议论文摘要集[C];2009年

3 肖钧;黄亮;;虚拟化搭配去重,双剑合璧更给力[A];2011年CAD/CAM学术交流会议论文集[C];2011年

中国重要报纸全文数据库 前10条

1 本报记者 郭涛;基于硬件的重复数据删除效率更高[N];中国计算机报;2009年

2 朱皎;重复数据删除技术渐成主流[N];电脑商报;2009年

3 邢小萍;重复数据删除技术渐入佳境[N];网络世界;2009年

4 郭涛;重复数据删除比越大越好吗?[N];中国计算机报;2007年

5 中国传媒大学计算机学院 朱立谷;重复数据删除:改写存储行业经济规则?[N];中国计算机报;2007年

6 刘学习;删除重复数据[N];计算机世界;2006年

7 张群英;重复数据删除技术异军突起[N];网络世界;2006年

8 张峰;重复数据删除 难走的平衡木[N];网络世界;2007年

9 王s,

本文编号:721315


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/721315.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6a449***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com