基于Bloom Filter的云存储文件去重方法研究与优化
发布时间:2017-06-13 17:12
本文关键词:基于Bloom Filter的云存储文件去重方法研究与优化,,由笔耕文化传播整理发布。
【摘要】:目前,随着云存储的流行,以及用户的认知度的提高,越来越多的用户将数据上传于云盘,用于存储文件,能够方便地与他人分享文件或者在其它移动设备上下载,或者定期的将部分的个人数据备份于云存储中。因此,这造成了云存储上有大量的重复数据。如果将这些文件进行去重,将会使得云存储商减少存储文件的容量,在备份或者恢复数据时能够节约带宽与存储以及提高存储效率与带宽效率,从而带来经济利益。因此,文件去重成为了云存储系统中并不可少的一部分。由于云存储的数据来源大多数是个人用户,因此云存储中的文件特点是随机性。无法预测下一个到达云端的文件是哪一个,大部分文件数据并不具有备份系统的数据源局部性的特点。根据云存储中数据源的特点,本文提出了一种基于Bloom Filter的云存储去重方法。在分块阶段根据不同文件类型的特点,经过调研与实验,对不同文件类型分别采用了最有效的分块方式。在文件分块的索引阶段,在利用了文件的相似性原理的基础上,加入了Bloom Filter过滤分块加快查找速度。并且由于不同的分块方式产生的分块查询开销不同,为了减少查询开销与时间,使用了差异化的Bloom Filter。最终建立了内存哈希表——差异化Bloom Filter——文件相似索引表的结构。在实验部分,本方法与一般实现方式中的非差异化Bloom Filter实现方式进行比较,并且也同时与采用同样分块方式的AA-Dedupe算法与同样基于文件相似性原理的Extreme Binning算法进行了对比,验证了本方法在性能方面的提升与优势。
【关键词】:云存储 文件去重 差异化Bloom Filter
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP333
【目录】:
- 摘要5-6
- Abstract6-9
- 第一章 绪论9-17
- 1.1 研究背景9
- 1.2 国内外研究现状9-15
- 1.2.1 文件的分块10-11
- 1.2.2 文件分块的索引11-14
- 1.2.3 文件去重处理过程速率的提升14-15
- 1.3 本文的研究内容15-16
- 1.4 本文的组织结构16-17
- 第二章 相关技术17-21
- 2.1 应用感知型的文件分块技术17
- 2.2 Bloom Filter技术17-19
- 2.3 文件的相似性19-20
- 2.4 本章小结20-21
- 第三章 基于Bloom Filter的文件去重的设计与优化21-35
- 3.1 文件的分块21-25
- 3.2 基于Bloom Filter的文件去重的索引设计以及优化25-31
- 3.3 基于Bloom Filter的文件去重的方法实现31-33
- 3.4 本章小结33-35
- 第四章 实验结果及分析35-46
- 4.1 实验环境35
- 4.2 文件数据来源及特点35
- 4.3 实验参数设置35-37
- 4.4 实验对比算法37-39
- 4.4.1 非差异化Bloom Filter实现方式37-38
- 4.4.2 AA-Dedupe算法和Extreme Binning算法38-39
- 4.5 性能对比结果及分析39-45
- 4.5.1 重复数据删除率39-41
- 4.5.2 时间开销41-43
- 4.5.3 内存使用情况43-45
- 4.6 本章小结45-46
- 结论46-49
- 参考文献49-52
- 攻读硕士学位期间取得的研究成果52-53
- 致谢53-54
- 附件54
【相似文献】
中国期刊全文数据库 前10条
1 肖明忠;代亚非;;Bloom Filter及其应用综述[J];计算机科学;2004年04期
2 池静;倪健;王华;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比较与研究[J];河北师范大学学报;2006年04期
3 李s
本文编号:447142
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/447142.html