基于Hadoop的重复数据删除技术研究
发布时间:2017-03-20 05:07
本文关键词:基于Hadoop的重复数据删除技术研究,由笔耕文化传播整理发布。
【摘要】:随着互联网的迅速发展,数据的产生和复制量以一种惊人的速度增长着。这些日益增长的海量数据需要更多的存储容量、处理能力和网络带宽。越来越多的数据被存储在云服务器上。然而,这些数据在进行存储时,往往存在大量的冗余数据,不仅占用了大量的存储空间,而且降低了存储效率。针对这些问题,重复数据删除技术给出了很好的解决方案。它可以对存储进行优化,减少对物理存储空间的浪费,以满足日益增长的存储空间需求。 然而,重复数据删除技术会产生额外的开销和冗余,使存储和读取数据的性能降低。并且随着数据量的增大,指纹的检索速度会减缓,以致文件的存储变慢。针对以上问题,本文对基于块粒度的重复数据删除技术进行了改进和优化,在空间上和时间上都提高了存储的效率,并将其应用于Hadoop分布式系统中。 首先,本文详细研究了重复数据删除技术及其在分布式系统的应用,分析了发展现状及特点。在此基础上,针对基于内容的分块方法的进行了改进,提出了一种新的增量的指纹算法DRabin和改进的TTTD算法——TDOB,分别提高了文件的分块速度和去重率。然后,将算法改进应用于Hadoop分布式系统中,设计并搭建了基于Hadoop的去重系统,并对系统进行了性能优化。最后,使用所搭建的系统对算法进行数值实验,通过实验结果的对比分析,验证了改进的性能。
【关键词】:重复数据删除 HDFS 哈希算法 云存储
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333;TP311.13
【目录】:
- 摘要5-6
- Abstract6-9
- 第1章 绪论9-12
- 1.1 课题背景及意义9-10
- 1.2 国内外研究现状10-11
- 1.3 本文主要工作11
- 1.4 本文组织结构11-12
- 第2章 重复数据删除技术概述12-19
- 2.1 重复数据删除技术12
- 2.2 文件级别的重复数据删除12-13
- 2.3 数据块级别的重复数据删除13-15
- 2.3.1 固定长度的分块13
- 2.3.2 基于内容的分块13-15
- 2.3.3 基于滑块的分块15
- 2.4 重复数据删除技术在分布式系统中的应用15-17
- 2.4.1 HYDRAstor16
- 2.4.2 DEBAR16-17
- 2.5 研究点和发展方向17-18
- 2.5.1 去重率和吞吐量的权衡18
- 2.5.2 去重技术的安全性18
- 2.5.3 去重技术与云计算的结合18
- 2.6 本章小结18-19
- 第3章 基于内容的分块方法研究19-29
- 3.1 DRabin算法19-21
- 3.2 基于TTTD的改进算法TDOB21-25
- 3.2.1 TTTD算法22
- 3.2.2 TDOB算法22-25
- 3.3 CubeHash算法25-28
- 3.3.1 CubeHash算法流程26-27
- 3.3.2 迭代函数f_C27
- 3.3.3 CubeHash算法性能分析27-28
- 3.4 本章小结28-29
- 第4章 重复数据删除技术在Hadoop平台中的应用研究29-44
- 4.1 Hadoop关键技术研究29-34
- 4.1.1 Hadoop技术背景29-30
- 4.1.2 分布式文件系统HDFS30-33
- 4.1.3 MapReduce编程模型33-34
- 4.1.4 Hadoop数据库HBase34
- 4.2 重复数据删除技术在Hadoop平台中的应用研究34-43
- 4.2.1 系统架构34-38
- 4.2.2 文件的存取操作38-40
- 4.2.3 存取性能优化40-43
- 4.3 本章小结43-44
- 第5章 数值实验44-53
- 5.1 实验环境44-48
- 5.1.1 硬件描述44
- 5.1.2 软件描述44
- 5.1.3 Hadoop平台搭建44-48
- 5.2 实验过程及结果分析48-52
- 5.2.1 数据集48-49
- 5.2.2 DRabin算法的正确性和高效性分析49-50
- 5.2.3 TDOB算法的性能分析50-52
- 5.3 本章小结52-53
- 第6章 总结与展望53-55
- 6.1 全文总结53
- 6.2 未来展望53-55
- 参考文献55-59
- 致谢59
【参考文献】
中国期刊全文数据库 前2条
1 曹宁;吴中海;刘宏志;张齐勋;;HDFS下载效率的优化[J];计算机应用;2010年08期
2 薛宇;吴文玲;王张宜;;SHA-3杂凑密码候选算法简评[J];中国科学院研究生院学报;2009年05期
本文关键词:基于Hadoop的重复数据删除技术研究,由笔耕文化传播整理发布。
,本文编号:257205
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/257205.html