基于FastDFS的重复数据管理技术的研究与实现
本文关键词:基于FastDFS的重复数据管理技术的研究与实现,由笔耕文化传播整理发布。
【摘要】:随着计算机技术的飞速发展,带来的是数字信息量的爆炸式增长,尤其是在云存储系统中,其数据量甚至达到PB级的规模。面对如此庞大的数据量,研究如何有效地发现和消除系统中的重复数据变得尤为重要。数据分块算法能够快速高效地检测出文件之间的重复数据,是相同数据检测技术的核心。针对现有的数据分块算法分块边界不确定导致数据分块过大和容易产生数据碎片的缺点,立足于消除系统中的硬分块,平衡提高分块算法的消重率和降低分块算法的时间消耗之间的矛盾,论文提出了基于预分块的滑动窗口分块算法SWCDC。SWCDC对文件内容没有发生变化的区域采用较大的分块预期值进行分块,而对文件内容发生变化的区域采用较小的分块预期值进行分块。通过区分对待数据变动区域和非变动区域,SWCDC特别适用于对重复数据较多的系统进行重复数据管理。另外,在SWCDC的基础上,为了降低数据分块的元数据开销,提出了基于合并的滑动窗口分块算法ISWFDC。实验结果表明,SWCDC和ISWFDC算法可以比传统的分块算法获得更高的消重性能。针对现有的布隆过滤器在数据块指纹集较大时查询速度较慢,不能很好地适应云存储环境下数据块指纹集的动态增长这一问题,论文提出了动态布隆过滤器矩阵集合DBFMS。DBFMS通过将数据块指纹集表示为s个t?m的位矩阵,而不是s?t个m位的布隆过滤器位串,使检索重复数据块指纹的效率得到了显著的提升。理论分析、仿真测试和实验表明,DBFMS相对于传统的静态布隆过滤器以及动态布隆过滤器而言,其在可扩展性、查询效率和假阳性概率方面都取得了较好的改进效果。最后,本文结合重复数据管理相关理论及其系统结构模型,融入提出的改进算法,并采用开源的FastDFS分布式文件系统,通过配置FastDFS分布式文件系统集群实现了基于FastDFS的重复数据管理平台,完成了文件的上传、下载、删除、重命名以及重复数据管理等功能。对比应用改进算法前后系统的测试结果表明,改进后的重复数据管理系统的消重性能更好,效率更高,更加适用于云存储环境。
【关键词】:重复数据管理 相同数据检测 数据分块算法 布隆过滤器
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 绪论11-17
- 1.1 研究背景11-12
- 1.2 研究意义12-13
- 1.3 国内外研究现状13-15
- 1.3.1 重复数据管理技术国内外研究现状13-15
- 1.3.2 FastDFS研究现状15
- 1.4 本文的主要研究内容与组织结构15-17
- 第二章 重复数据管理技术概述17-27
- 2.1 重复数据管理技术概念17-19
- 2.1.1 重复数据管理技术定义17
- 2.1.2 重复数据管理技术分类17-19
- 2.2 重复数据管理技术体系19-24
- 2.2.1 相同数据检测技术19-21
- 2.2.2 相似数据检测及编码技术21-22
- 2.2.3 重复数据管理系统性能优化技术22-23
- 2.2.4 重复数据管理系统可靠性保障技术23
- 2.2.5 重复数据管理系统安全性技术23-24
- 2.3 FastDFS技术分析和体系结构24-26
- 2.3.1 FastDFS技术分析24-25
- 2.3.2 FastDFS体系结构25-26
- 2.4 本章小结26-27
- 第三章 数据分块算法的研究与改进27-44
- 3.1 现有分块算法的主要流程27-28
- 3.2 分块算法研究现状28-32
- 3.2.1 固定长度分块算法28-29
- 3.2.2 基于内容的可变长度分块算法29-30
- 3.2.3 FingerDiff分块算法30-31
- 3.2.4 滑动窗.分块算法31-32
- 3.3 现有数据分块算法存在问题分析32-33
- 3.4 数据分块算法性能评价指标33-34
- 3.4.1 建立评价指标33
- 3.4.2 评价指标分析33-34
- 3.5 改进算法34-38
- 3.5.1 基于预分块的滑动窗.分块算法34-36
- 3.5.2 基于合并的滑动窗.分块算法36-38
- 3.6 实验及结果分析38-43
- 3.6.1 实验数据及实验环境38-39
- 3.6.2 实验结果39-42
- 3.6.3 实验结论42-43
- 3.7 本章小结43-44
- 第四章 基于改进的布隆过滤器的重复数据块指纹检索技术44-61
- 4.1 现有重复数据块指纹检索技术的主要流程44-45
- 4.2 布隆过滤器研究现状45-48
- 4.2.1 静态布隆过滤器45-47
- 4.2.2 动态布隆过滤器47-48
- 4.3 现有布隆过滤器存在问题分析48-49
- 4.4 布隆过滤器性能评价指标49-50
- 4.4.1 建立评价指标49
- 4.4.2 分析评价指标49-50
- 4.5 动态布隆过滤器矩阵集合50-54
- 4.6 实验及结果分析54-60
- 4.6.1 平均查询时间55-57
- 4.6.2 假阳性概率57-60
- 4.7 本章小结60-61
- 第五章 基于FastDFS的重复数据管理系统的设计与实现61-80
- 5.1 系统简介61-64
- 5.1.1 实现目标61
- 5.1.2 总体架构设计61-63
- 5.1.3 总体功能设计63-64
- 5.1.4 总体结构设计64
- 5.2 重复数据管理系统环境搭建64-68
- 5.2.1 系统部署示意图65
- 5.2.2 FastDFS集群的安装部署65-66
- 5.2.3 MongoDB的部署66-67
- 5.2.4 OpenAM的布署67
- 5.2.5 开发环境搭建67-68
- 5.3 重复数据管理系统模块设计与实现68-73
- 5.3.1 主要功能模块68
- 5.3.2 数据存储子系统68
- 5.3.3 访问控制子系统68-69
- 5.3.4 元数据子系统69
- 5.3.5 重复数据管理平台69-70
- 5.3.6 核心功能流程图70-73
- 5.4 重复数据管理系统展示73-76
- 5.5 重复数据管理系统测试分析76-79
- 5.5.1 分块算法对消重性能的影响76-77
- 5.5.2 布隆过滤器对消重性能的影响77-79
- 5.5.3 重复数据管理对文件上传性能的影响79
- 5.6 本章小结79-80
- 第六章 总结和展望80-82
- 6.1 论文总结80-81
- 6.2 论文展望81-82
- 致谢82-83
- 参考文献83-88
- 本人攻读硕士学位期间的研究经历和研究成果88-89
【共引文献】
中国期刊全文数据库 前10条
1 胡小春;李陶深;王乐;陈燕;陈宁江;;基于NoSQL的大数据应用设计与性能保障方案研究[J];广西大学学报(自然科学版);2014年03期
2 邱儒琼;郑丽娜;李兵;;基于MongoDB的电子地图瓦片数据存储和服务研究[J];地理空间信息;2014年06期
3 黄梦龙;;基于MongoDB的城市三维模型数据建库技术探讨[J];地理空间信息;2015年01期
4 刘思尧;;基于ZABBIX的自动化巡检系统的研究与实现[J];电力信息与通信技术;2014年12期
5 秦强;王晏民;黄明;;基于MongoDB的海量遥感影像大数据存储[J];北京建筑大学学报;2015年01期
6 宁柏锋;许冠中;;供电企业安全生产管理系统平台的设计与应用[J];电力信息与通信技术;2015年03期
7 黎建辉;杨风雷;崔建业;周园春;张波;巩晓东;赵红新;;全球食品安全信息监控与分析云平台架构研究[J];计算机应用研究;2014年08期
8 张刚;孙涌;邓子艳;李卫东;张晓梅;;基于MongoDB的BESIII分布式计算记账系统的研究与实现[J];计算机应用与软件;2015年09期
9 孙静林;樊丁宜;陈艳;;美术院校高考数字化评分系统的研发[J];实验技术与管理;2015年05期
10 梁海;;MongoDB数据库中Sharding技术应用研究[J];计算机技术与发展;2014年07期
中国硕士学位论文全文数据库 前9条
1 柴化磊;分布式环境下基于文本的海量数据挖掘[D];上海交通大学;2013年
2 李昊;家居导购数据平台的设计与实现[D];北京交通大学;2013年
3 伍昕;基于SOA的仓储管理系统的研究与应用[D];湖南大学;2013年
4 王慕泼;企业集团的智能搜索引擎平台的建立[D];浙江理工大学;2014年
5 李浩;基于Twitter Storm的云平台监控系统研究与实现[D];东北大学;2013年
6 王元刚;面向Agent个体的信念修正系统设计与实现[D];大连海事大学;2014年
7 吕林;基于MongoDB的应用平台的研究与实现[D];北京邮电大学;2015年
8 南海京;一种基于STORM的交通流数据实时处理系统设计与实现[D];北方工业大学;2015年
9 潘翔;面向移动互联的网络传输性能优化研究[D];杭州电子科技大学;2015年
本文关键词:基于FastDFS的重复数据管理技术的研究与实现,,由笔耕文化传播整理发布。
本文编号:345062
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/345062.html