基于存储系统的重复数据删除技术的研究
本文关键词:基于存储系统的重复数据删除技术的研究
更多相关文章: 存储系统 重复数据删除 相似性 词性权重 Simhash算法 TF-IDF技术 Bloom Filter 误判率 错误校验
【摘要】:爆炸式增长的数字信息给人们的日常生活乃至企业的业务运营都带来了巨大的挑战,存储系统中的冗余数据信息变得越来越多,极大地增加了存储备份的开销,降低了存储系统的性能。研究如何消除存储系统中的冗余数据,降低存储开销问题变得尤为重要。近年来,重复数据删除技术(简称去重技术)被广泛应用于数据存储系统中,并成为计算机应用领域所研究的一个热点。但是现有的针对存储系统的重复数据删除技术的研究缺乏对相似性数据检测精度问题以及减少存储设备访问开销问题的深入研究,导致系统性能不高,达不到高速且高效的重复数据删除效果。为了解决上述问题,课题从存储系统中相似性数据检测的精确度以及优化存储系统访问开销等方面进行分析研究,以找到更加高效的相似数据检测技术以及开销更小的存储系统访问的解决方法。为了在大规模文档去重中提高相似数据检测的精度,课题对基于Simhash算法的大规模文档去重技术进行深入地研究,在原有算法的基础上对Simhash指纹值的计算过程做出改进,引入ICTCLAS分词技术生成更加精确且标有词性的分词,将TF-IDF技术作为计算权重的主要方法来抑制某一文档内无意义高频词出现的负面影响,同时将特征值的词性与词长两大影响因素考虑其中,然后对产生的指纹值进行汉明距离的比较,从而更加精确地判定出待比较者是否为相似数据。为了缓解存储系统中因为重复数据索引而引起的存储设备访问过于频繁的问题,课题对重复数据删除技术进行了深入的研究,并针对目前重复数据删除技术中Bloom Filter的运用以及存在的存储设备访问性能问题进行分析和研究,提出一种基于Bloom Filter的高效重复数据删除优化模式。针对单一Bloom Filter固有的假阳性的缺陷,课题增加辅助Bloom Filter,从而减小误判率,达到减少存储设备访问次数的目的;针对因系统软件错误引起的Bloom Filter假阴性缺陷,课题引入单校验位的错误校验机制,在不增加过多内存存储开销的同时可以避免假阴性发生所带来的问题。最后,分别针对课题改进的Simhash算法和Bloom Filter算法的算法性能进行实验分析。测试结果表明课题提出的改进Simhash算法总体性能优于Shingle算法和原Simhash算法,能够提高产生指纹值的精确度;优化的Bloom Filter算法通过引入一种判断机制配合辅助Bloom Filter和单校验位机制,能够达到误判率降低、存储设备访问开销减小的高性能优化效果。
【关键词】:存储系统 重复数据删除 相似性 词性权重 Simhash算法 TF-IDF技术 Bloom Filter 误判率 错误校验
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP333
【目录】:
- 摘要4-5
- Abstract5-9
- 专用术语注释表9-10
- 第一章 绪论10-20
- 1.1 课题背景与意义10-12
- 1.1.1 课题研究背景10-11
- 1.1.2 课题研究意义11-12
- 1.2 国内外研究现状12-17
- 1.3 课题的研究内容及结果17-18
- 1.4 论文的组织结构18-20
- 第二章 相关技术研究20-39
- 2.1 重复数据删除技术20-27
- 2.1.1 重复数据删除技术的定义20-21
- 2.1.2 重复数据删除技术的分类21-26
- 2.1.3 重复数据删除技术处理流程26-27
- 2.2 数据指纹算法27-28
- 2.2.1 MD5算法27-28
- 2.2.2 SHA-1 算法28
- 2.3 基于Simhash算法去重的相关技术28-33
- 2.3.1 TF-IDF算法29
- 2.3.2 Shingle算法29-31
- 2.3.3 ICTCLAS分词系统31
- 2.3.4 汉明距离介绍31-32
- 2.3.5 Simhash函数32-33
- 2.4 基于Bloom Filter算法去重的相关技术33-38
- 2.4.1 Bloom Filter函数34-35
- 2.4.2 Bloom Filter误判率分析35-36
- 2.4.3 Bloom Filter最优函数个数36
- 2.4.4 最优的位数组长度36-37
- 2.4.5 错误校验机制37-38
- 2.5 本章小结38-39
- 第三章 存储系统中Simhash算法的改进39-47
- 3.1 算法设计背景39-40
- 3.2 基于Simhash算法的相似数据检测改进研究40-46
- 3.2.1 算法改进流程40-41
- 3.2.2 算法的实现41-46
- 3.2.3 改进后的Simhash算法性能对比分析46
- 3.3 本章小结46-47
- 第四章 存储系统中Bloom Filter的改进47-55
- 4.1 算法设计背景47-49
- 4.1.1 Bloom Filter存在的缺点47
- 4.1.2 错误校验机制存在的缺点47-48
- 4.1.3 Bloom Filter的主要算法研究48-49
- 4.2 基于Bloom Filter在重复数据删除技术中应用改进研究49-53
- 4.2.1 算法改进流程49-50
- 4.2.2 针对Bloom Filter产生假阳性问题的改进50-52
- 4.2.3 针对引入假阴性值进行的错误校验机制问题的改进52-53
- 4.2.4 改进后的算法性能分析53
- 4.3 本章小结53-55
- 第五章 系统测试55-61
- 5.1 基于Simhash算法相似性检测的测试55-59
- 5.1.1 测试环境55
- 5.1.2 测试数据选取55-56
- 5.1.3 测试度量依据56
- 5.1.4 实验结果与分析56-59
- 5.2 针对Bloom Filter在重复数据删除中应用的测试59-60
- 5.2.1 测试环境59
- 5.2.2 测试数据选取59
- 5.2.3 实验结果与分析59-60
- 5.3 本章小结60-61
- 第六章 总结与展望61-64
- 6.1 研究工作总结61-62
- 6.2 研究工作展望62-64
- 参考文献64-67
- 附录1 攻读硕士学位期间撰写的论文67-68
- 致谢68
【相似文献】
中国期刊全文数据库 前10条
1 ;重复数据删除可实现25:1压缩[J];每周电脑报;2007年01期
2 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[J];计算机研究与发展;2011年S1期
3 Eric Bassier;;应对数据增长的重磅武器——重复数据删除技术[J];计算机与网络;2013年06期
4 于丹;;昆腾进入重复数据删除市场[J];每周电脑报;2007年09期
5 卢敏;;“零距离”重复数据删除[J];软件世界;2008年11期
6 卢敏;;点亮“重复数据删除”[J];软件世界;2008年06期
7 徐立洋;;选购重复数据删除方案 软硬兼施剔除鸡肋数据[J];中国计算机用户;2009年08期
8 邢延刚;;删除重复值我有妙法[J];电脑迷;2009年09期
9 李刚;;重复数据删除走向“源头”[J];中国计算机用户;2009年16期
10 雷赫;;重复数据删除技术方案选型 删除冗余 优化存储[J];中国计算机用户;2009年23期
中国重要会议论文全文数据库 前3条
1 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
2 杨廷梧;;基于重复数据删除的靶场试验信息存储技术[A];2009年西部光子学学术会议论文摘要集[C];2009年
3 肖钧;黄亮;;虚拟化搭配去重,双剑合璧更给力[A];2011年CAD/CAM学术交流会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 张伟;重复数据删除能被扶正吗[N];中国计算机报;2008年
2 王琨月;重复数据删除不该忽视弱点[N];网络世界;2008年
3 本报记者 郭涛;基于硬件的重复数据删除效率更高[N];中国计算机报;2009年
4 朱皎;重复数据删除技术渐成主流[N];电脑商报;2009年
5 邢小萍;重复数据删除技术渐入佳境[N];网络世界;2009年
6 本报记者 刑小萍;重复数据删除市场迎来开门红[N];网络世界;2010年
7 清水 编译;部署重复数据删除[N];计算机世界;2010年
8 编译 张磊;谁在拖重复数据删除的后腿[N];中国计算机报;2009年
9 本报记者 郭涛;重复数据删除2.0追求“双高”[N];中国计算机报;2012年
10 编译 沈建苗;你果真需要重复数据删除技术吗[N];计算机世界;2013年
中国博士学位论文全文数据库 前10条
1 林彬;主存储服务系统中高I/O性能的重复数据删除技术研究[D];国防科学技术大学;2014年
2 阎芳;重复数据删除系统数据组织研究[D];北京理工大学;2015年
3 周炳;海量数据的重复数据删除中元数据管理关键技术研究[D];清华大学;2015年
4 王国华;高效重复数据删除技术研究[D];华南理工大学;2014年
5 王灿;基于在线重复数据消除的海量数据处理关键技术研究[D];电子科技大学;2012年
6 付印金;面向云环境的重复数据删除关键技术研究[D];国防科学技术大学;2013年
7 周正达;信息存储系统中重复数据删除技术的研究[D];华中科技大学;2012年
8 杨天明;网络备份中重复数据删除技术研究[D];华中科技大学;2010年
9 朱锐;重复数据删除技术中的并行性能优化算法研究[D];华中科技大学;2013年
10 叶鹏迪;云存储系统资源管理关键技术研究[D];北京邮电大学;2014年
中国硕士学位论文全文数据库 前10条
1 李志然;云存储中集群重复数据删除系统的研究与设计[D];东北大学;2014年
2 张宏亮;重复数据删除技术在云存储中的应用与实现[D];华中科技大学;2014年
3 曹秀秀;面向XML相似性重复数据的清洗方法研究[D];首都经济贸易大学;2016年
4 彭健;基于重复数据删除的教育资源管理系统设计与实现[D];电子科技大学;2016年
5 陈琳;基于存储系统的重复数据删除技术的研究[D];南京邮电大学;2016年
6 涂群;云存储系统中重复数据删除机制的研究[D];南京邮电大学;2016年
7 王珂;一种基于代理重加密的安全重复数据删除机制的研究[D];北京邮电大学;2012年
8 沈瑞清;云存储中避免重复数据存储机制研究[D];云南大学;2013年
9 石俊杰;基于云存储的重复数据删除文件系统设计与实现[D];华中科技大学;2013年
10 黄可;重复数据可删除的云数据审计协议的研究[D];电子科技大学;2015年
,本文编号:1061032
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1061032.html