相似聚类的二级索引重复数据删除算法
本文选题:重复数据删除 + 二级索引 ; 参考:《小型微型计算机系统》2017年12期
【摘要】:针对重复数据删除算法指纹对比I/O瓶颈问题,提出一种基于相似聚类的二级索引重复数据删除算法.首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中.然后计算每个类中数据块的MD5值,将其信息形成二级索引存放在聚类中心.当需要进行重复数据块检测时,计算待检测数据块Simhash值到一级索引中所有聚类中心Simhash值的海明距离,并将海明距离最小的类的二级索引调入内存中进行MD5指纹对比.实验结果表明,算法没有误判率,在较大提高了指纹对比速度的同时,每次检测只产生一次I/O操作,具有更高效的性能.
[Abstract]:Aiming at the bottleneck problem of fingerprint comparing with I / O, a two-level index repeat data deletion algorithm based on similarity clustering is proposed. First, the Simhash values of all data blocks are calculated. Based on the hamming distance between the Simhash values, an adaptive similar clustering algorithm is proposed, in which all the clustering center information is stored in memory. Then the MD5 value of the data block in each class is calculated, and the information is stored in the cluster center as a secondary index. When repeated data block detection is needed, the hamming distance from the Simhash value of the data block to the Simhash value of all clustering centers in the primary index is calculated, and the secondary index of the class with the smallest hamming distance is transferred into memory for MD5 fingerprint comparison. The experimental results show that the algorithm has no error rate and improves the speed of fingerprint comparison greatly. At the same time, it only produces one I / O operation per detection, so it has a more efficient performance.
【作者单位】: 辽宁大学信息学院;
【基金】:国家社科青年基金项目(13CRK027)资助
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 王军;重复数据 批量剔除[J];电脑应用文萃;2004年06期
2 ;重复数据删除可实现25:1压缩[J];每周电脑报;2007年01期
3 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[J];计算机研究与发展;2011年S1期
4 Eric Bassier;;应对数据增长的重磅武器——重复数据删除技术[J];计算机与网络;2013年06期
5 卢敏;;“零距离”重复数据删除[J];软件世界;2008年11期
6 徐立洋;;选购重复数据删除方案 软硬兼施剔除鸡肋数据[J];中国计算机用户;2009年08期
7 邢延刚;;删除重复值我有妙法[J];电脑迷;2009年09期
8 李刚;;重复数据删除走向“源头”[J];中国计算机用户;2009年16期
9 雷赫;;重复数据删除技术方案选型 删除冗余 优化存储[J];中国计算机用户;2009年23期
10 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
相关会议论文 前1条
1 肖钧;黄亮;;虚拟化搭配去重,双剑合璧更给力[A];2011年CAD/CAM学术交流会议论文集[C];2011年
相关重要报纸文章 前10条
1 王琨月;重复数据删除不该忽视弱点[N];网络世界;2008年
2 本报记者 郭涛;基于硬件的重复数据删除效率更高[N];中国计算机报;2009年
3 邢小萍;重复数据删除技术渐入佳境[N];网络世界;2009年
4 本报记者 刑小萍;重复数据删除市场迎来开门红[N];网络世界;2010年
5 编译 张磊;谁在拖重复数据删除的后腿[N];中国计算机报;2009年
6 编译 沈建苗;你果真需要重复数据删除技术吗[N];计算机世界;2013年
7 郭涛;重复数据删除比越大越好吗?[N];中国计算机报;2007年
8 刘学习;删除重复数据[N];计算机世界;2006年
9 张峰;重复数据删除 难走的平衡木[N];网络世界;2007年
10 王s,
本文编号:1912281
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1912281.html