云存储中一种基于文件相似度的抽样重删索引算法
发布时间:2018-05-23 21:33
本文选题:云存储 + 重复数据删除 ; 参考:《小型微型计算机系统》2015年10期
【摘要】:索引性能瓶颈制约着云存储下重复数据删除技术的发展和应用.通过分析影响索引性能的关键因素,提出一种基于抽样和相似度的重复数据删除索引算法.该方法利用基于文件级别的抽样,抽取每个文件部分指纹组成索引.通过减少指纹索引比对的范围和次数,提高索引检索的效率.当新写入文件的相似度达到临界值时,系统进行深度删冗,从而增加整体的重删率.
[Abstract]:The bottleneck of index performance restricts the development and application of repeated data deletion under cloud storage. Based on the analysis of the key factors affecting the performance of the index, an index deletion algorithm for repetitive data based on sampling and similarity is proposed. The method uses file level sampling to extract some fingerprints of each file to form an index. The efficiency of index retrieval is improved by reducing the range and times of fingerprint index alignment. When the similarity of the newly written files reaches the critical value, the system deletes deeply, thus increasing the overall redelete rate.
【作者单位】: 湖南大学信息科学与工程学院;
【基金】:国家自然科学基金项目(61272062)资助 湖南省自然科学基金项目(2015JJ2035)资助 中央高校基本科研业务费资助
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 陈雍;谢旭升;魏根芽;;Oracle B*树索引内部机制及其应用的研究[J];计算机与现代化;2008年10期
2 高玉良;张济强;白瑶;;基于Lucene的多索引搜索的研究与应用[J];电脑知识与技术;2012年07期
3 陈仲肃;;浅谈索引失效原因、对策及其应用[J];软件;2012年07期
4 周英华;金培权;岳丽华;龚育昌;;基于位置的web搜索索引研究[J];中国科学技术大学学报;2007年02期
5 赵娟娟;;嵌入数据库索引机制及特点研究[J];硅谷;2011年02期
6 耿庆田;狄婧;常亮;赵宏伟;;基于B+树的数据索引存储[J];吉林大学学报(理学版);2013年06期
7 张,
本文编号:1926453
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1926453.html