云存储系统文件级数据去重方法研究

发布时间：2020-06-05 10:01

【摘要】：据统计,全球云存储系统中有大约百分之三十到百分之六十的重复数据,对于普通用户个人的存储可以高达百分之七十。然而重复数据处理技术大多应用在备份领域,在文件上传之前进行重复数据处理研究相对较少。如果对在线数据去重进行详细设计无疑会对文件系统整体处理性能带来巨大的提升。针对云存储系统中文件系统层基础上的文件级数据去重技术,本文采用了一种客户端服务端任务划分的文件去重思路。其包含两个方面:首先是提出基于布隆过滤器的文件预筛选算法,其次提出了PIA算法用于文件递增分段摘要计算。最后基于上述方法,本文对整个去重系统进行了设计。首先,文件上传后需要经过预筛选环节,经过布隆过滤器和表分区中文件客观属性的对比,系统中不存在的文件将直接上传,不参与后续计算。其次,对于系统中可能存在的文件,在PIA算法中进行详细的比对,上传文件后客户端未完成的工作便由服务端继续完成。本方法在客户端逐层判断文件是否已经存在于系统中,将判断为不存在于系统中的文件上传到服务端,使之不参与客户端的后续计算,达到提升服务端资源利用率和降低客户端开销的目的。最后在FastDFS分布式文件系统中进行试验,并将本文提出的PIA算法与去其重组件FastDHT的全文件摘要算法对比。实验结果表明:在不降低重复文件删除率的情况下,本文提出的PIA算法相较于FastDHT的全文件摘要算法,具有时延小,CPU占用率低,内存占用低的特点,最优情况下去重时延降低至2ms,CPU利用率降低24.17%,内存占用率降低37.5%。
【图文】：

去重,方法,服务端,数据

图 2.1(a) 传统数据去重方法图 2.1(b) 本文数据去重方法文件预筛选的目的是根据文件相关的信息找出系统中不存在的文件，避免参与来减轻后续步骤的压力。同时找出可能相同的文件，，作为比对的目标文件。将目标的摘要值计算和摘要值比对同时进行，在第一时间发现文件的不同，进而将文件在传统方法中，摘要计算作为一个完整的步骤，放在客户端会造成用户体验差在服务端又会产生资源浪费。针对这一问题，本文设计的客户端服务端任务划分方以很好解决这个问题，具体的设计在后面展开。根据上面的总体的去重方法，本章后续部分将对客户端与服务端的任务划分、预筛选、摘要算法相关研究这三个部分进行介绍。2.3 功能设计出于提升客户端的用户体验、降低服务端去重资源浪费的考虑，本文设计了一户端与服务端结合的方法来使得二者优势互补，其核心思想是客户端判断文件的性，将不重复的文件交给服务端完成计算工作，并在在此基础上增加了预筛选过程

任务划分,去重,思路,思想

图 2.2 数据去重任务划分思路务划分思想，本文设计的方法主要分成了两个部分。第索引的相关方法，找出不重复的文件先行上传，避免其计算工作，此外在预筛选环节还需要找出可能相同的文方式在第三章进行详细的介绍。要计算，本文将其分开放在客户端和服务端实现。在客对文件进行数据重复性的验证，采用的是边计算边比对便不上传，反之，判定为不重复的文件可以继续执行后客户端已经确认文件不重复的情况下，补充计算文件的下一次比对其他文件时使用，因此，此处只计算而不用四章进行详细的介绍。然服务端任务划分只有一步，但实际情况中，上传的大务端仍然承担了主要的计算任务，而只有那些完全重复程，可以认为任务划分比较合理。
【学位授予单位】：武汉纺织大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP333;TP301.6

【参考文献】