面向数据中心的高性能重复数据删除机制研究
发布时间:2021-04-07 07:43
重复删除技术是当前去除冗余数据的一种有效的技术手段,能够为大规模数据存储节省存储空间,减少了存储开销。随着数据中心的发展,重复删除技术得到了广泛的关注和应用。现在的数据中心突出的特点是分布式架构、系统规模大、数据冗余度高,这给重复数据删除技术带来更大的挑战,亟需高并发的重删技术以提高数据吞吐率。为了适应数据中心的多流数据存储,基于多流排序索引的重删技术得到初步研究,具有易扩展、并行度高的特点,能够极大地提高吞吐率。在此基础上进行研究分析,我们发现多流排序索引重删算法存在着以下两个问题:1、多个客户端之间资源分配不均,可能导致单个客户端性能下降;2、多流并行重删使指纹过于分散,破坏了数据流的局部性,从而影响了存储数据的吞吐率。对此,我们提出相应算法有效解决这些问题,完善排序索引结构,进一步优化重删性能。具体研究内容如下:1)提出了一种基于指纹分布的指纹检重调度算法。首先,通过实验获取部分数据流读取的指纹页信息,分析数据流在指纹索引表上的指纹分布类型,以及不同的指纹分布类型的数据流出现时间延迟的长短。然后,利用数据流的指纹大小预测数据流的指纹分布类型设计分类器。接下来,根据预测的指纹分布类...
【文章来源】:天津理工大学天津市
【文章页数】:45 页
【学位级别】:硕士
【部分图文】:
重复数据删除基本流程
整个分布式重复数据删除系统的架构(如图 2-2 所示)主要由应用服务器、数据重删服务器和存储服务器三部分组成。应用服务器的主要模块包括用户服务接口、数据存储服务和存储代理[36-38]。用户服务接口和存储代理通常成对部署在相同的物理节点,以减少不必要的网络通信开销。当用户发起存储任务时,由存储代理根据负载均衡器向相应的数据重删服务器发送任务请求,在任务完成后接收结果。在本地存储的数据包括文件级和数据分块的指纹,以及每个存储任务的存储清单。数据存储服务器提供了数据存储的功能,通过存储服务接口一方面提供数据块的存储操作;另一方面提供数据恢复的读取操作。数据存储以容器为单位进行操作,包括多个逻辑上连续的数据块。通过这种连续存储保存了备份数据流的内容局部性。重复数据删除服务器中主要包括数据缓存、数据指纹索引和服务接口等功能模块服务接口一方面对上层的应用服务器提供功能接口,另一方面对下层的数据存储服务器提供存储接口。其中数据缓存,包含了最近访问的数据容器,同时在内存中保存了备份数据流的局部性,这样可以减少和避免数据块的重复数据检测(指纹检测)和相似数据检测带来的访问磁盘索引次数。数据指纹索引用来检索数据块的指纹,从而实现数据块的重删操作。
第三章 基于指纹分布的检重调度算法重删效率。然而,我们无法提前知道数据流的指纹分布范围,不能准确推出谁会出迟,以及怎样调整能缓解延迟。一个值得思考的问题是:怎样推测哪些数据流会出迟,以及是在哪一处出现延迟?本文设计了一个分类器,它能利用数据流的一些基息预测数据流在指纹索引表中的指纹分布状况。图 3-1 描述了重删系统的指纹检索过程。服务器接收每个客户端传送过来的有序流。数据流被客户端分割成块,为每一个块生成一个指纹,构成指纹流。指纹用于块之间的比较。指纹索引表包含了系统中已有数据块的指纹,并有序存于磁盘。指引表被分割成页,每个页的大小固定。系统一次从磁盘中读取一个指纹页,数据流检重。当所有数据流都发出读取指纹页的请求时,将下一个指纹页读入内存。若数的数据块已经存在于系统中,则无需再次存储。剔除重复数据块后,将剩下的数据入磁盘。分类器用来分析数据流的指纹分布特点,归类指纹流。调度器从分类器处分类结果,结合每个数据流的请求,决策读取哪一个指纹页。
本文编号:3123083
【文章来源】:天津理工大学天津市
【文章页数】:45 页
【学位级别】:硕士
【部分图文】:
重复数据删除基本流程
整个分布式重复数据删除系统的架构(如图 2-2 所示)主要由应用服务器、数据重删服务器和存储服务器三部分组成。应用服务器的主要模块包括用户服务接口、数据存储服务和存储代理[36-38]。用户服务接口和存储代理通常成对部署在相同的物理节点,以减少不必要的网络通信开销。当用户发起存储任务时,由存储代理根据负载均衡器向相应的数据重删服务器发送任务请求,在任务完成后接收结果。在本地存储的数据包括文件级和数据分块的指纹,以及每个存储任务的存储清单。数据存储服务器提供了数据存储的功能,通过存储服务接口一方面提供数据块的存储操作;另一方面提供数据恢复的读取操作。数据存储以容器为单位进行操作,包括多个逻辑上连续的数据块。通过这种连续存储保存了备份数据流的内容局部性。重复数据删除服务器中主要包括数据缓存、数据指纹索引和服务接口等功能模块服务接口一方面对上层的应用服务器提供功能接口,另一方面对下层的数据存储服务器提供存储接口。其中数据缓存,包含了最近访问的数据容器,同时在内存中保存了备份数据流的局部性,这样可以减少和避免数据块的重复数据检测(指纹检测)和相似数据检测带来的访问磁盘索引次数。数据指纹索引用来检索数据块的指纹,从而实现数据块的重删操作。
第三章 基于指纹分布的检重调度算法重删效率。然而,我们无法提前知道数据流的指纹分布范围,不能准确推出谁会出迟,以及怎样调整能缓解延迟。一个值得思考的问题是:怎样推测哪些数据流会出迟,以及是在哪一处出现延迟?本文设计了一个分类器,它能利用数据流的一些基息预测数据流在指纹索引表中的指纹分布状况。图 3-1 描述了重删系统的指纹检索过程。服务器接收每个客户端传送过来的有序流。数据流被客户端分割成块,为每一个块生成一个指纹,构成指纹流。指纹用于块之间的比较。指纹索引表包含了系统中已有数据块的指纹,并有序存于磁盘。指引表被分割成页,每个页的大小固定。系统一次从磁盘中读取一个指纹页,数据流检重。当所有数据流都发出读取指纹页的请求时,将下一个指纹页读入内存。若数的数据块已经存在于系统中,则无需再次存储。剔除重复数据块后,将剩下的数据入磁盘。分类器用来分析数据流的指纹分布特点,归类指纹流。调度器从分类器处分类结果,结合每个数据流的请求,决策读取哪一个指纹页。
本文编号:3123083
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3123083.html