基于数据块级的多层存储调度策略研究
发布时间:2020-07-13 19:40
【摘要】:由于全球数据量的呈指数性增长,各大存储服务商担负着巨大的存储压力。分层存储已经成为同时实现高效访问和廉价存储的必要方案。但单一的分层存储系统面临着重复数据的问题,一方面,呈指数增长的重复数据不断降低分层存储系统在效率和成本上的收益,另一方面,目前重复数据删除技术与分层存储技术的简单叠加关系使两者无法充分发挥各自的优势。本文结合分层存储和重复数据删除技术的优点,提出一种基于变长数据块的重复数据感知分层存储模型DAMS。为了进行更有效的缓存替换,我们分析了ARC算法的缺陷,提出一种高效、可变、兼容的缓存替换算法D-ARC,适宜应用在DAMS模型中。作为可行性验证,本文基于DAMS模型实现了一种宜广泛应用的存储系统实例Store X,Store X使用D-ARC进行缓存替换,并在细节技术上有创新实现,如引入数据块长度以降低hash冲突率,联合存储活跃度信息和数据指纹信息以节省空间。最后,通过两个测试工具生成随机数据,在不同参数下对Store X进行全面评估,对D-ARC算法做出对比实验。本文针对高效、大容量存储的需求,进行深入研究,具体工作内容如下。(1)分析数据量过大的问题,归纳该问题的研究现状,总结出增量数据访问局部性、大量重复数据的两个基本特点,以此作为研究的突破点。(2)提出基于变长数据块的重复数据感知分层存储模型DAMS,模型通过桥梁结构结合了分层存储和重复数据删除的优势,对强关联部分进行重叠,是高效、大容量存储的解决方案。(3)提出D-ARC。通过对ARC缓存替换算法进行分析,总结出4个缺陷,D-ARC在保留ARC优势的基础上进行了3方面的改进,在小幅提高效率的前提下,具有更高的命中率、可变性和兼容性。(4)在DAMS模型的基础上,实现了可广泛应用的存储系统实例Store X。Store X使用D-ARC进行数据调度,涉及数据分割、指纹存储等技术的具体实现,并在实现细节进行创新,如引入数据长度以降低hash冲突率、联合存储数据活跃度信息和数据块指纹以充分利用hash表的优势。(5)分析可能的过拟合,实现重复数据生成工具和模拟读取工具,在可控参数的情况下生成随机测试数据,得出对Store X和D-ARC的全面评估。
【学位授予单位】:中南民族大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP333
【图文】:
图 1.3 数据活跃度的差异层存储由多种具有不同效率、容量、价格等特征的存储设备构成,术使其成为一个整体。对不同存储设备之间的特征进行利用,扬长储设备的特征可以将整个存储器至少分为两个存储层。被频繁访问少的一部分,只需要少量高级存储空间用于存储活跃数据,发挥高存取的优势;下层存储器占据了总空间的大部分,用于存储活跃度挥低速存储器大容量、廉价的优势。将这两个存储层相结合后,大集中在上层存储器,大量存储需求都集中于下层存储器,最终整个率趋近于高速存储器,存储空间和成本趋近于大容量存储器,因此[9, 10]。存替换算法是分层存储维持其效率的根本。在存储器的运行过程中的不断访问模式并不固定,每个数据的活跃度是随时变化的,因此的用途是检查数据活跃度的变化,将活跃度被改变的数据进行迁移处于合适的存储层中[11, 12]。缓存替换算法保持分层存储系统始终性带来的收益。
随机性能 寿命图 2.2 不同类型存储器的特点度策略用于优化计算机程序或维护存储机制而设计的算数据被访问的频率与数据活跃度强关联,数据活处于相对稳定的状态。因此,仅仅对数据进行一存储系统的运行,用户关注的热点会逐渐改变,,原来被忽略的数据可能重新被关注。缓存调度活跃状态,在活跃度被改变时对改变数据进行迁中[26, 30]。用 LRU(Least Recently Used)算法是古老的缓存纪 60 年代。该算法以用户访问数据的时间间隔 的本质是一个队列,当用户访问数据,被访问的。LRU 建立在局部性原理之上,每次替换会换
未协调的用户存储大量冗余
本文编号:2753889
【学位授予单位】:中南民族大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP333
【图文】:
图 1.3 数据活跃度的差异层存储由多种具有不同效率、容量、价格等特征的存储设备构成,术使其成为一个整体。对不同存储设备之间的特征进行利用,扬长储设备的特征可以将整个存储器至少分为两个存储层。被频繁访问少的一部分,只需要少量高级存储空间用于存储活跃数据,发挥高存取的优势;下层存储器占据了总空间的大部分,用于存储活跃度挥低速存储器大容量、廉价的优势。将这两个存储层相结合后,大集中在上层存储器,大量存储需求都集中于下层存储器,最终整个率趋近于高速存储器,存储空间和成本趋近于大容量存储器,因此[9, 10]。存替换算法是分层存储维持其效率的根本。在存储器的运行过程中的不断访问模式并不固定,每个数据的活跃度是随时变化的,因此的用途是检查数据活跃度的变化,将活跃度被改变的数据进行迁移处于合适的存储层中[11, 12]。缓存替换算法保持分层存储系统始终性带来的收益。
随机性能 寿命图 2.2 不同类型存储器的特点度策略用于优化计算机程序或维护存储机制而设计的算数据被访问的频率与数据活跃度强关联,数据活处于相对稳定的状态。因此,仅仅对数据进行一存储系统的运行,用户关注的热点会逐渐改变,,原来被忽略的数据可能重新被关注。缓存调度活跃状态,在活跃度被改变时对改变数据进行迁中[26, 30]。用 LRU(Least Recently Used)算法是古老的缓存纪 60 年代。该算法以用户访问数据的时间间隔 的本质是一个队列,当用户访问数据,被访问的。LRU 建立在局部性原理之上,每次替换会换
未协调的用户存储大量冗余
【参考文献】
相关期刊论文 前3条
1 吴明礼;张宏安;;数据存储技术综述[J];北方工业大学学报;2015年01期
2 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期
3 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
本文编号:2753889
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2753889.html