海量数据的重复数据删除中元数据管理关键技术研究
发布时间:2017-12-22 18:29
本文关键词:海量数据的重复数据删除中元数据管理关键技术研究 出处:《清华大学》2015年博士论文 论文类型:学位论文
更多相关文章: 存储 传输 海量数据 重复数据删除 元数据 高性能
【摘要】:随着全球范围内数据的爆炸性增长,重复数据删除技术已经被越来越广泛地应用于存储和网络传输系统。面向存储和网络传输系统的重复数据删除,涉及众多科学问题,针对备份存储系统,本文就其中的元数据管理相关的几个核心问题进行了系统深入的研究,包括重复数据删除中的元数据抑制、缓存、通信问题和自适应的重复数据删除问题,以降低重复数据删除的空间和时间开销,优化重复删除效率和元数据比例、去重吞吐率开销之间的权衡,应对数据快速增长和计算机系统高性能计算的需求。主要的创新成果包括:?针对元数据的高空间开销问题,提出了一种基于滞后哈希划分的元数据抑制算法。一方面,基于数据局部性信息,通过初始哈希合并,动态地将多个连续非重复的小粒度哈希索引合并成一个大粒度哈希索引,从而减少元数据中哈希索引的数目,实现元数据抑制;另一方面,在去重过程中根据检测到的重复数据分片边界,提出了一种对大粒度哈希索引作动态滞后哈希划分的算法,以保证元数据的索引效率。?针对元数据的高磁盘读写开销问题,结合元数据抑制,提出了一种高效率的元数据写缓存算法。通过元数据抑制,可以用相同的内存开销,在写缓存中缓存更多的哈希索引信息,并提高去重过程中元数据的缓存命中率,以及减少去重过程中的磁盘访问操作,从而显著提高系统的去重吞吐率。?针对广域网中两个节点之间作基于重复数据删除的数据传输场景下,元数据的高通信开销问题,结合元数据抑制,提出了一种元数据反馈算法。基于数据局部性信息,接收端向发送端反馈必要的元数据,减少网络节点间重复查询和应答带来的时间开销,提高网络节点间的去重吞吐率。?针对重复数据删除的高系统资源开销问题,提出了一个自适应的重复数据删除框架和一个启发式数据分块均匀跳跃算法。在去重过程中,自适应地“跳过”重复可能性比较低的数据分块,减少重复数据删除的空间和时间开销,优化重复删除效率和元数据比例、去重吞吐率开销之间的权衡。
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【参考文献】
相关期刊论文 前1条
1 朱锐;秦磊华;周敬利;郑寰;;Using multi-threads to hide deduplication I/O latency with low synchronization overhead[J];Journal of Central South University;2013年06期
,本文编号:1320575
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1320575.html