当前位置:主页 > 科技论文 > 计算机论文 >

数据去重与垃圾数据删除策略的设计与实现

发布时间:2017-09-03 20:47

  本文关键词:数据去重与垃圾数据删除策略的设计与实现


  更多相关文章: 分布式存储系统 重复数据删除 无效数据回收 布隆过滤器


【摘要】:伴随着我国下一代无线移动网络的进程,支撑各种各样电信业务的移动控制网络对底层的存储系统的支持提出了更高的要求。如今日益增加的用户数量和数据流量已经让传统的存储方案显得捉襟见肘。随着这种趋势的到来,如何有效的利用存储空间成为亟待解决的问题。本文首先对国内外主流的几个分布式存储系统进行介绍和分析,并分析分布式系统需要面对的问题和解决方案。在此基础上设计并实现了面向海量用户和海量文件、基于数据块级别数据去重的分布式文件系统CStore,本文主要设计并实现了基于CStore系统的数据回收系统。CStore系统是典型的分布式存储系统,它采用元数据和数据流分离的设计方案,将系统的元数据和文件数据分别存储在不同的集群中,客户端分别访问这些数据关于它们各自的管理和优化。系统的资源定位基于一种两级的哈希映射方案,以桶为单位的负载均衡和副本策略提高系统的可靠性,同时使得系统具有很好的可扩展性。数据去重是CStore系统的主要特点之一,它采用在线的基于数据块级别的重复数据删除策略,这就要求用户在上传文件的时候将整个文件划分成多个数据块,然后分别上传。这样的策略可以节约大量的数据存储空间,提高用户体验,但是同样带来了数据删除的难题。在CStore数据去重的总体架构的基础上,设计并实现了能够以在线或者离线方式执行无效数据删除的垃圾数据删除系统,可以高效并且准确的判断无效数据,进一步节省存储资源。垃圾数据回收系统用于清理系统中没有任何文件引用的无效数据块。该系统基于Bloom Filter算法,在元数据服务器集群数据服务器集群上分别进行相应的操作,由一个中心控制节点负责全局的监控。在容错方面,通过与中心节点建立的心跳连接可以有效得检测到失效的节点,进而进行任务的重新分发,并且该系统为管理员提供了可视化界面,方便管理员控制与管理。本文最后对垃圾数据回收系统的功能和性能进行了测试,证明了它可以正确执行所需功能并保证了其可靠性和准确性。
【关键词】:分布式存储系统 重复数据删除 无效数据回收 布隆过滤器
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
  • 摘要5-6
  • ABSTRACT6-11
  • 第一章 绪论11-21
  • 1.1 背景介绍11-12
  • 1.2 国内外研究现状12-19
  • 1.2.1 GFS12-14
  • 1.2.2 Haystack文件系统14-17
  • 1.2.3 Ocean Base数据库存储系统17-19
  • 1.3 主要研究内容19-20
  • 1.4 论文组织20-21
  • 第二章 相关理论与技术基础21-31
  • 2.1 分布式存储系统21-22
  • 2.2 数据分布方式22-25
  • 2.2.1 哈希方式划分22-23
  • 2.2.2 顺序分布23-24
  • 2.2.3 一致性哈希分布24-25
  • 2.3 可扩展性25-26
  • 2.4 负载均衡26-27
  • 2.5 基本副本协议27-29
  • 2.5.1 中心化副本控制协议27-28
  • 2.5.2 去中心化副本控制协议28-29
  • 2.6 CAP理论29-30
  • 2.7 本章小结30-31
  • 第三章 CStore存储系统的设计31-41
  • 3.1 系统目标31-32
  • 3.2 系统设计方案32-35
  • 3.2.1 可用性32
  • 3.2.2 可扩展性32-33
  • 3.2.3 性能33-35
  • 3.3 CStore存储系统架构35-39
  • 3.3.1 元数据节点功能设计36-37
  • 3.3.2 系统配置管理节点功能设计37-38
  • 3.3.3 数据服务节点功能设计38-39
  • 3.4 典型下载流程39-40
  • 3.5 本章小结40-41
  • 第四章 垃圾数据回收系统的设计41-56
  • 4.1 理论基础41-45
  • 4.1.1 重复数据删除41-44
  • 4.1.2 布隆过滤器44-45
  • 4.2 需求分析45-46
  • 4.3 概要设计46-48
  • 4.4 桶的设计48-50
  • 4.4.1 SU中的桶48-49
  • 4.4.2 MU中的桶49-50
  • 4.4.3 垃圾数据回收系统中的桶50
  • 4.5 容错与恢复50-51
  • 4.6 物理存储模型51-53
  • 4.6.1 元数据物理存储模型51-53
  • 4.6.2 数据块存储模型53
  • 4.7 通信协议的设计53-55
  • 4.8 本章小结55-56
  • 第五章 垃圾数据回收系统的实现56-70
  • 5.1 模块之间的交互56-58
  • 5.2 全局控制模块的实现58-63
  • 5.2.1 通信模块的实现58-59
  • 5.2.2 定时器模块的实现59-61
  • 5.2.3 GC模块状态机61-62
  • 5.2.4 GC模块执行流程62-63
  • 5.3 位图生成模块与数据判断模块63-65
  • 5.4 位图生成模块的业务流程65-67
  • 5.5 数据判断模块的业务流程67-68
  • 5.6 管理员界面的实现68-69
  • 5.7 本章小结69-70
  • 第六章 系统测试与分析70-78
  • 6.1 测试环境准备70-72
  • 6.2 系统功能测试72-75
  • 6.2.1 基本功能测试72-74
  • 6.2.2 异常处理测试74-75
  • 6.3 系统性能测试75-77
  • 6.4 本章小结77-78
  • 第七章 结论与展望78-80
  • 致谢80-81
  • 参考文献81-83

【相似文献】

中国期刊全文数据库 前8条

1 舒涵;;怎能让这样的“数字说话”[J];中国计算机用户;2007年22期

2 徐海斌;全面清除Windows垃圾[J];中国电子与网络出版;2003年03期

3 魏s,

本文编号:787256


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/787256.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4e637***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com