当前位置:主页 > 科技论文 > 计算机论文 >

云存储中集群重复数据删除系统的研究与设计

发布时间:2018-05-03 22:18

  本文选题:云存储 + 重复数据删除技术 ; 参考:《东北大学》2014年硕士论文


【摘要】:随着大数据时代的到来,数据已呈爆炸式的增长,海量数据的存储已成为数据中心的首要问题,重复数据大量存在于信息处理与存储的各个环节中,如文件系统、邮件附件、web对象以及操作系统与应用软件中。传统的数据保护技术如周期备份、版本控制、快照等更是加速了重复数据的增长,导致网络带宽与存储资源的消耗以及存储成本的增加。为了提高存储资源利用率,降低数据管理成本,重复数据删除技术的提出与应用已经成为目前企业与数据中心的研究热点。云存储服务具有高可靠性、高通用性、高扩展性及大容量存储等特点,因此对云存储技术的研究不仅紧跟IT技术发展的趋势,而且具有较高的应用价值。在云存储环境中构建大规模、高性能、分布式重删系统,具有很大的优势与挑战。本文在云存储环境中设计了一套在线的集群重删系统架构,并在数据路由问题、索引查询优化问题等方面进行了相关研究,主要完成工作有:(1)基于开源的HDFS分布式文件系统,以集群重复数据删除技术为基础,设计并实现了具有重复数据删除功能的分布式文件系统H-Dedup。根据重复数据删除技术的特征,合理设计系统架构与软件功能模块,使得重复数据删除技术有效融入集群存储架构中。(2)设计面向重删的局部相似路由算法,基于数据相似理论,以超块粒度为路由单位,并对超块进行采样,选取少量特征指纹,以有状态路由方式进行路由匹配,减少网络带宽消耗,快速定位存储位置。使得分布式存储系统在保持较高的存储性能以及吞吐率的同时,快速定位存储节点并取得较高的数据去重率。(3)为了缓解索引查询过程中磁盘瓶颈问题,设计了基于内存的相似索引表,进行数据局部去重,以避免出现大量的磁盘随机读写现象。根据数据的局部性特点设计了全局LRU缓存,最大程度维护和利用数据的局部性,减少磁盘访问次数;为了弥补单节点内低去重率问题,设计了基于访问频率的容器热点指纹索引,提升单点内的数据去重率。
[Abstract]:With the arrival of big data era, the data has been explosive growth, the storage of massive data has become the primary problem of the data center, repeated data in all aspects of information processing and storage, such as file systems, E-mail attachment web object and operating system and application software. Traditional data protection techniques, such as periodic backup, version control, snapshot, etc, accelerate the growth of repeated data, resulting in the consumption of network bandwidth and storage resources as well as the increase of storage cost. In order to improve the utilization of storage resources and reduce the cost of data management, the proposed and applied repeated data deletion technology has become the research hotspot of enterprises and data centers. Cloud storage service has the characteristics of high reliability, high versatility, high expansibility and large capacity storage, so the research of cloud storage technology not only follows the development trend of IT technology, but also has high application value. Building large scale, high performance and distributed redelete system in cloud storage environment has great advantages and challenges. In this paper, an online cluster redelete system architecture is designed in cloud storage environment, and related research on data routing problem, index query optimization problem and so on is carried out. The main work is: 1) Open source HDFS distributed file system. Based on the technology of repeated data deletion in cluster, a distributed file system H-Dedup. which has the function of deleting repeated data is designed and implemented. According to the characteristics of repeated data deletion technology, the system architecture and software function module are designed reasonably, so that the duplicate data deletion technology can be effectively integrated into the cluster storage architecture. (2) the local similar routing algorithm for redelete is designed, which is based on the data similarity theory. The super-block granularity is taken as the routing unit and the super-block is sampled and a small number of characteristic fingerprints are selected to match the route in a stateful routing mode. The bandwidth consumption of the network is reduced and the storage location is quickly located. In order to alleviate the disk bottleneck problem in the process of index query, distributed storage systems maintain high storage performance and throughput, and quickly locate storage nodes and obtain high data removal rate. A similar index table based on memory is designed to avoid random reading and writing of a large number of disks. According to the local characteristic of the data, the global LRU cache is designed to maintain and utilize the locality of the data to the maximum extent, to reduce the number of disk access, in order to make up for the problem of low weight removal rate in a single node. A container hot spot fingerprint index based on access frequency is designed to improve the data removal rate in a single point.
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333

【相似文献】

相关期刊论文 前10条

1 ;重复数据删除可实现25:1压缩[J];每周电脑报;2007年01期

2 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[J];计算机研究与发展;2011年S1期

3 Eric Bassier;;应对数据增长的重磅武器——重复数据删除技术[J];计算机与网络;2013年06期

4 于丹;;昆腾进入重复数据删除市场[J];每周电脑报;2007年09期

5 卢敏;;“零距离”重复数据删除[J];软件世界;2008年11期

6 卢敏;;点亮“重复数据删除”[J];软件世界;2008年06期

7 徐立洋;;选购重复数据删除方案 软硬兼施剔除鸡肋数据[J];中国计算机用户;2009年08期

8 邢延刚;;删除重复值我有妙法[J];电脑迷;2009年09期

9 李刚;;重复数据删除走向“源头”[J];中国计算机用户;2009年16期

10 雷赫;;重复数据删除技术方案选型 删除冗余 优化存储[J];中国计算机用户;2009年23期

相关会议论文 前3条

1 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年

2 杨廷梧;;基于重复数据删除的靶场试验信息存储技术[A];2009年西部光子学学术会议论文摘要集[C];2009年

3 肖钧;黄亮;;虚拟化搭配去重,双剑合璧更给力[A];2011年CAD/CAM学术交流会议论文集[C];2011年

相关重要报纸文章 前10条

1 本报记者 张伟;重复数据删除能被扶正吗[N];中国计算机报;2008年

2 王琨月;重复数据删除不该忽视弱点[N];网络世界;2008年

3 本报记者 郭涛;基于硬件的重复数据删除效率更高[N];中国计算机报;2009年

4 朱皎;重复数据删除技术渐成主流[N];电脑商报;2009年

5 邢小萍;重复数据删除技术渐入佳境[N];网络世界;2009年

6 本报记者 刑小萍;重复数据删除市场迎来开门红[N];网络世界;2010年

7 清水 编译;部署重复数据删除[N];计算机世界;2010年

8 编译 张磊;谁在拖重复数据删除的后腿[N];中国计算机报;2009年

9 本报记者 郭涛;重复数据删除2.0追求“双高”[N];中国计算机报;2012年

10 编译 沈建苗;你果真需要重复数据删除技术吗[N];计算机世界;2013年

相关博士学位论文 前10条

1 林彬;主存储服务系统中高I/O性能的重复数据删除技术研究[D];国防科学技术大学;2014年

2 阎芳;重复数据删除系统数据组织研究[D];北京理工大学;2015年

3 周炳;海量数据的重复数据删除中元数据管理关键技术研究[D];清华大学;2015年

4 王国华;高效重复数据删除技术研究[D];华南理工大学;2014年

5 王灿;基于在线重复数据消除的海量数据处理关键技术研究[D];电子科技大学;2012年

6 付印金;面向云环境的重复数据删除关键技术研究[D];国防科学技术大学;2013年

7 周正达;信息存储系统中重复数据删除技术的研究[D];华中科技大学;2012年

8 杨天明;网络备份中重复数据删除技术研究[D];华中科技大学;2010年

9 朱锐;重复数据删除技术中的并行性能优化算法研究[D];华中科技大学;2013年

10 叶鹏迪;云存储系统资源管理关键技术研究[D];北京邮电大学;2014年

相关硕士学位论文 前10条

1 张明月;客户端加密重复数据删除机制的研究[D];西安电子科技大学;2014年

2 黄可;重复数据可删除的云数据审计协议的研究[D];电子科技大学;2015年

3 王振宇;安全云存储中重复数据删除机制研究[D];南京邮电大学;2015年

4 李志然;云存储中集群重复数据删除系统的研究与设计[D];东北大学;2014年

5 王珂;一种基于代理重加密的安全重复数据删除机制的研究[D];北京邮电大学;2012年

6 沈瑞清;云存储中避免重复数据存储机制研究[D];云南大学;2013年

7 石俊杰;基于云存储的重复数据删除文件系统设计与实现[D];华中科技大学;2013年

8 胡盼盼;在线重复数据删除技术的研究与实现[D];华中科技大学;2011年

9 曾涛;重复数据删除技术的研究与实现[D];华中科技大学;2011年

10 蔡博;基于MBasedSWC-Varsize算法的重复数据消除技术研究[D];电子科技大学;2012年



本文编号:1840330

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1840330.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户22606***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com