当前位置:主页 > 科技论文 > 计算机论文 >

重复数据删除关键技术优化研究及SRC路由协议设计

发布时间:2018-09-10 06:30
【摘要】:数据量的爆炸式增长以及海量数据的大规模集中使得数据重复所导致的空间浪费问题越来越严重,这促使了重复数据消除技术的出现和发展。重复数据删除概念很简单,如果做一分钟“电梯演讲”:一本浩瀚的大不列颠百科丛书有4400万个字符,共计3万多英文单词,所有的这一切都是由简单的26个英文字母构成。海量数据高达EB级别,重复数据删除技术是发现海量数据中的“字母”,并将数据以“字母”的形式构成,将重复的数据进行删除以获得更好的存储空间性价比。 目前,重复数据删除方面的研究工作已经在消冗率提升、性能优化以及分布式路由算法等方面取得了一系列有价值的成果,有效地推动了该技术的应用。本文从研究热点与瓶颈出发,主要研究面向服务质量的分布式重复数据删除系统,面向服务质量就需要支持服务质量的可调节,研究目标是建立一种基于多重策略设计及优化的重复数据删除技术体系。 首先,本文重点研究了重复数据删除的技术体系、关键技术和关键指标,以此建立重复数据删除原型系统,其中消冗引擎作为重复数据删除技术的关键核心,包括路由算法、数据块仓库、并行流水线控制、网络通讯规约。在此基础上对关键技术的模型进行分析,分析内容包括索引模型分析、数据模型分析、性能模型分析,并从理论角度进行验证。其次,路由算法是分布式重复数据删除存储系统中的关键技术,但现有的路由算法无法满足分布式系统在消冗效率、数据迁移及集群弹性上的要求,因此,本文设计了一种基于Chord的相似性路由检测算法SRC(Similarity Routing Based on Chord),并从理论角度完成算法的收敛性、一致性证明,进一步详述了SRC路由算法的三个阶段。最后,从三种关键技术的模型分析结果出发,提出具体技术策略改进、优化方案,其中包括索引的分级优化、基于数据价值的迁移优化、基于读请求重组的性能优化。 在系统实验过程中,搭建了分布式集群环境,并选取测试数据集及实验工具,完成读写并发响应时间测试、集群读写能力测试、路由算法负载均衡测试、节点容错测试等。经实验验证,对于分布式重复数据删除系统中的关键技术策略的优化及SRC路由算法的设计,明显地克服了原有技术体系中的热点瓶颈及性能缺陷,多角度、深层次、宽领域的完成对重复数据删除关键技术的研究,进一步提高重复数据删除技术服务质量,推进以重复数据删除技术为中心的绿色存储理念在云存储概念中的进一步应用。
[Abstract]:The explosive growth of data volumes and massive concentration of data have led to a growing waste of space caused by data duplication, prompting the emergence and development of duplicate data elimination techniques. A million characters, more than 30,000 English words, all of which are made up of 26 simple English letters. Massive data is up to EB level, and duplicate data deletion technology is to discover the "letters" in massive data, and to delete duplicate data in the form of "letters" to achieve better storage space. Price ratio.
At present, the research work on duplicate data deletion has made a series of valuable achievements in the aspects of redundancy reduction, performance optimization and distributed routing algorithm, which effectively promote the application of this technology. Quality of Service Oriented (QoS-Oriented) needs to support the adjustability of QoS. The research goal is to establish a repetitive data deletion technology architecture based on multiple strategy design and optimization.
Firstly, this paper focuses on the technical architecture, key technologies and key indicators of duplicate data deletion, and establishes a duplicate data deletion prototype system. The redundancy engine is the key core of duplicate data deletion technology, including routing algorithm, data block warehouse, parallel pipeline control, network communication protocol. Secondly, routing algorithm is the key technology in distributed duplicate data deletion storage system, but the existing routing algorithm can not meet the efficiency of redundancy elimination, data migration and set. Therefore, this paper designs a Similarity Routing Based on Chord (SRC) routing algorithm based on Chord, and completes the convergence of the algorithm from the theoretical point of view. The consistency proves that the three stages of SRC routing algorithm are further elaborated. Finally, based on the analysis results of the three key technologies, the paper puts forward the three stages of SRC routing algorithm. Specific technical strategy improvements and optimization schemes are proposed, including index hierarchical optimization, data value based migration optimization and reader request reorganization based performance optimization.
In the process of system experiment, the distributed cluster environment is built, and the test data sets and experimental tools are selected to complete the test of read-write concurrent response time, cluster read-write ability, routing algorithm load balancing test, node fault tolerance test and so on. And the design of SRC routing algorithm has obviously overcome the hot bottleneck and performance defect in the original technology system. The research on the key technology of duplicate data deletion has been completed from multi-angle, deep-level and wide-field. The service quality of duplicate data deletion technology has been further improved, and the concept of green storage centered on duplicate data deletion technology has been promoted. Further application of cloud storage concept.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333

【相似文献】

相关期刊论文 前10条

1 陈戈;;重复数据删除充分利用IT预算[J];软件世界;2009年11期

2 ;重复数据删除+VMware DR=提高成本效益[J];微电脑世界;2008年05期

3 徐立洋;;选购重复数据删除方案 软硬兼施剔除鸡肋数据[J];中国计算机用户;2009年08期

4 李刚;;重复数据删除走向“源头”[J];中国计算机用户;2009年16期

5 ;Albireo成就实时重复数据删除技术[J];微电脑世界;2011年02期

6 胡超明;;企业采购指南:重复数据删除技术选型[J];网络与信息;2010年09期

7 ;Nexenta推NEXENTASTOR 3.0:为主存储提供联线重复数据删除[J];电脑与电信;2010年03期

8 李学博;;IBM让数据重复难题成为历史[J];通信世界;2008年36期

9 谢斌鑫;;消灭存储黑洞[J];信息方略;2008年13期

10 dream;刘晖;;删除,,没那么简单[J];电脑迷;2006年03期

相关会议论文 前10条

1 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年

2 杜晓煜;许媛辉;徐良全;郑月慧;;c-src在原始卵泡生长、发育、成熟中的作用[A];中国生理学会第23届全国会员代表大会暨生理学学术大会论文摘要文集[C];2010年

3 李晓红;朱慧;戚菁;施维;吴信华;陆玉华;鞠少卿;沈爱国;;Src抑制的蛋白激酶C底物在实验性自身免疫性脑脊髓炎中的表达[A];2010’全国肿瘤分子标志及应用学术研讨会暨第五届中国中青年肿瘤专家论坛论文汇编[C];2010年

4 李锴;傅开元;;脊髓小胶质细胞Src家族激酶活化参与福尔马林损伤引起的慢性痛[A];第八届全国颞下颌关节病学及(牙合)学大会论文汇编[C];2011年

5 崔维成;马岭;;潜水器设计中所要解决的水动力学问题[A];第九届全国水动力学学术会议暨第二十二届全国水动力学研讨会论文集[C];2009年

6 颜建军;林汉同;陈立亮;廖敦明;刘瑞祥;;压铸模CAD关键技术的研究[A];2002年材料科学与工程新进展(下)——2002年中国材料研讨会论文集[C];2002年

7 薛猛;张虹;;流媒体技术的发展及其应用[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年

8 邱雪松;邓宗全;胡明;;月球探测车可展开式悬架的设计分析[A];中国宇航学会深空探测技术专业委员会第二届学术会议论文集[C];2005年

9 饶中浩;张国庆;吴忠杰;傅李鹏;;食品冷藏链关键技术及研究进展[A];第六届全国食品冷藏链大会论文集[C];2008年

10 谭建荣;;数字样机共性关键技术及其应用[A];高档数控机床与制造工艺创新论坛论文集[C];2009年

相关重要报纸文章 前10条

1 刘;Data Domain DD690高效重复数据删除[N];电脑商报;2008年

2 本报记者 郭涛;关于重复数据删除的三道选择题[N];中国计算机报;2009年

3 祁金华;重复数据删除将成存储标准[N];网络世界;2007年

4 王s

本文编号:2233666


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2233666.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bb563***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com