分布式存储系统中数据再生策略研究
本文选题:分布式存储系统 切入点:数据再生 出处:《复旦大学》2012年硕士论文 论文类型:学位论文
【摘要】:分布式存储系统通过利用大量存储节点提供海量数据存储服务。分布式存储系统需保存冗余数据,从而在有存储节点失效的情况下维持数据的完整性。为补偿存储节点失效造成的数据损失,当有存储节点失效时,应在系统中另一节点中再生其保存的数据。与保存副本数据相比,由MDS编码生成的冗余数据能够提供更高的对节点失效的抵抗能力,但典型的MDS编码在再生过程中的传输开销远高于副本数据。在MDS编码中,再生码能够达到存储开销和再生时网络带宽开销间的最优折衷曲线。目前对于存储编码及相应再生开销的研究集中于最小化再生时的网络带宽开销,但未考虑到实际再生中的时间及参与节点等开销。 本文在不牺牲数据完整性的前提下,通过理论分析和基于真实数据的仿真,研究了提高再生过程性能的优化设计方案。我们首先回顾了冗余数据及其维持方面的工作进展。接下来,我们通过利用网络中不同链路上的带宽异质性,提出一种树形拓扑再生过程,显著降低了再生时间。进一步的,在对可用带宽非对称链路进行建模的基础上,本文提出了基于多棵树并行传输的再生过程。另一方面,基于再生过程中参与节点数量对再生效率的影响,我们通过将多个节点的再生过程进行流水线化处理,从而降低每轮再生过程中的参与节点数量。通过分析可知,流水线再生过程能够降低再生过程中所需时间及网络带宽开销,同时不牺牲数据完整性,且其要求的额外存储开销是低且实际的。我们的工作表明,流水线再生过程能够支持随机线性编码以及再生码,并支持立即修复和惰性修复。
[Abstract]:Distributed storage systems provide massive data storage services by using a large number of storage nodes. In order to compensate for the loss of data caused by the failure of the storage node, when there is a failure of the storage node, the integrity of the data is maintained. The stored data should be regenerated in another node in the system. The redundant data generated by the MDS code can provide a higher resistance to node failure than to save replica data. But typical MDS codes have much more transmission overhead than replica data during reproduction. In MDS coding, The regenerative code can achieve the optimal tradeoff curve between the storage overhead and the network bandwidth overhead when regenerated. At present, the research on the storage coding and the corresponding reproducing overhead is focused on minimizing the network bandwidth overhead when regenerated. However, it does not take into account the time of actual regeneration and the cost of participating nodes. In this paper, without sacrificing the integrity of data, through theoretical analysis and simulation based on real data, The optimal design scheme for improving the performance of regeneration process is studied. We first review the progress of redundant data and its maintenance. Then, we utilize the bandwidth heterogeneity of different links in the network. A tree topology regeneration process is proposed, which reduces the regeneration time significantly. Furthermore, based on the modeling of asymmetric links with available bandwidth, this paper proposes a regeneration process based on parallel transmission of multiple trees. Based on the effect of the number of participating nodes on regeneration efficiency during regeneration, we reduce the number of participating nodes in each round of regeneration by treating the regeneration process of multiple nodes with pipeline. Pipeline regeneration process can reduce the time and network bandwidth cost of the regeneration process without sacrificing data integrity, and the additional storage cost required is low and practical. Our work shows that, Pipeline regeneration process can support random linear coding and regenerative code, and support immediate repair and inert repair.
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 ;廉价、高效、稳定 微软新一代分布式存储系统[J];新电脑;2006年06期
2 陈],殷新春;并行程序设计中的消息传递机制[J];扬州大学学报(自然科学版);2001年04期
3 杨_g剑;林波;;分布式存储系统中一致性哈希算法的研究[J];电脑知识与技术;2011年22期
4 田荣华;卢显良;侯孟书;王晓斌;;P2P分布式存储系统[J];计算机科学;2007年06期
5 王文丰;;一种基于遗传算法的副本优化问题求解方法[J];科技经济市场;2011年05期
6 刘翔;汪海玲;;分布式存储中的一种数据放置策略[J];计算机与数字工程;2009年05期
7 朱庆;周艳;;分布式空间数据存储对象[J];武汉大学学报(信息科学版);2006年05期
8 黎平国;陈路平;陈红琴;蒋若珊;;基于P2P的数字图书馆资源分布式存储方案[J];科技广场;2009年05期
9 朱恒业;付丹丹;;基于分布式存储的数字图书馆系统[J];电脑学习;2011年01期
10 苏勇;周敬利;姜明华;刘钢;;分布式存储系统中元数据系统的研究与设计[J];计算机工程与应用;2006年20期
相关会议论文 前4条
1 赵辉;何连跃;;基于异构分布式存储系统的动态反馈负载均衡技术[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 周天彤;薛磊;郑东;童天浩;;基于Reed-Solomon编码的容灾存储系统性能分析[A];第十一届保密通信与信息安全现状研讨会论文集[C];2009年
3 周松;王意洁;;EXPyramid:一种灵活的基于阵列结构的高容错低修复成本编码方案[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
4 刘群;冯丹;;基于层次结构的元数据动态管理方法的研究[A];第15届全国信息存储技术学术会议论文集[C];2008年
相关重要报纸文章 前5条
1 本报记者 黄伟敏;带给你惊喜和快乐[N];计算机世界;2002年
2 ;云计算的退出策略[N];网络世界;2009年
3 ;谷歌翻译:凭什么更酷更聪明[N];中国电脑教育报;2011年
4 苗子墨;迅雷离线下载的诱惑[N];电脑报;2010年
5 本报记者 戈清平;云计算加速落地 云存储成“下一个金矿”[N];中国高新技术产业导报;2011年
相关博士学位论文 前10条
1 王禹;分布式存储系统中的数据冗余与维护技术研究[D];华南理工大学;2011年
2 朱云锋;分布式存储系统中基于纠删码的容错技术研究[D];中国科学技术大学;2014年
3 刘霖;分布式存储系统中的能耗管理策略研究[D];华南理工大学;2013年
4 万亚平;基于P2P的分布式存储系统可靠性及故障检测研究[D];华中科技大学;2010年
5 黄震;大规模分布式存储系统中数据冗余技术研究[D];国防科学技术大学;2012年
6 姚杰;分布式存储系统文件级连续数据保护技术研究[D];华中科技大学;2009年
7 宋玮;分布式存储系统中的节点自主性问题研究[D];华南理工大学;2010年
8 牛中盈;并行文件系统安全性研究[D];华中科技大学;2010年
9 王宁;网络编码在无线通信中的应用研究[D];北京邮电大学;2009年
10 吴伟;海量存储系统元数据管理的研究[D];华中科技大学;2010年
相关硕士学位论文 前10条
1 王伟娜;分布式存储系统中容错子系统的设计与实现[D];东北大学;2008年
2 王秀芬;对等网络分布式存储系统的研究[D];天津大学;2010年
3 张凯;分布式存储系统中节点修复问题研究[D];西南交通大学;2012年
4 冯光曦;分布式存储系统安全关键技术研究与实现[D];华中科技大学;2011年
5 朱锐;基于网络编码的分布式存储系统安全性研究[D];西安电子科技大学;2014年
6 刘飞;基于云计算的分布式存储系统的研究和应用[D];西安工业大学;2012年
7 张明;基于网络编码的一种分布式存储系统应用设计[D];南京理工大学;2013年
8 孙程;基于纠删码的分布式存储系统的设计与实现[D];电子科技大学;2010年
9 刘伯睿;海量数据小文件分布式存储系统的设计与实现[D];湖南大学;2013年
10 廖和敏;网络编码在分布式存储系统中运用的研究[D];西南交通大学;2014年
,本文编号:1621649
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1621649.html