大规模存储系统高可靠性关键技术研究
发布时间:2020-06-05 20:29
【摘要】:互联网环境下,每18个月新产生的数据量等于有史以来数据量之和。信息资源量的爆炸性增长,使人们对存储系统的存储容量、数据信息可用性、I/O性能等方面的要求越来越高。越来越多的大规模存储系统被制造出来并投入使用,其中大量的存储系统是采用性价比优秀的PC来搭建。在这样的大规模存储系统中,各组成部件失效经常发生,并引发存储系统中存储数据的丢失和损坏。因此,随着规模的膨胀,存储系统的可靠性问题变得越来越重要。要确保大规模存储系统的可靠性和数据可用性,就需要对高可靠存储系统涉及的关键技术进行研究。 本文首先给出了一个高可靠存储系统的系统结构,在此基础上,提出了基于数据副本的自适应高可靠布局,适合于存储系统数据容错应用的短LDPC编码,基于失效预测的数据恢复机制PBDR。本文的主要工作有: (1)副本的放置策略涉及到大规模存储系统数据布局的冗余性和公平性。针对副本数据布局中存储系统的可靠性和数据的可用性问题,采用整数规划的形式描述了大规模存储系统中面向不同可靠性等级的存储设备进行数据布局的优化问题,并说明了这个问题是NP难的。进而设计了一种基于贪婪算法的高效数据分布算法,优化了存储节点可靠性的总代价和数据布局的公平性。 (2)为优化存储系统多副本数据布局方案,设计了一个基于Markov模型的衡量系统可靠性的理论模型—VRDL模型(Variable Rank Data Layout模型)。通过VRDL模型可以衡量存储系统关键参数如副本阶数、系统规模、存储节点容量、失效检测延迟等一系列因素对存储系统可靠性的影响,从而为高可靠存储系统的设计提供理论指导。 (3)将纠删码编码理论应用于大规模存储系统的存储节点失效应对策略中,建立了多存储节点环境下的纠删码容错编码模型,提出了一个针对多个存储节点失效场景下的基于纠删码的短LDPC码编码方案。此编码方案在确保大规模存储系统中存储节点数据高可用性的同时,还能提供优于RS码的读写性能。 (4)由于硬盘容量的增长速度快于硬盘I/O传输带宽的增长速度导致了硬盘数据重构时间不断增长。这就使得存储系统的脆弱窗口时间也越来越长,增加了存储系统发生数据丢失的可能性。本文对存储节点组三种数据冗余机制:二路镜像,三路镜像和RAID5镜像构成的存储系统的失效数据恢复机制进行了分析讨论。进一步提出了一种基于失效预测的数据恢复机制PBDR (Prediction Based数据恢复机制,PBDR),在存储设备失效发生前,利用存储系统中空闲的存储节点资源,提前进行数据重构工作,可进一步提高存储系统的可靠性。
【图文】:
2高可靠大规模存储系统理论基础2.1相关概念定义2.1大规模存储系统 (LargeSealeStoragesystem):如图2.1所示,大规模存储系统是由成千上万个部件构成的存储集群,其最显著的特点是规模庞大,整个系统的数据存储容量达数PB、数十PB,乃至数百PB级。大规模存储系统由四个主要部分构成:客户机节点,元数据服务器节点、存储节点,以及连接各节点的各种网络设备(如:路由器,交换机等)。定义2.2客户机节点 (clientNode):客户机节点是指具体负责与用户进行交互的应用服务器。存储系统对外提供的各类具体服务,如电子邮件服务,多媒体服务,web服务等的应用的服务器端的功能都由客户节点提供。客户机节点负责接收用户服务请求
华中科技大学博士学位论文性进行比较,比较结果见图4.4、图4.5和图4.6。由图可见,镜像副本编码方案存储节点组随节点数增多,,二路镜像副本编码方案得到的存储节点组数据可用性要小于其他两种编码方案,如对存储节点可靠性为p=0.6、存储节点数为18的存储节点组,最大距离分隔码编码方案的存储节点组数据可用性为0.8653,三路镜像副本编码方案的存储节点组数据可用性为0.6724,而二路镜像副本编码方案的存储节点组数据可用性为0.2082,再如对存储节点可靠性为p二0.95、存储节点数为18的存储节点组
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP333
本文编号:2698572
【图文】:
2高可靠大规模存储系统理论基础2.1相关概念定义2.1大规模存储系统 (LargeSealeStoragesystem):如图2.1所示,大规模存储系统是由成千上万个部件构成的存储集群,其最显著的特点是规模庞大,整个系统的数据存储容量达数PB、数十PB,乃至数百PB级。大规模存储系统由四个主要部分构成:客户机节点,元数据服务器节点、存储节点,以及连接各节点的各种网络设备(如:路由器,交换机等)。定义2.2客户机节点 (clientNode):客户机节点是指具体负责与用户进行交互的应用服务器。存储系统对外提供的各类具体服务,如电子邮件服务,多媒体服务,web服务等的应用的服务器端的功能都由客户节点提供。客户机节点负责接收用户服务请求
华中科技大学博士学位论文性进行比较,比较结果见图4.4、图4.5和图4.6。由图可见,镜像副本编码方案存储节点组随节点数增多,,二路镜像副本编码方案得到的存储节点组数据可用性要小于其他两种编码方案,如对存储节点可靠性为p=0.6、存储节点数为18的存储节点组,最大距离分隔码编码方案的存储节点组数据可用性为0.8653,三路镜像副本编码方案的存储节点组数据可用性为0.6724,而二路镜像副本编码方案的存储节点组数据可用性为0.2082,再如对存储节点可靠性为p二0.95、存储节点数为18的存储节点组
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP333
【参考文献】
相关期刊论文 前1条
1 刘仲,周兴铭;基于动态区间映射的数据对象布局算法[J];软件学报;2005年11期
本文编号:2698572
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2698572.html