高性能磁盘阵列自修复技术研究
发布时间:2021-07-07 08:43
随着并行计算机体系结构和半导体工艺技术的发展,高性能计算机(HPC)的计算速度已经达到千万亿次量级[1],对应的外围存储容量达到PB量级。以当今单磁盘容量最大为1TB计算,总容量为PB的外围存储系统中的磁盘数量将达到千个的量级。磁盘是机电磁一体的设备,厂家标称的平均无故障工作时间一般在十万小时左右,但实际使用过程中故障率较高,可靠性远低于CPU、主存等纯电子部件。因此,对于高性能计算机系统,磁盘存储系统的可靠性在很大程度上决定了整个系统的可靠性。当前存储系统通过RAID技术提高性能和可靠性。但是目前通用的RAID系统单盘故障时,系统将进行数据重构,这使读数据的时间增加,同时限制了写操作。若两个或者两个以上的磁盘同时故障,则可能导致数据损坏,无法恢复,对核心数据这将是灾难性的损坏。根据在美国加州大学进行的伯克利Tertiary Disk系统项目的统计,部件在故障之前的很长一段时间就会有不正常的情况出现,磁盘故障也是一个渐变的过程。本课题分析了磁盘可靠性工作状态的渐变过程,研究了可监测的磁盘工作参数对磁盘可能发生故障的预警方法和提前替换工作状态不正常的磁盘的方法,以及对被预警故障磁盘实现对...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
磁盘差错引起系统故障本章在分析影响存储系统整体可靠性各重要因素的基础上,结合可靠性理论
统容量、可靠性和速率对于三个基本功能部件的要求很多时候到一个平衡。当前存储系统设计中,系统容量可以通过增加磁速率可以通过多磁盘并行,并采用高性能接口技术实现。只有磁盘固有的低可靠性的限制,很难有质的飞跃。磁盘存储系统故障分布个 GB 级带宽和数十 TB 级存储容量的存储系统的典型构成为内存、磁盘控制器、风扇、磁盘存储介质和电源等。基本结构
差错:由于磁盘内部部件或读写过程出现差错;系统差错:在系统中表现为磁盘丢失,一般源于系统连接器件差错:指系统中出现的局部性差错,表现为系统不能正常工一般起源于协议差错,错误的原因是硬盘驱动器和控制器协的 Bug。,任意一个或者几个低层次的事件可能导致上一级事件发生,的引起存储系统故障的错误类型。靠性理论中故障的层次定义,错误、差错和故障三者的关系如错误引起一个或多个隐藏差错。在服务启动时启动,一直在有效和隐藏两个状态之间循环同它差错。错造成系统提供服务与期望不符时,产生组件故障。 Kanevsky通过对大约 39,000 个分布式商用存储系统,约 1,000 个存放磁盘的机柜长达 44 个月的调查统计,将具体的试后,硬件故障失效和软件故障失效的分布如图 2.4 所示[12]:
【参考文献】:
期刊论文
[1]一种基于S.M.A.R.T的保障RAID数据高可靠性的方法[J]. 刘景宁,饶国林,冯丹. 计算机工程与科学. 2007(05)
[2]磁盘阵列RAID可靠性分析[J]. 陈华英. 电子科技大学学报. 2006(03)
[3]基于双容错编码的DP-RAID数据布局研究[J]. 刘卫平,蔡皖东,任建奇. 西北工业大学学报. 2006(02)
本文编号:3269320
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
磁盘差错引起系统故障本章在分析影响存储系统整体可靠性各重要因素的基础上,结合可靠性理论
统容量、可靠性和速率对于三个基本功能部件的要求很多时候到一个平衡。当前存储系统设计中,系统容量可以通过增加磁速率可以通过多磁盘并行,并采用高性能接口技术实现。只有磁盘固有的低可靠性的限制,很难有质的飞跃。磁盘存储系统故障分布个 GB 级带宽和数十 TB 级存储容量的存储系统的典型构成为内存、磁盘控制器、风扇、磁盘存储介质和电源等。基本结构
差错:由于磁盘内部部件或读写过程出现差错;系统差错:在系统中表现为磁盘丢失,一般源于系统连接器件差错:指系统中出现的局部性差错,表现为系统不能正常工一般起源于协议差错,错误的原因是硬盘驱动器和控制器协的 Bug。,任意一个或者几个低层次的事件可能导致上一级事件发生,的引起存储系统故障的错误类型。靠性理论中故障的层次定义,错误、差错和故障三者的关系如错误引起一个或多个隐藏差错。在服务启动时启动,一直在有效和隐藏两个状态之间循环同它差错。错造成系统提供服务与期望不符时,产生组件故障。 Kanevsky通过对大约 39,000 个分布式商用存储系统,约 1,000 个存放磁盘的机柜长达 44 个月的调查统计,将具体的试后,硬件故障失效和软件故障失效的分布如图 2.4 所示[12]:
【参考文献】:
期刊论文
[1]一种基于S.M.A.R.T的保障RAID数据高可靠性的方法[J]. 刘景宁,饶国林,冯丹. 计算机工程与科学. 2007(05)
[2]磁盘阵列RAID可靠性分析[J]. 陈华英. 电子科技大学学报. 2006(03)
[3]基于双容错编码的DP-RAID数据布局研究[J]. 刘卫平,蔡皖东,任建奇. 西北工业大学学报. 2006(02)
本文编号:3269320
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3269320.html