基于“采集—预测—迁移—反
发布时间:2021-10-11 11:26
硬盘故障是数据中心最主要的故障,严重影响了可靠性.传统的数据容错技术一般都是通过增加数据冗余来实现的,存在缺陷.主动容错技术通过预测硬盘故障提前将数据迁移,成为研究热点.现有技术大多研究硬盘故障预测,缺乏采集、迁移、反馈的研究,难以商用.提出"采集—预测—迁移—反馈"全流程主动容错机制,包括:分时硬盘信息采集方法、滑动窗口记录合并及样本构建方法、多类型硬盘故障预测方法、多盘联合数据迁移方法、预测结果二级验证及快速反馈方法.测试表明:采集硬盘信息对业务影响仅0.96%,硬盘故障预测召回率达94.66%,数据修复时间较传统方法减少55.10%.该工作已在中兴通讯的数据中心稳定商用,满足了主动容错技术在高可靠、高智能、低干扰、低成本、广适用等核心目标.
【文章来源】:计算机研究与发展. 2020,57(02)北大核心EICSCD
【文章页数】:12 页
【文章目录】:
1 概述
1.1 硬盘故障频发并带来灾难性后果
1.2 重新审视硬盘故障
1.3 传统被动容错存在缺陷
1.4 新型主动容错成为研究热点
1.5 本文的主要贡献
2 相关研究
3 主动容错技术
3.1 分时硬盘信息采集方法
3.2 滑动窗口记录合并及样本构建
3.3 多类型硬盘故障预测
3.4 多盘联合数据迁移
3.5 预测结果二级验证及快速反馈
3.6 本节小结
4 实验与结果
4.1 测试采集硬盘信息对前台业务的干扰
4.2 测试硬盘故障预测准确率
4.2.1 面向已采集的硬盘数据进行预测
4.2.2 面向真实场景进行预测
4.2.3 在Backblaze数据集评测
4.3 测试数据修复的速度
4.4 实验小结
5 总结
【参考文献】:
期刊论文
[1]A High-Performance Hierarchical Snapshot Scheme for Hybrid Storage Systems[J]. YU Xiao,TAN Yu’an,ZHANG Changyou,LIANG Chen,Khaled AOURRA,ZHENG Jun,ZHANG Quanxin. Chinese Journal of Electronics. 2018(01)
[2]纠删码存储系统单磁盘错误重构优化方法综述[J]. 傅颖勋,文士林,马礼,舒继武. 计算机研究与发展. 2018(01)
[3]存储系统可靠性预测综述[J]. 李静,王刚,刘晓光,李忠伟. 计算机科学与探索. 2017(03)
[4]云计算环境下的分布存储关键技术[J]. 王意洁,孙伟东,周松,裴晓强,李小勇. 软件学报. 2012(04)
本文编号:3430413
【文章来源】:计算机研究与发展. 2020,57(02)北大核心EICSCD
【文章页数】:12 页
【文章目录】:
1 概述
1.1 硬盘故障频发并带来灾难性后果
1.2 重新审视硬盘故障
1.3 传统被动容错存在缺陷
1.4 新型主动容错成为研究热点
1.5 本文的主要贡献
2 相关研究
3 主动容错技术
3.1 分时硬盘信息采集方法
3.2 滑动窗口记录合并及样本构建
3.3 多类型硬盘故障预测
3.4 多盘联合数据迁移
3.5 预测结果二级验证及快速反馈
3.6 本节小结
4 实验与结果
4.1 测试采集硬盘信息对前台业务的干扰
4.2 测试硬盘故障预测准确率
4.2.1 面向已采集的硬盘数据进行预测
4.2.2 面向真实场景进行预测
4.2.3 在Backblaze数据集评测
4.3 测试数据修复的速度
4.4 实验小结
5 总结
【参考文献】:
期刊论文
[1]A High-Performance Hierarchical Snapshot Scheme for Hybrid Storage Systems[J]. YU Xiao,TAN Yu’an,ZHANG Changyou,LIANG Chen,Khaled AOURRA,ZHENG Jun,ZHANG Quanxin. Chinese Journal of Electronics. 2018(01)
[2]纠删码存储系统单磁盘错误重构优化方法综述[J]. 傅颖勋,文士林,马礼,舒继武. 计算机研究与发展. 2018(01)
[3]存储系统可靠性预测综述[J]. 李静,王刚,刘晓光,李忠伟. 计算机科学与探索. 2017(03)
[4]云计算环境下的分布存储关键技术[J]. 王意洁,孙伟东,周松,裴晓强,李小勇. 软件学报. 2012(04)
本文编号:3430413
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3430413.html