当前位置:主页 > 科技论文 > 计算机论文 >

基于改进随机森林的硬盘故障预测方法研究

发布时间:2021-07-11 14:02
  随着工业物联网、云存储、云计算、大数据等新兴信息技术的出现和迅猛发展,全球数据总量呈现指数级的增长,全球接近90%的数据存储在数据中心的硬盘中。由于硬盘自身结构和数据存储机制,硬盘一旦出现故障,硬盘中存储的数据可能永久丢失,给企业和个人带来严重的损失。虽然数据的冗余备份机制可以预防硬盘故障时数据的丢失,但是增加了数据存储的成本,对硬盘进行故障预测成为目前最主流的方法。硬盘的S.M.A.R.T.(Self-Monitoring,Analysis and Reporting Technology)技术和数据中心运维技术的发展,为硬盘的故障预测奠定了基础。目前,几乎所有的硬盘都支持S.M.A.R.T.技术,这为硬盘的故障预测提供了数据基础,同时数据中心的运维方式正由自动化运维向基于机器学习方法的智能化运维方向转变,使用机器学习方法进行硬盘故障预测,可以提高硬盘故障预测的准确率,保障数据存储的安全可靠。本文分析了真实数据中心场景下硬盘S.M.A.R.T.数据的特点,同时选择使用改进随机森林算法建立故障预测模型,对硬盘故障进行预测。本文的主要研究工作包括:(1)针对真实数据中心场景下,硬盘S.M... 

【文章来源】:郑州大学河南省 211工程院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于改进随机森林的硬盘故障预测方法研究


一个或多个S.M.A.R.T.属性值大于0的硬盘状态统计图

硬盘故障,预测模型


()tf X为硬盘故障预测模型, 为一种抽象的状态阈值,则硬盘故障预测过程可以定义为公式(2.1)。状态阈值 是一个抽象概念,用于区分正常硬盘和即将故障的硬盘,例如支持向量机中的超平面。当硬盘故障预测模型输出值超过状态阈值时,则表示硬盘即将发生故障,故障预测模型建立的过程实则就是 ()tf X和 的求解过程。FailurefXYesNot ( () )?:(2.1)第三步是硬盘故障预测模型的测试和评价。如图 2.3 所示,硬盘故障预测模型的构建通常是多次训练和优化的结果,并不是一次训练的过程,训练过程中通过对模型中的参数进行多次不同值的选取,并进行不同参数值下模型的预测性能测试,来保证最大程度的使算法训练出模型接近最优。测试过程中使用测试数据集来对在训练数据集上建立的预测模型的性能进行评价,测试过程中通常使用交叉验证的方法,评价的指标包括精确度(Precision)、准确率(accuracy)和召回率(Recall)等,在 2.3.2 节中,本文将对硬盘故障预测的评价指标进行详细介绍。

曲线,曲线,机器学习算法,连线


因此提出 F-值(F measure)来平衡两2.5)所示。F-值越高,表示故障预测模型的预测效ecisioncallecisioncallFmeasurePrRe2PrRe ,许多学者利用 ROC(Receiver Operating Characte学习算法的性能。ROC 曲线是一条画在二维坐标标为假正率(FPR,false positive rate),计算如公率(TPR,true positive rate),计算如公式(2.7)通过设置机器学习算法在获取分类结果时的概率值对应不同的坐标点,如图 2.4 所示是 ROC 曲线 曲线都处于(0,0)和(1,1)连线的上方,如果1,1)连线的下方,则说明分类器的分类效果较差FPTNFPFPR TPFNTPTPR

【参考文献】:
期刊论文
[1]集成学习方法:研究综述[J]. 徐继伟,杨云.  云南大学学报(自然科学版). 2018(06)
[2]RAID技术实现方法和RAID阵列[J]. 林静.  信息与电脑(理论版). 2018(17)
[3]基于增量式随机森林的燃气负荷预测方法[J]. 钱恒,虞慧群,范贵生.  华东理工大学学报(自然科学版). 2019(01)
[4]面向不平衡数据集的一种精化Borderline-SMOTE方法[J]. 杨毅,卢诚波,徐根海.  复旦学报(自然科学版). 2017(05)
[5]一种基于自适应监测的云计算系统故障检测方法[J]. 王焘,顾泽宇,张文博,徐继伟,魏峻,钟华.  计算机学报. 2018(06)
[6]存储系统可靠性预测综述[J]. 李静,王刚,刘晓光,李忠伟.  计算机科学与探索. 2017(03)
[7]面向磁盘故障预测的机器学习方法比较[J]. 董勇,蒋艳凰,卢宇彤,周恩强.  计算机工程与科学. 2015(12)
[8]硬盘故障预测模型在大型数据中心环境下的验证[J]. 贾宇晗,李静,贾润莹,李忠伟,王刚,刘晓光,肖康.  计算机研究与发展. 2015(S2)
[9]基于Adaboost和遗传算法的硬盘故障预测模型优化及选择[J]. 贾润莹,李静,王刚,李忠伟,刘晓光.  计算机研究与发展. 2014(S1)
[10]数据挖掘中的不平衡分类问题集分析[J]. 吴悠,高静怡.  电子制作. 2014(10)

硕士论文
[1]基于随机森林算法的高维不平衡数据分类研究及应用[D]. 杨浩宇.郑州大学 2017
[2]基于深度学习的磁盘健康度评估与故障预测技术研究[D]. 兰云龙.杭州电子科技大学 2017
[3]基于机器学习的磁盘故障预测系统[D]. 柳永康.华中科技大学 2015
[4]基于S.M.A.R.T.预测故障磁盘的研究[D]. 宋云华.南京大学 2014
[5]大规模存储系统硬盘故障预测方法研究[D]. 朱炳鹏.南开大学 2014
[6]基于SVM决策树的增量式文本层次分类研究[D]. 刘靖雯.北京邮电大学 2014
[7]基于改进随机森林的软件故障预测模型研究[D]. 严蕾.西安电子科技大学 2013
[8]基于智能预警和自修复的高可靠磁盘阵列关键技术研究[D]. 胡维.国防科学技术大学 2010



本文编号:3278234

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3278234.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f5924***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com