不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型
发布时间:2021-08-23 20:39
针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样,解决随机欠采样方法易丢弃潜在有用样本的问题;其次,将每次采样后样本与全部故障磁盘样本组合得到多个样本子集,通过训练这些子集建立多个预测精度较高的GBDT子分类模型;最后,根据待测点邻域样本类别自适应确定各子模型权重,据此通过加权硬投票集成最终的磁盘故障预测模型.在8组KEEL不平衡数据集上实验结果表明,与现有典型不平衡学习算法相比,少数类的召回率平均提升了9.46%;同时在磁盘公开数据集和某调度系统磁盘数据上对比验证了该方法在故障预测率上的先进性.
【文章来源】:微电子学与计算机. 2020,37(03)北大核心
【文章页数】:6 页
【部分图文】:
基于k-means的分层欠采样
本文提出的基于Bagging-GBDT算法的磁盘故障预测流程图,如图2所示.当磁盘测试样本送入故障预测模型时,首先根据欧式距离统计其在训练样本集内n个邻居点中的故障类样本的数目count,计算故障类权重系数w+=count/n+1,健康类权重系数默认设置为1;然后分别通过各个子预测模型对该样本进行测试得到预测类别;最后,根据权重系数对各种子模型的预测结果进行组合,得到测试样本最终的预测类别,具体细节如伪代码1所示.伪代码1:模型的构建与故障预测
从图3中可以看出,对大部分数据集,Bagging-GBDT算法在Recall+指标上优于其他五种对比算法,体现了此方法的稳定性.其中,在Pima数据集上提升效果最明显,与表现第二GBDT-SMOTE算法相比,在Recall+上提升了3.28%,在New-thyroid数据集提升效果次之,与表现第二ModifiedBagging算法相比,在Recall+上提升了2.92%,这说明Bagging-GBDT算法能有效应用于不平衡数据的分类.4.3 磁盘数据集实验
【参考文献】:
期刊论文
[1]基于机器学习的恐怖分子预测算法[J]. 李慧,张南南,曹卓,郑海,陈湘萍. 计算机工程. 2020(02)
[2]基于Hubness与类加权的k最近邻分类算法[J]. 李金孟,林亚平,祝团飞. 计算机工程. 2018(04)
[3]代价敏感大间隔分布学习机[J]. 周宇航,周志华. 计算机研究与发展. 2016(09)
[4]智能电网调度控制系统试验验证技术[J]. 杨清波,李立新,李宇佳,严亚勤,狄方春,花静,韩魏. 电力系统自动化. 2015(01)
本文编号:3358560
【文章来源】:微电子学与计算机. 2020,37(03)北大核心
【文章页数】:6 页
【部分图文】:
基于k-means的分层欠采样
本文提出的基于Bagging-GBDT算法的磁盘故障预测流程图,如图2所示.当磁盘测试样本送入故障预测模型时,首先根据欧式距离统计其在训练样本集内n个邻居点中的故障类样本的数目count,计算故障类权重系数w+=count/n+1,健康类权重系数默认设置为1;然后分别通过各个子预测模型对该样本进行测试得到预测类别;最后,根据权重系数对各种子模型的预测结果进行组合,得到测试样本最终的预测类别,具体细节如伪代码1所示.伪代码1:模型的构建与故障预测
从图3中可以看出,对大部分数据集,Bagging-GBDT算法在Recall+指标上优于其他五种对比算法,体现了此方法的稳定性.其中,在Pima数据集上提升效果最明显,与表现第二GBDT-SMOTE算法相比,在Recall+上提升了3.28%,在New-thyroid数据集提升效果次之,与表现第二ModifiedBagging算法相比,在Recall+上提升了2.92%,这说明Bagging-GBDT算法能有效应用于不平衡数据的分类.4.3 磁盘数据集实验
【参考文献】:
期刊论文
[1]基于机器学习的恐怖分子预测算法[J]. 李慧,张南南,曹卓,郑海,陈湘萍. 计算机工程. 2020(02)
[2]基于Hubness与类加权的k最近邻分类算法[J]. 李金孟,林亚平,祝团飞. 计算机工程. 2018(04)
[3]代价敏感大间隔分布学习机[J]. 周宇航,周志华. 计算机研究与发展. 2016(09)
[4]智能电网调度控制系统试验验证技术[J]. 杨清波,李立新,李宇佳,严亚勤,狄方春,花静,韩魏. 电力系统自动化. 2015(01)
本文编号:3358560
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3358560.html