当前位置:主页 > 科技论文 > 电力论文 >

面向不平衡数据集分类的离散高维空间距离采样和极端随机树算法

发布时间:2021-03-10 01:34
  针对电网故障诊断数据的类别分布不平衡,即故障类别相对正常类别比值小问题,提出一种基于Trees)的电网故障诊断方法。在采样阶段根据故障类样本的内部分布密度自适应计算合成新样本数量;在合成新样本时,计算离散型数据样本点之间的高维空间距离,使点之间的合成数量与距离成负相关关系,进行合成新样本;在基分类器生成过程中,节点分裂时随机选择特征,巧妙借助极端随机树随机性强方差低的特性解决了噪声数据的影响。实验结果对比传统分类和常用不平衡分类表明,该算法有效地提升了故障类的精度,同时克服了以往别的算法随机过采样导致的正常类精度下降,G-mean值达到82.6%,具有优越的电网故障诊断预测性能。 

【文章来源】:计算机应用与软件. 2020,37(07)北大核心

【文章页数】:7 页

【部分图文】:

面向不平衡数据集分类的离散高维空间距离采样和极端随机树算法


各采样算法合成样本对比图

流程图,流程图,数据集,分类器


本文实验的流程图如图2所示。首先基于多源数据库的数据进行数据预处理(数据清理、数据集成),得到以上数据集。数据集按照6∶4对每个类进行随机采样,得到训练集Dtrain和测试集Dtest。然后使用ADASYN-DHSD-ET算法对Dtrain训练故障诊断模型,算法对4个故障类进行过采样,根据故障类的密度分布自动生成新样本,改变数据集的平衡度,并使采样后的数据保持原样本的特征。对生成新样本数量进行调参,依次设置采样数量为原样本的10、20、50、100、200倍直到与正常类样本数量相同。每个基分类器对全部的新数据集进行分类,在节点分裂时在11个特征中随机选取分裂特征,不减枝,充分考虑数据集特征。对基分类器的数量进行调参,依次设置生成基分类器数量100、200、500、1 000。集成分类器进行投票得到训练模型。使用Dtest验证训练模型,根据每个参数设置进行实验,得到最优模型。

【参考文献】:
期刊论文
[1]不均衡数据分类算法的综述[J]. 陶新民,郝思媛,张冬雪,徐鹏.  重庆邮电大学学报(自然科学版). 2013(01)



本文编号:3073823

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dianlilw/3073823.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户06b84***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com