当前位置:主页 > 科技论文 > 自动化论文 >

不平衡数据集均衡化方法研究及其应用

发布时间:2021-10-10 08:22
  在机器学习领域中,基于训练样本实例建立模型可用于数据预测和解释,但其有效性、精准性受到数据不平衡等因素影响,会出现分类面偏倚的现象,从而降低模型的分类性能,为此提出了两种基于Isolation Forest(iForest)的采样算法:iForest-RM欠采样和iForest-SMOTE过采样算法。iForest-RM针对负类(多数类)样本进行欠采样均衡数据集。首先,利用iForest形成每个样本在样本空间中的分布特征评估值,进而定义其概率分布;然后,根据概率分布,按给定采样率,通过轮盘转算法在负类样本中选取样本;最后,通过K-means方法形成若干负类样本聚类中心,并以聚类中心为最终负类选取样本,实现正负类样本均衡。iForest-SMOTE针对正类(少数类)样本进行过采样均衡数据集。首先,使用iForest定义并生成所有样本的概率分布;然后,剔除最近邻为负类的正类样本,在每次SMOTE过程中随机选择正类样本p及其近邻的k个正类样本,使用轮盘转算法按照近邻样本的概率分布选择样本q;最后在p与q构成的M维球体内插值,生成足够的正类样本,实现正负类样本均衡。通过UCI数据集和地震物探相... 

【文章来源】:中国石油大学(北京)北京市 211工程院校 教育部直属院校

【文章页数】:50 页

【学位级别】:硕士

【部分图文】:

不平衡数据集均衡化方法研究及其应用


Page按不同比例均衡化后分类效果

效果图,均衡化,效果,样本数


空间分布信息缺失,维护了样本空间分布,从而提高建模效果。3.2.2.2 正负样本均衡化程度正负样本均衡化通常使正负类数量均衡化为 1:1,但对于负类样本数远远大于正类样本数的极不平衡数据集,如 Yeast 和 Page,正负类样本数比例分别为 3.54%和 2.14%,这类样本数量的不平衡性也是其固有特性。因此,强行均衡正负类样本数为 1:1,往往导致负类样本的空间分布信息缺失,影响真实样本的空间分布。对Yeast 和 Page 采用 iForest-RM 进行均衡化,使负类样本聚类簇的数目大于正类样本数,实验结果如图 3.1、3.2 所示(其他实验参数同上)。图中横轴表示经过iForest-RM 均衡化方法处理后的负类样本和正类样本的数量比值,纵轴为 G-mean和 AUC 的指标。从图中可见,当 Page 和 Yeast 正负类样本数量比值分别为 1:3 与1:2 时,分类效果达到最优,因此,对于极不平衡数据集,不能简单设置负类样本数与正类样本数为 1:1,而是需要采用不同正负类样本数量比,以确保均衡化后较好的分类效果。

曲线图,井数据,属性,曲线图


第4 章 数据均衡化方法在地震相岩性识别上的应用频特征等,这些特征的符号表示如表 4.1 所示。5G20-35 井地震数据属性曲线图如图 4.1 所示,图中纵轴为时间,横轴为属性值。表 4.1 地震属性表Table 4.1 The table of seismic attribute地震属性名称时间原始采样的地震道希尔伯特变换瞬时相位瞬时频率均方根振幅10Hz~80Hz的分频符号表示t s(t) h(t) 3 (t) ω(t)rmsAmp 10Hz~80Hz

【参考文献】:
期刊论文
[1]基于聚类欠采样的集成不均衡数据分类算法[J]. 武森,刘露,卢丹.  工程科学学报. 2017(08)
[2]Atlas测井仪GR曲线扩径校正方法的改进及应用效果[J]. 夏竹,赵磊,李凯,王志宝,张胜,赵师权.  石油地球物理勘探. 2016(S1)
[3]基于自适应K值选择的K近邻算法研究[J]. 闫中亚,汪云甲,刘克强,王行风.  测绘地理信息. 2016(06)
[4]神经网络七十年:回顾与展望[J]. 焦李成,杨淑媛,刘芳,王士刚,冯志玺.  计算机学报. 2016(08)
[5]蒙特卡洛交叉验证用于偏最小二乘建模数据质量的评价(英文)[J]. 王家俊,李正风,王萝萍,卞希慧,蔡文生,邵学广.  计算机与应用化学. 2015(12)
[6]基于数据密度分布的欠采样方法研究[J]. 杨杰明,闫欣,曲朝阳,宋晨晨,乔媛媛.  计算机应用研究. 2016(10)
[7]SP测井小波变换在单井层序划分中的应用[J]. 贺聪,苏奥,吉利明,吴远东,梁晓飞.  特种油气藏. 2015(06)
[8]基于KM-SMOTE和随机森林的不平衡数据分类[J]. 陈斌,苏一丹,黄山.  计算机技术与发展. 2015(09)
[9]应用傅里叶尺度变换提高地震资料分辨率[J]. 陈双全,李向阳.  石油地球物理勘探. 2015(02)
[10]面向不均衡数据集的ISMOTE算法[J]. 许丹丹,王勇,蔡立军.  计算机应用. 2011(09)



本文编号:3428008

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3428008.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7cca2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com