基于构造性覆盖的不平衡数据欠采样分类方法研究

发布时间:2021-10-21 04:22
  随着互联网技术的快速发展,机器学习分类已广泛应用于日常生活的多个领域。分类算法通过对已有的数据进行分析并且建立模型,从而对未知数据进行预测。目前,已经有了很多成熟的分类算法,比如支持向量机、决策树、神经网络等,这些算法大多是针对平衡数据集而设计的。但是,在实际应用中,数据集大多都是不平衡的。这些分类算法在对不平衡数据进行分类时,往往比较注重数据集整体的分类准确率,而少数类样本的分类准确率比较容易被忽略。如何在保证不平衡数据整体分类准确率的同时,提高少数类样本的分类准确率是亟待解决的问题。当前对不平衡数据分类的研究方法主要从数据集和算法的层面考虑。在数据集的层面,过采样方法通过增加样本信息来提升不平衡数据的分类准确率,欠采样方法通过删除多数类样本来加强分类算法对少数类样本的关注。大量研究表明,这些方法都可以在一定条件下提高少数类样本的分类精度,但都存在对不平衡数据集中的样本分布考虑不足的问题。鉴于此,本文从数据集层面考虑,对如何利用样本的空间分布信息来提升不平衡数据的分类性能进行研究,主要研究内容总结如下:(1)提出了基于构造性覆盖(Constructive Covering Algor... 

【文章来源】:安徽大学安徽省 211工程院校

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

基于构造性覆盖的不平衡数据欠采样分类方法研究


SDUS算法流程图

示意图,样本,过程,示意图


安徽大学硕士学位论文29(SPNk)。一个SPN中,只包含与xk同类别的样本。为了方便理解,图4.2给出了SPN的二维图形展示。图中样本A和D分别为SPN1和SPN2的中心,r1和r2表示由公式(2.4)和(2.5)计算的异类最近距离和同类最远距离,r表示SPN的邻域范围。在SPN1中,r1是A与C的距离,r2是A与B的距离,共包含四个样本。在SPN2中,由于在r1的范围内没有与样本D同类别的样本,所以r2取0,其中只包含球心样本D。图4.2SPN形成过程示意图Figure4.2ThediagramofSPNdetectingprocess4.1.2样本选择在CCA处理不平衡数据集之后,会得到多数类和少数类的若干个SPN。SPN形成之后,SDUS方法将从SPN中选择样本,从而将样本选择区域进一步细化。并且处在同一个SPN中的样本都体现了样本的高度聚集效应,每一个SPN的大小以及其中包含的样本数量都不一样。本节提出两种从SPN中选择样本的方法。在进行样本选择之前,首先计算多数类SPN中的样本相对于所有多数类样本的比例,以及应该从该SPN中选择的样本个数。对于SPNk来说,首先根据公式(4.1)计算样本比例,其中|SPNk|表示SPNk中所包含的样本数量,Nn表示多数类样本的数量。然后,可以根据公式(4.2)计算出在SPNk中应该选择的样本数量NSPNk,其中Np表示少数类样本的数量。根据上述描述可以计算出在任意给定的SPNk中应该选择的样本数量,以保证样本选择之后会生成一个平衡数据集。但是每一个SPN中样本的分布并不是一样的,所以从SPN中选择哪些样本是本节内容的关键。Dk=|SPNk|/Nn(4.1)NSPNk=Np*Dk(4.2)

示意图,样本,多样性,示意图


第四章基于构造性覆盖的欠采样方法(SDUS)30本节从不同的切入点提出了两种样本选择方案。第一种是基于多样性的样本选择方案(SDUS1),将每一个SPN都作为一个独立的局部数据集来处理,在选择样本的时候,根据每个局部空间中的样本分布选择候选样本。第二种是基于余弦相似度的样本选择方案(SDUS2),通过计算样本之间的余弦相似度将SPN划分为四个部分,然后在四个部分中根据样本数量选择样本。(1)基于多样性的样本选择(SDUS1)由于每一个SPN中样本的分布并不是均匀的。所以在一个SPN中,样本聚集度较高的区域可能会包含更多的冗余信息,而分布比较离散的样本也有可能携带更多的数据信息。在采用SDUS1方案选择样本时,对于SPNk中的任意一个样本xi,定义一个度量样本之间多样性的函数,如公式(4.3)所示。D(xi)=∑dist(xi,xj)|SPNk|j=1(4.3)其中dist(xi,xj)表示样本xi与样本xj之间的距离,对于SPNk中的任意一个样本xi来说,都可以计算它的D(xi)值。然后可以根据D(xi)值,计算样本xi在整个SPN中的权重,如公式(4.4)所示。w(xi)=D(xi)∑D(xi)|SPNk|i=1(4.4)为了便于理解,在图4.3中给出了SDUS1的图示说明。图4.3基于多样性的样本选择示意图Figure4.3Illustrationofthediversitybasedsampleselectionprocess图4.3中的O点表示SPN的中心样本,对于样本A来说,可以根据公式(4.3)和(4.4)计算其多样性函数值以及样本权重值,对于样本B来说也是一样。将每一个带有权重的数据作为结果集,采用加权随机采样的方法[62],可以得到权重最大的NSPNk个多数

【参考文献】:
期刊论文
[1]基于样本权重的不平衡数据欠抽样方法[J]. 熊冰妍,王国胤,邓维斌.  计算机研究与发展. 2016(11)
[2]不平衡数据的集成分类算法综述[J]. 李勇,刘战东,张海军.  计算机应用研究. 2014(05)
[3]不平衡分类问题研究综述[J]. 叶志飞,文益民,吕宝粮.  智能系统学报. 2009(02)
[4]覆盖算法的概率模型[J]. 张铃,吴涛,周瑛,张燕平.  软件学报. 2007(11)
[5]构造性覆盖算法的知识发现方法研究[J]. 张旻,张铃.  电子与信息学报. 2006(07)
[6]M-P神经元模型的几何意义及其应用[J]. 张铃,张钹.  软件学报. 1998(05)

硕士论文
[1]基于数据筛选的不平衡数据重采样方法研究[D]. 刘焱昕.山西财经大学 2019



本文编号:3448231

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3448231.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户76fc9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com