面向分布不平衡数据的分类算法研究
发布时间:2021-06-18 18:35
在实际应用中,数据标签的分布往往是不平衡的,并且少数类样本是我们关注的重点。因此,研究不平衡数据的分类方法很有必要。针对不平衡数据的分类问题,主要从数据采样和算法改进两个方面进行研究;当数据分布极端不平衡时,也可以从异常检测的角度进行研究。本文主要有以下三点工作:(1)从数据采样的角度来说,在分类前对数据集进行重采样往往可以提升分类性能。针对 SMOTE(Synthetic minority oversampling technique,SMOTE)算法不考虑新生成的少数类样本位置的问题,本文引入改进的Safe-Level-SMOTE算法,并提出一种基于临时标记的TempC-SSMOTE过采样方法。这样既可以使新生成的少数类样本更靠近少数类样本集中的地方,又能减小过采样规模,改善过采样算法容易生成噪声样本的问题。实验结果表明,从F1值、Recall值和G-mean值角度评估,基于临时标记的TempC-SSMOTE过采样方法优于其他常见采样方法,验证了所提方法的优越性和可行性。(2)从分类算法的角度来说,集成学习方法是处理不平衡数据集分类任务的一种重要方法。本章将 CMAES(Covar...
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
本文主要工作概要图
南京邮电大学硕士研究生学位论文第三章基于临时标记的TempC-SSMOTE过采样方法14第三章基于临时标记的TempC-SSMOTE过采样方法重采样方法是解决不平衡数据集分类任务的一种典型方法。SMOTE方法是一种最经典的过采样方法,但其在生成新样本时,随机性过大导致无法控制新样本的生成位置,极易引入噪声样本,增加分类难度。Safe-Level-SMOTE方法对此问题进行了改进,但仍然无法避免过采样方法本身就易引入噪声样本的问题。TempC方法通过临时标记的思想平衡样本类别,不会生成合成样本。因此,本章将Safe-Level-SMOTE方法与TempC方法进行结合,提出一种基于临时标记的TempC-SSMOTE过采样方法,用Safe-Level-SMOTE方法对临时标记的C类中的少数类样本进行过采样操作。这样既减轻了过采样方法易生成噪声样本的问题,又改善了不平衡程度,从而提升分类性能。相关工作3.1.1SMOTE方法SMOTE方法[6]主要是通过对少数类样本和其任一k近邻样本之间做线性插值,生成新的少数类样本,从而减轻数据集的不平衡程度。SMOTE方法的插值示例如图3.1所示,样本合成过程如算法3.1所示。图3.1SMOTE方法线性插值示意图SMOTE方法在合成新的少数类样本时,没有考虑到最近邻少数类样本很可能位于多数类样本包围中,这样新生成的少数类样本也很可能被多数类样本包围,甚至于多数类样本重叠,从而增加分类难度。
南京邮电大学硕士研究生学位论文第三章基于临时标记的TempC-SSMOTE过采样方法17图3.2TempC方法示意图具体过程如算法3.3所示。测试时,用分类器!和&同时对测试样本进行分类,若分类器!将某样本分类为C类,分类器&将该样本分类为少数类,则该样本最终被分类为少数类,否则为多数类。算法3.3TempC方法输入:训练集输出:两个分类器初始化:新的临时类别7=1:将划分为多数类样本集-./,少数类样本集-0#2:forin-0#:3:从-./中计算的k近邻样本,将和其k近邻样本加入74:将和其k近邻样本临时标记为C类5:endfor6:用7∪-./训练一个分类器!,区分C类和多数类7:用7训练一个分类器&,区分少数类和多数类8:return!,&与许多其他数据级的采样方法不同,TempC方法仅仅对一些样本做了类的临时重新标记,既不会合成新的少数类样本,也不会剔除多数类样本。因此TempC方法既不会带来新的噪声样本,也不会由于删除多数类样本而造成信息丢失。但其临时标记的做法确实减轻了数据集的不平衡程度,且标记出了分类困难区域。
【参考文献】:
期刊论文
[1]基于类重叠度欠采样的不平衡模糊多类支持向量机[J]. 吴园园,申立勇. 中国科学院大学学报. 2018(04)
[2]类不平衡稀疏重构度量学习软件缺陷预测[J]. 史作婷,吴迪,荆晓远,吴飞. 计算机技术与发展. 2018(06)
[3]基于不平衡数据样本特性的新型过采样SVM分类算法[J]. 黄海松,魏建安,康佩栋. 控制与决策. 2018(09)
[4]基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 方昊,李云. 山东大学学报(工学版). 2017(01)
[5]数据集不均衡下的设备故障程度识别方法研究[J]. 段礼祥,郭晗,王金江. 振动与冲击. 2016(20)
[6]iLOF*:一种改进的局部异常检测算法[J]. 王飞. 计算机系统应用. 2015(12)
[7]基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J]. 陶新民,童智靖,刘玉,付丹丹. 控制与决策. 2011(10)
[8]局部离群点挖掘算法研究[J]. 薛安荣,鞠时光,何伟华,陈伟鹤. 计算机学报. 2007(08)
本文编号:3237177
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
本文主要工作概要图
南京邮电大学硕士研究生学位论文第三章基于临时标记的TempC-SSMOTE过采样方法14第三章基于临时标记的TempC-SSMOTE过采样方法重采样方法是解决不平衡数据集分类任务的一种典型方法。SMOTE方法是一种最经典的过采样方法,但其在生成新样本时,随机性过大导致无法控制新样本的生成位置,极易引入噪声样本,增加分类难度。Safe-Level-SMOTE方法对此问题进行了改进,但仍然无法避免过采样方法本身就易引入噪声样本的问题。TempC方法通过临时标记的思想平衡样本类别,不会生成合成样本。因此,本章将Safe-Level-SMOTE方法与TempC方法进行结合,提出一种基于临时标记的TempC-SSMOTE过采样方法,用Safe-Level-SMOTE方法对临时标记的C类中的少数类样本进行过采样操作。这样既减轻了过采样方法易生成噪声样本的问题,又改善了不平衡程度,从而提升分类性能。相关工作3.1.1SMOTE方法SMOTE方法[6]主要是通过对少数类样本和其任一k近邻样本之间做线性插值,生成新的少数类样本,从而减轻数据集的不平衡程度。SMOTE方法的插值示例如图3.1所示,样本合成过程如算法3.1所示。图3.1SMOTE方法线性插值示意图SMOTE方法在合成新的少数类样本时,没有考虑到最近邻少数类样本很可能位于多数类样本包围中,这样新生成的少数类样本也很可能被多数类样本包围,甚至于多数类样本重叠,从而增加分类难度。
南京邮电大学硕士研究生学位论文第三章基于临时标记的TempC-SSMOTE过采样方法17图3.2TempC方法示意图具体过程如算法3.3所示。测试时,用分类器!和&同时对测试样本进行分类,若分类器!将某样本分类为C类,分类器&将该样本分类为少数类,则该样本最终被分类为少数类,否则为多数类。算法3.3TempC方法输入:训练集输出:两个分类器初始化:新的临时类别7=1:将划分为多数类样本集-./,少数类样本集-0#2:forin-0#:3:从-./中计算的k近邻样本,将和其k近邻样本加入74:将和其k近邻样本临时标记为C类5:endfor6:用7∪-./训练一个分类器!,区分C类和多数类7:用7训练一个分类器&,区分少数类和多数类8:return!,&与许多其他数据级的采样方法不同,TempC方法仅仅对一些样本做了类的临时重新标记,既不会合成新的少数类样本,也不会剔除多数类样本。因此TempC方法既不会带来新的噪声样本,也不会由于删除多数类样本而造成信息丢失。但其临时标记的做法确实减轻了数据集的不平衡程度,且标记出了分类困难区域。
【参考文献】:
期刊论文
[1]基于类重叠度欠采样的不平衡模糊多类支持向量机[J]. 吴园园,申立勇. 中国科学院大学学报. 2018(04)
[2]类不平衡稀疏重构度量学习软件缺陷预测[J]. 史作婷,吴迪,荆晓远,吴飞. 计算机技术与发展. 2018(06)
[3]基于不平衡数据样本特性的新型过采样SVM分类算法[J]. 黄海松,魏建安,康佩栋. 控制与决策. 2018(09)
[4]基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 方昊,李云. 山东大学学报(工学版). 2017(01)
[5]数据集不均衡下的设备故障程度识别方法研究[J]. 段礼祥,郭晗,王金江. 振动与冲击. 2016(20)
[6]iLOF*:一种改进的局部异常检测算法[J]. 王飞. 计算机系统应用. 2015(12)
[7]基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J]. 陶新民,童智靖,刘玉,付丹丹. 控制与决策. 2011(10)
[8]局部离群点挖掘算法研究[J]. 薛安荣,鞠时光,何伟华,陈伟鹤. 计算机学报. 2007(08)
本文编号:3237177
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3237177.html
最近更新
教材专著