基于生成对抗网络的非均衡数据分类研究
发布时间:2021-09-19 14:32
近年来,人工智能兴起,深度学习是目前人工智能的主要研究领域之一。深度学习是一种数据驱动学习方法,对数据的数量和质量的要求都很高。在众多应用领域中,很多数据需求都可以满足,但是在部分领域中,例如金融风险,故障检测等方面,正常数据量和异常数据量是非常不对等的。数据集中,不同类别的样本量之间比例极度不平衡的数据集被称为非均衡数据集。由于非均衡数据集中不同类别样本所含信息量不同,训练过程中重要程度不同,使用传统的分类器去分类非均衡数据集的难度较大,而且普通的评估标准难以正确地评价分类器。本文提出一种基于生成对抗网络(GAN)的非均衡数据集分类方法,生成对抗网络由生成器和判别器组成,生成器的功能是尽量拟合输入真实数据的分布,判别器则是尽量去判断样本是来自生成器还是真实数据,两者之间相互竞争共同提升,直到达到纳什均衡。使用GAN的强大生成能力可以扩增非均衡数据集中少数类样本。本文首先介绍了传统分类算法和目前常用的非均衡数据分类算法以及分类效果评估标准。介绍了一种基于随机过采样算法的非均衡数据集数据分类方法。本文提出了一种基于WGAN(Wasserstein GAN)的非均衡数据集分类,使用WGAN...
【文章来源】:南京邮电大学江苏省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
系统图2.1分类问题分类
决策树模型8
支持向量机根据数据不同可分为线性可分支持向量机、线性支持向量机和非线性支持向量机。二分类问题如图2.3所示。图中圈代表正例,叉代表负例。训练数据集线性可分,这时有可以正确划分数据集的直线有很多。线性可分支持向量机就对应着将训练数据集正确划分并且间隔最大的直线。图2.3二分类问题2.1.2评估指标评价分类器的性能最经常使用的指标是精确度(accuracy),其定义是:在测试集中,正确分类的样本数量与所有样本总数之比。accuracy =++ + +(2.2)精确度能够整体反映分类器的分类性能,但是对于非均衡数据集,它是没有参考价值的。精确度作为分类器的评估指标有一个默认条件,即各类样本量之间较为接近,此时各类样本所含信息量基本相等,在计算评估指标时可以将不同类别样本相同对待。但是在非均衡数据集中,多数类样本和少数类样本所含信息量显然不同。在测试过程中,如果针对一个多数类样本判断正确,直观理解上,这并不能表明这个分类器的分类性能多优秀,同样的,如果判断错一个多数类样本
【参考文献】:
期刊论文
[1]一种面向单个正例的Fisher线性判别分类方法[J]. 尹军梅,杨明. 南京师范大学学报(工程技术版). 2008(03)
[2]非平衡数据集Fisher线性判别模型[J]. 谢纪刚,裘正定. 北京交通大学学报. 2006(05)
本文编号:3401788
【文章来源】:南京邮电大学江苏省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
系统图2.1分类问题分类
决策树模型8
支持向量机根据数据不同可分为线性可分支持向量机、线性支持向量机和非线性支持向量机。二分类问题如图2.3所示。图中圈代表正例,叉代表负例。训练数据集线性可分,这时有可以正确划分数据集的直线有很多。线性可分支持向量机就对应着将训练数据集正确划分并且间隔最大的直线。图2.3二分类问题2.1.2评估指标评价分类器的性能最经常使用的指标是精确度(accuracy),其定义是:在测试集中,正确分类的样本数量与所有样本总数之比。accuracy =++ + +(2.2)精确度能够整体反映分类器的分类性能,但是对于非均衡数据集,它是没有参考价值的。精确度作为分类器的评估指标有一个默认条件,即各类样本量之间较为接近,此时各类样本所含信息量基本相等,在计算评估指标时可以将不同类别样本相同对待。但是在非均衡数据集中,多数类样本和少数类样本所含信息量显然不同。在测试过程中,如果针对一个多数类样本判断正确,直观理解上,这并不能表明这个分类器的分类性能多优秀,同样的,如果判断错一个多数类样本
【参考文献】:
期刊论文
[1]一种面向单个正例的Fisher线性判别分类方法[J]. 尹军梅,杨明. 南京师范大学学报(工程技术版). 2008(03)
[2]非平衡数据集Fisher线性判别模型[J]. 谢纪刚,裘正定. 北京交通大学学报. 2006(05)
本文编号:3401788
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3401788.html