提升小类准确度的代价敏感局部泛化误差模型研究
发布时间:2021-06-08 08:42
不平衡数据集主要是可以分为类间的不平衡和类内不平衡。类间不平衡指的是不同类别之间的样本数目差别较大;类内不平衡是指在某一个类别的内部,不同部分的数据分布成不同的簇(Cluster),不同的簇之间样本数目差距较大的情况。因为大多数的传统的机器学习方法默认使用的数据样本相互之间是平等的,并且假设其数据量是相对平衡的,所以数据集不平衡问题的最根本难点是样本的不平衡性往往会显著地影响大多数机器学习方法的性能和学习的结果。当学习不平衡数据集的时候,特别是当数据量非常小,在处理类间不平衡的同时,也可能有类内的不平衡的情况发生,在这样的情况下,传统的机器学习方法可能难以通过简单的学习泛化到未知的样本空间上。在二类问题中,具体的表现是分类器趋向于将样本数目较少(小类)的样本判定成样本数目较多(大类)的样本。本文提出通过一种通过最小化基于代价敏感的局部泛化误差模型(c-LGEM,costsensitive Localized Generalization Error Model)的目标函数的方法来优化神经网络的训练,在保留代价敏感方法在效率上的优势的同时,提升分类器对小类样本的泛化能力。更详细地说,代价...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
边界比较清晰、分布较为均匀的不平衡数据分布
则因为不同类别的样本在样本空间中存在重叠分布不连续,不同的样本形成了不同的簇(Cluster),样的簇,并且簇与簇之间包含的样本的数据量的差异,作噪声数据,即存在在训练过程中被忽略的可能性,进器的性能。类似于这样的不平衡又可以被称为类内不平图 1-1 边界比较清晰、分布较为均匀的不平衡数据分布
除此之外,与基于数据层面的方法相比,代价。而对混合方法而言,集成学习的使用同样可能让其输出对训练加入的人为的误差也就越大。综上所述,为了可能得到保障的分类器,本文研究将基于代价敏感方法来习方法已经被学者们提出,但是这些方法在并没有给予致了在数据集不平衡比例增大的时候,已有方法对小类分类准确率难以进一步提升的情况[1]。如图 1-3 所示,决策边界线之间所夹的区域里面,错分的小类产生的代价按照黑色的决策边界线一样全部划分成小类,一方面可分代价;另外一方面,因为大类样本数据量较大,那么不仅能做到可以有效地提升小类的准确率,另外得到一个意味着可以在小类样本与大类样本之间找到一个更合理小类样本和大类样本的分类结果直接找到一个更合理的
【参考文献】:
期刊论文
[1]不平衡数据分类研究综述[J]. 陈湘涛,高亚静. 邵阳学院学报(自然科学版). 2017(02)
[2]不平衡数据的集成分类算法综述[J]. 李勇,刘战东,张海军. 计算机应用研究. 2014(05)
[3]Robust Multiclass Classification for Learning from Imbalanced Biomedical Data[J]. Piyaphol Phoungphol. Tsinghua Science and Technology. 2012(06)
[4]一种新的不平衡数据学习算法PCBoost[J]. 李雄飞,李军,董元方,屈成伟. 计算机学报. 2012(02)
[5]不平衡分类问题研究综述[J]. 叶志飞,文益民,吕宝粮. 智能系统学报. 2009(02)
博士论文
[1]面向样本不平衡的故障特征提取方法[D]. 王健.东北大学 2015
[2]基于支持向量机的代价敏感数据挖掘研究与应用[D]. 郑恩辉.浙江大学 2006
本文编号:3218075
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
边界比较清晰、分布较为均匀的不平衡数据分布
则因为不同类别的样本在样本空间中存在重叠分布不连续,不同的样本形成了不同的簇(Cluster),样的簇,并且簇与簇之间包含的样本的数据量的差异,作噪声数据,即存在在训练过程中被忽略的可能性,进器的性能。类似于这样的不平衡又可以被称为类内不平图 1-1 边界比较清晰、分布较为均匀的不平衡数据分布
除此之外,与基于数据层面的方法相比,代价。而对混合方法而言,集成学习的使用同样可能让其输出对训练加入的人为的误差也就越大。综上所述,为了可能得到保障的分类器,本文研究将基于代价敏感方法来习方法已经被学者们提出,但是这些方法在并没有给予致了在数据集不平衡比例增大的时候,已有方法对小类分类准确率难以进一步提升的情况[1]。如图 1-3 所示,决策边界线之间所夹的区域里面,错分的小类产生的代价按照黑色的决策边界线一样全部划分成小类,一方面可分代价;另外一方面,因为大类样本数据量较大,那么不仅能做到可以有效地提升小类的准确率,另外得到一个意味着可以在小类样本与大类样本之间找到一个更合理小类样本和大类样本的分类结果直接找到一个更合理的
【参考文献】:
期刊论文
[1]不平衡数据分类研究综述[J]. 陈湘涛,高亚静. 邵阳学院学报(自然科学版). 2017(02)
[2]不平衡数据的集成分类算法综述[J]. 李勇,刘战东,张海军. 计算机应用研究. 2014(05)
[3]Robust Multiclass Classification for Learning from Imbalanced Biomedical Data[J]. Piyaphol Phoungphol. Tsinghua Science and Technology. 2012(06)
[4]一种新的不平衡数据学习算法PCBoost[J]. 李雄飞,李军,董元方,屈成伟. 计算机学报. 2012(02)
[5]不平衡分类问题研究综述[J]. 叶志飞,文益民,吕宝粮. 智能系统学报. 2009(02)
博士论文
[1]面向样本不平衡的故障特征提取方法[D]. 王健.东北大学 2015
[2]基于支持向量机的代价敏感数据挖掘研究与应用[D]. 郑恩辉.浙江大学 2006
本文编号:3218075
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3218075.html