针对不平衡数据复杂分布特征的分类方法研究
发布时间:2020-12-19 03:11
不平衡数据分类是机器学习理论研究和实际应用面临的挑战问题之一,在医疗诊断、网络入侵检测、生物特征识别、故障检测、文本分类等领域广泛存在。传统分类方法对类不平衡数据进行分类时性能降低,尤其是少数类的识别率比较低,而少数类通常是实际应用中人们更为关注且错分代价较高的一类。因此,分析不平衡分类性能降低的原因,探究不平衡分类问题的解决方法具有重要的理论意义和应用价值。不平衡集分类性能降低的根本原因在于不平衡数据固有的复杂分布特征,主要包括小区块、类间覆盖、少数类空间存在较多的稀缺样例和离群点等。传统分类方法以最小化错误率为目标建立分类器,稀缺的少数类样本以及复杂分布特征使传统方法偏向多数类,降低了少数类的泛化性能。为了提高小类样本的识别率,降低错分代价,本文针对上述三种不平衡数据复杂分布特征,分别在数据层面对不平衡集进行预处理,在算法层面优化基分类器,改进下采样集成方法,在决策层面,提出适合处理不平衡集的拒绝分类模型。主要工作包括以下四个内容:首先,从数据层面提出一种基于加权编辑近邻规则的混合采样方法,解决由于小类样本局部密度较低,编辑近邻规则下采样时压缩小类空间的问题。考虑与局部分布相关的两...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:137 页
【学位级别】:博士
【部分图文】:
不平衡数据复杂分布特征示意图,其中
ㄆ壅┘觳馕侍狻R虼耍?绾味圆黄胶?数据进行预处理或改进传统分类算法提高小类识别率,降低错分代价是值得研究的课题。1.2不平衡数据复杂分布特征不平衡分类性能下降的根本原因是不平衡数据固有的复杂分布特征。类分布不平衡只是数据集的表面特征,不是分类困难的根本原因。复杂分布特征会导致分类性能降低,不平衡的类分布和正类样本的稀缺会加剧性能降低的程度。不平衡数据复杂分布特征[9]主要包括稀缺样例和离群点(rarecasesandoutliers),小区块(smalldisjuncts),以及类间覆盖(overlappingbetweenclasses)等,如图1-1所示。a)小区块a)Smalldisjunctsb)类间覆盖b)Overlappingbetweenclassesc)稀缺样例和离群点c)Rarecasesandoutliers图1-1不平衡数据复杂分布特征示意图,其中圆圈和五星分别表示多数类样本和少数类样本Fig.1-1Illustrationofcomplexdistributioncharacteristicsinimbalanceddatawherecirclesandstarsindicatethemajorityandminorityclassexamples,respectively不平衡的类分布:严格来讲,任何存在不相等样本量的数据集都可认为是不平衡集,但是在研究中人们的共识是不平衡集的类间分布存在显著或极端差异,可能是10:1,100:1,1000:1,甚至更大[10],这称为类间不平衡(between-classimbalance)。Weiss等[11]研究了训练样本的类分布与决策树分类性能间的关系,结果表明不平衡比越大,分类性能越差,在相对平衡的数据集上通常获得更好的分类结果。Wu[12]和Liu[13]探究了类不平衡(不平衡比分别为10:1,100:1和300:1)对SVM的影响,发现对于较小的不平衡比(10:1),SVM的类边界接近理想边界,而当不平衡比越来越大(100:1和300:1)时,类边界明显地偏到小类样本空间。但是,不平衡比究竟使分类性能?
统计的机器学习方法根据训练样本归纳映射规则,若训练样本少,算法没有足够信息归纳出样本的分布规律,如图1-2所示为KEEL数据库[3]中yeast4真实数据集20%样本和全部样本在属性Gvh和Mit上的分布示意图。当类分布绝对不平衡时,稀缺的正类样本不能充分描述其所在空间,导致类边界不清晰,学习算法会弱化或忽视对正类的学习。当遇到高维不平衡数据时,建立合适的分类规则或分类器更加困难。若小类样本分布不集中,比较分散,易被当做噪声。a)20%的原始样本a)20%oforiginalexamplesb)全部样本b)alloriginalexamples图1-2yeast4数据集样本稀缺示意图Fig.1-2Illustrationofexamplescarcityondatasetyeast4小区块:样本空间中出现成簇的少量同类样本称为小区块[16,17],正类和负类空间中都可能出现小区块,但是小区块通常由样本欠表达(under-representation)导致,所以小区块更多出现在小类空间中。这些小区域和与其同类的主导区域(dom-inantregion)间出现类内不平衡(within-classimbalance)[18],主导区域中的样本明显多于同类小区块中的样本。小区块会加剧基于分治策略的分类方法的难度,这类方法把原问题划分为多个子问题,会导致数据碎片[19],即会出现几个样本构成的小簇,当不平衡比比较高时,这种现象更严重。针对小区块问题,可采用的解决思路和策略有:数据稀缺导致小区块,可通过上采样填充这些簇状区域;传统分类方法为得到高的泛化能力会偏向大类,忽视对小区块的学习,为避免这种情况,应调整归纳偏置,对于小区块,使用复杂的归纳方法,重点学习小类样本;改变传统学习算法的优化指标或为小类样本分配较大权重,使得建立分类模型时更重视小类样本;使用决策树进行分类时,建议不采用剪枝策略,剪枝会因泛化学习规?
本文编号:2925144
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:137 页
【学位级别】:博士
【部分图文】:
不平衡数据复杂分布特征示意图,其中
ㄆ壅┘觳馕侍狻R虼耍?绾味圆黄胶?数据进行预处理或改进传统分类算法提高小类识别率,降低错分代价是值得研究的课题。1.2不平衡数据复杂分布特征不平衡分类性能下降的根本原因是不平衡数据固有的复杂分布特征。类分布不平衡只是数据集的表面特征,不是分类困难的根本原因。复杂分布特征会导致分类性能降低,不平衡的类分布和正类样本的稀缺会加剧性能降低的程度。不平衡数据复杂分布特征[9]主要包括稀缺样例和离群点(rarecasesandoutliers),小区块(smalldisjuncts),以及类间覆盖(overlappingbetweenclasses)等,如图1-1所示。a)小区块a)Smalldisjunctsb)类间覆盖b)Overlappingbetweenclassesc)稀缺样例和离群点c)Rarecasesandoutliers图1-1不平衡数据复杂分布特征示意图,其中圆圈和五星分别表示多数类样本和少数类样本Fig.1-1Illustrationofcomplexdistributioncharacteristicsinimbalanceddatawherecirclesandstarsindicatethemajorityandminorityclassexamples,respectively不平衡的类分布:严格来讲,任何存在不相等样本量的数据集都可认为是不平衡集,但是在研究中人们的共识是不平衡集的类间分布存在显著或极端差异,可能是10:1,100:1,1000:1,甚至更大[10],这称为类间不平衡(between-classimbalance)。Weiss等[11]研究了训练样本的类分布与决策树分类性能间的关系,结果表明不平衡比越大,分类性能越差,在相对平衡的数据集上通常获得更好的分类结果。Wu[12]和Liu[13]探究了类不平衡(不平衡比分别为10:1,100:1和300:1)对SVM的影响,发现对于较小的不平衡比(10:1),SVM的类边界接近理想边界,而当不平衡比越来越大(100:1和300:1)时,类边界明显地偏到小类样本空间。但是,不平衡比究竟使分类性能?
统计的机器学习方法根据训练样本归纳映射规则,若训练样本少,算法没有足够信息归纳出样本的分布规律,如图1-2所示为KEEL数据库[3]中yeast4真实数据集20%样本和全部样本在属性Gvh和Mit上的分布示意图。当类分布绝对不平衡时,稀缺的正类样本不能充分描述其所在空间,导致类边界不清晰,学习算法会弱化或忽视对正类的学习。当遇到高维不平衡数据时,建立合适的分类规则或分类器更加困难。若小类样本分布不集中,比较分散,易被当做噪声。a)20%的原始样本a)20%oforiginalexamplesb)全部样本b)alloriginalexamples图1-2yeast4数据集样本稀缺示意图Fig.1-2Illustrationofexamplescarcityondatasetyeast4小区块:样本空间中出现成簇的少量同类样本称为小区块[16,17],正类和负类空间中都可能出现小区块,但是小区块通常由样本欠表达(under-representation)导致,所以小区块更多出现在小类空间中。这些小区域和与其同类的主导区域(dom-inantregion)间出现类内不平衡(within-classimbalance)[18],主导区域中的样本明显多于同类小区块中的样本。小区块会加剧基于分治策略的分类方法的难度,这类方法把原问题划分为多个子问题,会导致数据碎片[19],即会出现几个样本构成的小簇,当不平衡比比较高时,这种现象更严重。针对小区块问题,可采用的解决思路和策略有:数据稀缺导致小区块,可通过上采样填充这些簇状区域;传统分类方法为得到高的泛化能力会偏向大类,忽视对小区块的学习,为避免这种情况,应调整归纳偏置,对于小区块,使用复杂的归纳方法,重点学习小类样本;改变传统学习算法的优化指标或为小类样本分配较大权重,使得建立分类模型时更重视小类样本;使用决策树进行分类时,建议不采用剪枝策略,剪枝会因泛化学习规?
本文编号:2925144
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2925144.html