基于类别失衡数据集的改进支持向量机模型的研究

发布时间：2019-07-15 07:59

【摘要】：计算机技术的快速发展,使得数据量迅速地增长。为了利用这些数据来指导当前的工作及科学研究,基于数据挖掘的应用技术被发掘出来并快速发展。许多实际研究中,数据集是类别失衡的,即基于一个类别的数据量与属于另一类别的数据量差距较大,且小样本量类呈现出的信息通常更具价值,故而类别失衡分类问题一直是我们研究数据挖掘的一个热门。传统的机器学习算法,往往会导致对小样本量类的识别率较低,而致使分类器分类性能大幅度降低。建立于统计学习基础之上的分类方法—支持向量机,具有坚实的理论依据,对于类别非失衡数据集有比其他分类算法更好的分类效果,但对于两类失衡样本分类效果稍有欠缺。本文鉴于类别失衡数据集分类难的情况,结合前人的成果提出了边界修剪支持向量机方法。该方法在尽量不降低分类正确率的同时,提高了对小样本量类样本的识别率;同时也弥补了支持向量机在类别失衡数据集分类中的不足,并从以下方面做出了改进。1.分类边界混叠数据的处理。本文主要是对不同类别的样本的边界进行处理,由于边界数据对支持向量的重要影响,故而其对分类器的构建也比较重要。先前大部分的研究工作主要采用将分类边界混叠数据直接删除或简单地添加到小样本量类中的处理方式,而忽略了边界混叠数据对小样本量类的分类精度的影响。鉴于此,本文对边界混叠数据进行了细致地划分与处理。2.不同类别支持向量数目的修剪。本文根据小样本量类样本量与大样本量类支持向量数目的关系采取相应的处理策略。当小样本量类样本量与大样本量类支持向量数目均衡时,通过引入软间隔来求解最优超平面;当两者相差较大时,又提供了 SMOTE算法或仿主成分分析方法,并根据需要进行择优选取;当小样本量类相对稀少且小样本量类的支持向量与大样本量类的支持向量的数量差距较大时,从小样本量类中抽取样本权重较大者,使其与小样本量类中支持向量数目之和与大样本量类的支持向量数目达到均衡,再进行分类器的构建。
【学位授予单位】：安徽理工大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP18

【参考文献】