基于混合采样的非平衡数据分类算法研究
发布时间:2025-03-30 00:01
在机器学习和数据挖掘领域中,分类是重要的研究内容之一,其目的是构造一个分类模型,将数据集中的数据划分到给定类别中的某一个。由于传统的分类算法没有考虑数据的非平衡性,使得其在处理非平衡数据分类问题上面临着巨大的挑战。例如在医疗诊断、欺诈电话检测等问题中,关注的事件在所有数据记录中占比都极小,但是将其错误分类却会带来无法估量的代价。在非平衡数据中对少数类的正确分类往往比多数类更重要,如何对非平衡数据集进行正确分类,提高少数类的分类准确率成为分类问题中研究的重点。目前,非平衡数据分类问题在理论和实践上都受到高度重视。很多针对非平衡数据的分类算法从不同的处理角度被提出。非平衡数据集分类问题的研究方法主要包括算法改进和数据集重构两类。数据层面通常使用的方法有过采样和欠采样方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。因此,本文针对基于混合采样的非平衡数据分类算法进行了深入的研究,主要内容包括以下两个方面:(1)提出了一种基于分类超平面的混合采样算法。该算法旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。首先利用SVM算法得到分类超平面;然后迭...
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
本文编号:4037864
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图3.1平衡数据集的分类超平面
:01iiiy,Ci0,i1,2,,l。Lagrange乘子。设(,)ijkxx为核函数,那么SVM训练出来的liiiihykb1(x)(x,x)SVM算法进行分类时,训练样本集的正负类样本数量是大不平衡时,分类超平....
图3.2非平衡数据集的分类超平面
图3.2非平衡数据集的分类超平面TE算法E算法[10]基本思想是:处于距离较近的两个少数类样本中间的过线性插值的方法合成新的少数类样本,增加少数类样本的.1所示。表3.1SMOTE算法少数类样本集合P,过采样率,样本近邻个数k过采样生成的少数类样本集合Dif....
图3.3准确率变化曲线图
横坐标为四种算法策略,纵坐标为实验取值范围。通过图3.3到图3.5可以明显的看到,SVM<sub>H</sub>S算法比其它同类算法在少数类的数量有明显劣势的情况下实验效果有较大提高。图3.3准确率变化曲线图图3.4F-value变化曲线图
图3.4F-value变化曲线图
5可以明显的看到,SVM<sub>H</sub>S算法比其它同类算法在少数类的下实验效果有较大提高。图3.3准确率变化曲线图
本文编号:4037864
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4037864.html