基于类别失衡数据集的改进支持向量机模型的研究
发布时间:2019-07-15 07:59
【摘要】:计算机技术的快速发展,使得数据量迅速地增长。为了利用这些数据来指导当前的工作及科学研究,基于数据挖掘的应用技术被发掘出来并快速发展。许多实际研究中,数据集是类别失衡的,即基于一个类别的数据量与属于另一类别的数据量差距较大,且小样本量类呈现出的信息通常更具价值,故而类别失衡分类问题一直是我们研究数据挖掘的一个热门。传统的机器学习算法,往往会导致对小样本量类的识别率较低,而致使分类器分类性能大幅度降低。建立于统计学习基础之上的分类方法—支持向量机,具有坚实的理论依据,对于类别非失衡数据集有比其他分类算法更好的分类效果,但对于两类失衡样本分类效果稍有欠缺。本文鉴于类别失衡数据集分类难的情况,结合前人的成果提出了边界修剪支持向量机方法。该方法在尽量不降低分类正确率的同时,提高了对小样本量类样本的识别率;同时也弥补了支持向量机在类别失衡数据集分类中的不足,并从以下方面做出了改进。1.分类边界混叠数据的处理。本文主要是对不同类别的样本的边界进行处理,由于边界数据对支持向量的重要影响,故而其对分类器的构建也比较重要。先前大部分的研究工作主要采用将分类边界混叠数据直接删除或简单地添加到小样本量类中的处理方式,而忽略了边界混叠数据对小样本量类的分类精度的影响。鉴于此,本文对边界混叠数据进行了细致地划分与处理。2.不同类别支持向量数目的修剪。本文根据小样本量类样本量与大样本量类支持向量数目的关系采取相应的处理策略。当小样本量类样本量与大样本量类支持向量数目均衡时,通过引入软间隔来求解最优超平面;当两者相差较大时,又提供了 SMOTE算法或仿主成分分析方法,并根据需要进行择优选取;当小样本量类相对稀少且小样本量类的支持向量与大样本量类的支持向量的数量差距较大时,从小样本量类中抽取样本权重较大者,使其与小样本量类中支持向量数目之和与大样本量类的支持向量数目达到均衡,再进行分类器的构建。
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP18
本文编号:2514551
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP18
【参考文献】
相关期刊论文 前9条
1 翟云;王树鹏;马楠;杨炳儒;张德政;;基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J];电子学报;2014年07期
2 吴庆忠;车峰远;薛付忠;;基于非平衡数据的癫痫发作预警模型研究[J];山东大学学报(医学版);2012年02期
3 陶新民;童智靖;刘玉;付丹丹;;基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J];控制与决策;2011年10期
4 庞素琳;巩吉璋;;C5.0分类算法及在银行个人信用评级中的应用[J];系统工程理论与实践;2009年12期
5 曾志强;吴群;廖备水;高济;;一种基于核SMOTE的非平衡数据集分类方法[J];电子学报;2009年11期
6 叶志飞;文益民;吕宝粮;;不平衡分类问题研究综述[J];智能系统学报;2009年02期
7 李旭升;郭春香;陈凯亚;;最小总风险准则的贝叶斯网络个人信用评估模型[J];计算机应用研究;2009年01期
8 李红莲,王春花,袁保宗;一种改进的支持向量机NN-SVM[J];计算机学报;2003年08期
9 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
,本文编号:2514551
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2514551.html