基于不平衡数据的支持向量机和决策树算法的研究

发布时间：2020-04-08 14:30

【摘要】：传统的机器学习方法通常希望样本数量是近似于无限的,而现实生活中,样本数量却是有限的,在这种情况下优良的传统算法训练的结果却不易令人接受。以统计学习理论为支撑的支持向量机很好的解决了非线性,局部极值,小样本,高维数据等传统机器学习方法存在的难题。实际研究中,我们虽然很容易获得大量的样本,但由于数据本身的性质或者某种外在的原因,真正对我们有用的样本却是少之又少,像这种数据中的某一类包含了大部分的样本,其它类包含了极少量样本的数据集叫作不平衡数据集。在不平衡数据中,由于正类样本缺乏典型特征,以致描述正类概念的规则极其少且弱,在对数据做任何处理之前,现有的算法总是偏向负类数据,从而使正类数据分类的精度大大降低。而很多时候我们恰好需要研究少类数据,因为有时候少类数据的误判会带来致命的结果,因此针对具体的不均衡数据分类问题找到行之有效的方法是很关键的。这篇文章研究了不平衡数据分类的本质,处理方法,评估指标,并结合统计理论,引入了CBO-SVM,RU-SMOTE-SVM,SMOTEBoosting-SVM和C5.0决策树模型,并利用UCI中的台湾信用卡用户违约数据做实证分析,同时又选了一些上市公司ST情况数据和某电信公司客户违约数据做结果对比,以SVM,SMOTE-SVM为参照,观察对比各个方法的分类表现。结果显示RU-SMOTESVM的分类效果最好,这说明RU-SMOTE-SVM相较于本文中的其它几种方法可以作为不平衡数据分类的有效方法。
【图文】：

超平面,支持向量,最优超平面

图 2.1 支持向量分类的超平面Fig.2.1 Hyperplane in SVM classification目标是找到一个最优间隔，这个间隔由超平面和，，如图中的1 2 3l , l ,l 。最优超平面必须在最大程度上

超平面

超平面和最大边界Fig.2.2Hyperplaneandmaxmargin
【学位授予单位】：大连理工大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：C81

【参考文献】