基于不平衡数据的支持向量机和决策树算法的研究
发布时间:2020-04-08 14:30
【摘要】:传统的机器学习方法通常希望样本数量是近似于无限的,而现实生活中,样本数量却是有限的,在这种情况下优良的传统算法训练的结果却不易令人接受。以统计学习理论为支撑的支持向量机很好的解决了非线性,局部极值,小样本,高维数据等传统机器学习方法存在的难题。实际研究中,我们虽然很容易获得大量的样本,但由于数据本身的性质或者某种外在的原因,真正对我们有用的样本却是少之又少,像这种数据中的某一类包含了大部分的样本,其它类包含了极少量样本的数据集叫作不平衡数据集。在不平衡数据中,由于正类样本缺乏典型特征,以致描述正类概念的规则极其少且弱,在对数据做任何处理之前,现有的算法总是偏向负类数据,从而使正类数据分类的精度大大降低。而很多时候我们恰好需要研究少类数据,因为有时候少类数据的误判会带来致命的结果,因此针对具体的不均衡数据分类问题找到行之有效的方法是很关键的。这篇文章研究了不平衡数据分类的本质,处理方法,评估指标,并结合统计理论,引入了CBO-SVM,RU-SMOTE-SVM,SMOTEBoosting-SVM和C5.0决策树模型,并利用UCI中的台湾信用卡用户违约数据做实证分析,同时又选了一些上市公司ST情况数据和某电信公司客户违约数据做结果对比,以SVM,SMOTE-SVM为参照,观察对比各个方法的分类表现。结果显示RU-SMOTESVM的分类效果最好,这说明RU-SMOTE-SVM相较于本文中的其它几种方法可以作为不平衡数据分类的有效方法。
【图文】:
图 2.1 支持向量分类的超平面Fig.2.1 Hyperplane in SVM classification目标是找到一个最优间隔,这个间隔由超平面和,,如图中的1 2 3l , l ,l 。最优超平面必须在最大程度上
超平面和最大边界Fig.2.2Hyperplaneandmaxmargin
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C81
本文编号:2619461
【图文】:
图 2.1 支持向量分类的超平面Fig.2.1 Hyperplane in SVM classification目标是找到一个最优间隔,这个间隔由超平面和,,如图中的1 2 3l , l ,l 。最优超平面必须在最大程度上
超平面和最大边界Fig.2.2Hyperplaneandmaxmargin
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C81
【参考文献】
相关期刊论文 前5条
1 梁礼明;钟震;陈召阳;;支持向量机核函数选择研究与仿真[J];计算机工程与科学;2015年06期
2 文传军;詹永照;;基于自调节分类面SVM的平衡不平衡数据分类[J];系统工程;2009年03期
3 冯少荣;;决策树算法的研究与改进[J];厦门大学学报(自然科学版);2007年04期
4 John Durkin,蔡竞峰,蔡自兴;决策树技术及其当前研究方向[J];控制工程;2005年01期
5 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
本文编号:2619461
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2619461.html