基于支持向量机的不平衡数据分类算法研究
发布时间:2017-12-15 08:13
本文关键词:基于支持向量机的不平衡数据分类算法研究
更多相关文章: 支持向量机 类不平衡学习 集成学习 分类 DNA微阵列数据
【摘要】:在这个信息爆炸的时代,数据量的庞大已经引起人们的高度重视,因此需要寻找其规律并对其进行充分利用。分类问题是处理大量数据时最常遇到的问题,它已经成为机器学习领域一个重要研究内容。与传统的分类方法相比,,支持向量机具有泛化能力强、不易陷入局部极小值、高维和小样本适应性等优点,能更好地解决过学习、维数灾难、局部极小值等问题,因此支持向量机是本文首要考虑的分类方法。支持向量机(SVM)主要思想是通过核函数将训练集映射到高维空间。研究表明支持向量机对平衡数据有较好的分类效果,而对非平衡数据分类效果较差。其中主要原因是支持向量机的分类超平面仅仅是由少量的支持向量所决定的。支持向量机在处理不平衡数据分类问题时,其预测具有一定的倾向性,对于样本数量多的类别,其分类误差小,而对于样本数量少的类别,其分类误差大。 针对以上问题,本文主要围绕如何使用支持向量机对不平衡数据进行分类的问题展开研究,主要研究内容包括以下两个方面: (1)用于处理二分类问题的SVM优化决策阈值调整算法(SVM-OTHR)及其扩展的集成分类算法(EnSVM-OTHR)。在本文中,考虑提出一种基于支持向量机的最优决策阈值调整策略(SVM-OTHR),并利用其来解决类不平衡问题,希望其能回答一个令人困惑的问题:分类超平面应该移动多大距离?具体来讲,该策略是自适应的,可以根据训练样本的分布找到分类超平面的最优移动距离。此外,本文也扩展了该策略,提出一种集成分类算法(EnSVM-OTHR),进一步提高了分类性能。通过10个UCI数据集验证了上述两种算法的有效性。 (2)用于处理高维多类不平衡数据分类问题的集成SVM方法。该方法的思想是利用一对多编码策略将多分类问题转化为多个二分类问题,接下来,引入特征子空间策略生成大量的差异训练子集,然后,在每个训练子集上使用两种不同的偏倚修正策略(决策阈值调整和随机欠采样),以减轻类不平衡分布对分类性能的危害。最后,使用支持向量机作为基分类器,利用计数器投票方法做出最终的分类决策。通过8个多类癌症微阵列数据集上的实验结果表明:该方法明显优于一些传统的分类方法,可有效提升分类性能。
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP18
【参考文献】
中国期刊全文数据库 前10条
1 刘斌,李卓,刘铁男,喻胜阳,任珍珍;一种基于支持向量机建模的新型自适应滤波器[J];大庆石油学院学报;2005年04期
2 吴洪兴;彭宇;彭喜元;;适用于不平衡样本数据处理的支持向量机方法[J];电子学报;2006年S1期
3 郭乔进;李立斌;李宁;;一种用于不平衡数据分类的改进AdaBoost算法[J];计算机工程与应用;2008年21期
4 翟云;杨炳儒;曲武;;不平衡类数据挖掘研究综述[J];计算机科学;2010年10期
5 李秋洁;茅耀斌;王执铨;;基于Boosting的不平衡数据分类算法研究[J];计算机科学;2011年12期
6 于化龙;高尚;赵靖;秦斌;;基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J];计算机科学;2012年05期
7 贾慧星;章毓晋;;基于动态权重裁剪的快速Adaboost训练算法[J];计算机学报;2009年02期
8 林智勇;郝志峰;杨晓伟;;不平衡数据分类的研究现状[J];计算机应用研究;2008年02期
9 陈思;郭躬德;陈黎飞;;基于聚类融合的不平衡数据分类方法[J];模式识别与人工智能;2010年06期
10 叶云龙;杨明;;基于随机子空间的多分类器集成[J];南京师范大学学报(工程技术版);2008年04期
本文编号:1291236
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1291236.html