当前位置:主页 > 科技论文 > 自动化论文 >

基于AdaBoost的类不平衡学习算法

发布时间:2018-07-29 20:50
【摘要】:处理类不平衡数据时,少数类的边界实例非常容易被错分。为了降低类不平衡对分类器性能的影响,提出了自适应边界采样算法(AB-SMOTE)。AB-SMOTE算法对少数类的边界样本进行自适应采样,提高了数据集的平衡度和有效性;同时将AB-SMOTE算法与数据清理技术融合,形成基于Ada Boost的集成算法ABTAdaBoost。ABTAda Boost算法主要包括三个阶段:对训练数据集采用AB-SMOTE算法,降低数据集的类不平衡度;使用Tomek links数据清理技术清除数据集中的噪声和抽样方法产生的重叠样例,有效提高数据的可用性;使用Ada Boost集成算法生成一个基于N个弱分类器的集成分类器。实验分别以J48决策树和朴素贝叶斯作为基分类器,在12个UCI数据集上的实验结果表明,ABTAda Boost算法的预测性能优于其他几种算法。
[Abstract]:When dealing with class imbalance, the boundary instances of a few classes are easily misclassified. In order to reduce the influence of class imbalance on the performance of classifier, an adaptive boundary sampling algorithm (AB-SMOTE). AB-SMOTE algorithm is proposed to self-adaptively sample a few kinds of boundary samples, which improves the balance and effectiveness of the data set. At the same time, the integration of AB-SMOTE algorithm and data cleaning technology is combined to form the ABTAdaBoost.ABTAda Boost algorithm based on Ada Boost, which includes three stages: to reduce the class imbalance of the data set by using AB-SMOTE algorithm to the training data set; The Tomek links data cleaning technique is used to remove the noise in the data set and the overlapping sample generated by the sampling method, which effectively improves the availability of the data, and uses the Ada Boost integration algorithm to generate an integrated classifier based on N weak classifiers. J48 decision tree and naive Bayes are used as basis classifiers respectively. The experimental results on 12 UCI datasets show that the prediction performance of UCI Boost algorithm is superior to that of other algorithms.
【作者单位】: 南通大学电子信息学院;南通大学计算机科学与技术学院;南通理工学院计算机与信息工程学院;
【基金】:国家自然科学基金资助项目(NSF61202006/61272424) 计算机软件新技术国家重点实验室开放课题(KFKT2012B29) 江苏省自然科学基金资助项目(BK2010277) 江苏省科技创新基金资助项目(BC2013167)
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 杨娟娟;;大型数据中心数据清理的策略与方法[J];中国金融电脑;2011年09期

2 覃远翔;段亮;岳昆;;基于信息熵的不确定性数据清理方法[J];计算机应用;2013年09期

3 赵江,徐鲁安;基于AdaBoost算法的目标检测[J];计算机工程;2004年04期

4 徐启华;杨瑞;;基于AdaBoost算法的故障诊断仿真研究[J];计算机工程与设计;2005年12期

5 杨艳;燕东渭;赵奎锋;魏亭;;综合学习方法AdaBoost在暴雨预测中的应用[J];计算机系统应用;2007年01期

6 何毓知;陆建峰;;基于Adaboost的行道线检测[J];江南大学学报(自然科学版);2007年06期

7 郭乔进;李立斌;李宁;;一种用于不平衡数据分类的改进AdaBoost算法[J];计算机工程与应用;2008年21期

8 别致;周俊生;陈家骏;;基于SVM-Adaboost的中文组块分析[J];计算机工程与应用;2008年21期

9 何海燕;施培蓓;;基于改进AdaBoost算法的行人检测方法[J];安庆师范学院学报(自然科学版);2009年03期

10 ;Large scale classification with local diversity AdaBoost SVM algorithm[J];Journal of Systems Engineering and Electronics;2009年06期

相关会议论文 前6条

1 Jia Mingxing;Du Junqiang;Cheng Tao;Yang Ning;Jiang Yi;Zhang Zhen;;An Improved Detection Algorithm of Face with Combining AdaBoost and SVM[A];第25届中国控制与决策会议论文集[C];2013年

2 杨韶瑞;高爱华;秦文罡;;基于支持向量机和AdaBoost的行人检测[A];2011西部光子学学术会议论文摘要集[C];2011年

3 李雅芹;杨慧中;;基于改进的Adaboost.RT模糊支持向量回归机集成算法[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

4 眭新光;沈蕾;燕继坤;朱中梁;;基于Adaboost的文本隐写分析[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

5 易辉;宋晓峰;姜斌;王定成;;基于AdaBoost方法的支持向量机训练样本选择[A];2009全国虚拟仪器大会论文集(一)[C];2009年

6 ;Pedestrian Detection Using Haar-Like Features Based on Visual Memory[A];Proceedings of 14th Chinese Conference on System Simulation Technology & Application(CCSSTA’2012)[C];2012年

相关博士学位论文 前5条

1 吴涛;粒子群及量子行为粒子群优化算法的改进研究[D];西南交通大学;2014年

2 蔡先发;基于图的半监督算法及其应用研究[D];华南理工大学;2013年

3 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年

4 孙岩;贝叶斯网络结构学习算法研究与应用[D];大连理工大学;2010年

5 吴伟宁;主动学习算法中采样策略研究[D];哈尔滨工业大学;2013年

相关硕士学位论文 前10条

1 李瑞;AdaBoost算法框架下的仿生神经网络算法[D];西安电子科技大学;2015年

2 阮天波;基于移动智能终端的行车监控系统研究与实现[D];浙江工商大学;2015年

3 解华;AdaBoost多项式算法在选矿电气控制系统中的应用研究[D];辽宁工程技术大学;2015年

4 张晶;基于AdaBoost回归树的多目标预测算法的研究[D];北京交通大学;2017年

5 宋佳花;跌倒检测关键技术研究[D];山东大学;2017年

6 龙敏;基于多示例学习的Adaboost算法及其在人脸检测中的应用[D];上海交通大学;2007年

7 宁轲;基于神经网络扩张的Adaboost人脸检测算法研究[D];广西大学;2013年

8 张德锋;基于肤色模型和Adaboost算法的人脸检测系统[D];大连理工大学;2009年

9 高艳;基于软间隔的AdaBoost弱分类器权重调整算法[D];西安电子科技大学;2011年

10 朱谊强;基于Adaboost算法的实时行人检测系统[D];西北工业大学;2006年



本文编号:2153975

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2153975.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e40c4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com