一种基于Boosting的集成学习算法在不均衡数据中的分类
本文关键词:一种基于Boosting的集成学习算法在不均衡数据中的分类
【摘要】:针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取了10组UCI和KEEL选取的测试数据集进行测试,结果表明本算法在有效提取关键特征后提高了Adaboost的稳定性,在十组数据的分类精度上相比单纯使用KNN分类器有20%~40%不等的提高.在本算法和其他state-of-the-art集成分类算法对比中,BPSO-Adaboost-KNN能够取得较优或相当的结果.最后,本文将该算法应用到石油储层含油性的识别中,成功提取了声波、孔隙度和含油饱和度三个关键属性,在分类精度上相比传统分类算法有了大幅度提高,在江汉油田五口油井oilsk81~oilsk85上的分类精度均达到98%以上,比单纯使用KNN的精度高出了20%,尤其在最易错分的油层和差油层中有良好的分类效果.
【作者单位】: 中国地质大学经济管理学院;中国地质大学数字化商务与智能管理研究中心;
【基金】:国家自然科学基金(71103163,71103164,71301153,71573237) 教育部新世纪优秀人才支持计划(NCET-13-1012) 中央高校基本科研业务费专项资金资助(CUG120111,CUG110411,G2012002A,CUG140604) 构造与油气资源教育部重点实验室开放课题(TPR-2011-11)~~
【分类号】:TP391.4
【正文快照】: i引言分类问题是机器学习领域的重点研究内容,目前相关的分类方法已经非常成熟,如传统的决策树、贝叶斯、人工神经网络、K-近邻、支持向量机等.但这些分类方法在处理不均衡数据分类时的表现往往比在类别均衡的数据差,不能达到理想的分类效果.所谓不均衡数据是指在数据集中某个
【相似文献】
中国期刊全文数据库 前10条
1 袁汉宁;;双层多示例集成学习[J];武汉理工大学学报(信息与管理工程版);2011年05期
2 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
3 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期
4 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期
5 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期
6 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
7 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期
8 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期
9 张燕平;曹振田;赵姝;郑尧军;杜玲;窦蓉蓉;;一种新的决策树选择性集成学习方法[J];计算机工程与应用;2010年17期
10 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前4条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年
2 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
3 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
6 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
7 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年
8 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
9 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年
10 林智勇;基于核方法的不平衡数据学习[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年
2 宋文展;基于抽样的集成进化算法研究[D];广西大学;2015年
3 汤莹;迁移与集成学习在文本分类中的应用研究[D];江苏科技大学;2015年
4 刘政;基于知识元和集成学习的中文微博情感分析[D];大连理工大学;2015年
5 张妤;支持向量机集成学习方法研究[D];山西大学;2008年
6 李涛;基于条件互信息的集成学习的研究与应用[D];中国海洋大学;2009年
7 杨长盛;基于成对差异性度量的选择性集成学习方法研究[D];安徽大学;2010年
8 曹振田;基于Q统计量的选择性集成学习研究[D];安徽大学;2010年
9 王丽丽;集成学习算法研究[D];广西大学;2006年
10 马冉冉;集成学习算法研究[D];山东科技大学;2010年
,本文编号:1167691
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1167691.html