基于聚类欠采样的集成不均衡数据分类算法
本文选题:不均衡数据 切入点:欠采样 出处:《工程科学学报》2017年08期
【摘要】:传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.
[Abstract]:Most of the traditional classification algorithms assume that the data set is balanced and pursue the overall classification accuracy, but the actual data set is often unbalanced. Therefore, the traditional classification algorithm is easy to cause a high classification error rate of a few kinds of samples when dealing with actual data sets. There are two kinds of improved classification methods for unbalanced data sets: one is to improve the data level. The method of over-sampling or under-sampling is used to increase or reduce the number of classes of data, the other is to improve the algorithm level. Using the idea of combining two methods, the unbalanced data is classified, that is, in the stage of data processing, the method of under-sampling based on clustering is used to form the balanced data set, and then the new data set is classified and trained by AdaBoost integration algorithm. In the process of algorithm integration, the weight is used to distinguish the contribution of a few class data from the majority class data to calculate the learning error rate of integration, which makes the algorithm pay more attention to a few data classes and improve the classification accuracy of a few class data.
【作者单位】: 北京科技大学东凌经济管理学院;
【基金】:国家自然科学基金资助项目(71271027) 高等学校博士学科点专项科研基金资助项目(20120006110037)
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 方丁;王刚;;基于集成学习理论的文本情感分类[J];计算机系统应用;2012年07期
2 陈华;魏连;郑志娴;许榕生;;基于集成学习的网络取证模型[J];福建电脑;2007年10期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 周绪川;钟勇;;集成学习分布式异常检测方法[J];计算机工程与应用;2011年18期
5 牛小飞;马军;马少平;张冬梅;;基于遗传规划集成学习的网络作弊检测[J];中文信息学报;2012年05期
6 文益民;李健;杜飞明;陈方;;集成学习算法在不平衡分类中的应用研究[J];计算技术与自动化;2009年02期
7 游生福;汪荣贵;戴经成;张冬梅;;自适应嵌套级联的在线集成学习方法研究[J];计算机工程与应用;2014年05期
8 孙建文;杨宗凯;刘三(女牙);王佩;;基于集成学习与遗传算法的网络书写纹识别研究[J];计算机科学;2011年06期
9 孔英会;景美丽;;基于混淆矩阵和集成学习的分类方法研究[J];计算机工程与科学;2012年06期
10 文益民;王耀南;;基于训练集平行分割的集成学习算法研究[J];小型微型计算机系统;2009年05期
相关会议论文 前2条
1 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
相关博士学位论文 前4条
1 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
4 刘增荣;视听觉情感语义相干及应用研究[D];太原理工大学;2012年
相关硕士学位论文 前10条
1 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年
2 汤莹;迁移与集成学习在文本分类中的应用研究[D];江苏科技大学;2015年
3 刘政;基于知识元和集成学习的中文微博情感分析[D];大连理工大学;2015年
4 丘桥云;结合文本倾向性分析的股评可信度计算研究[D];哈尔滨工业大学;2014年
5 李想;基于多示例的集成学习理论与应用研究[D];合肥工业大学;2014年
6 李震宇;基于集成学习的数字图像隐写定量分析[D];解放军信息工程大学;2014年
7 陈范曙;基于信息整合的药物相关信息挖掘方法研究[D];华东师范大学;2016年
8 游攀利;基于集成SVM的文本分类方法研究[D];华中科技大学;2014年
9 陶杰;基于集成学习的短文本主客观分类研究[D];安徽工业大学;2016年
10 徐燕会;基于神经影像的进展型轻度认知功能障碍识别研究[D];安徽工业大学;2016年
,本文编号:1662030
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1662030.html