基于半监督和集成学习的不平衡数据特征选择和分类
本文选题:集成学习 + 半监督学习 ; 参考:《山东师范大学》2016年博士论文
【摘要】:随着大数据时代的到来,机器学习和数据挖掘技术正面临着前所未有的机遇和挑战。作为机器学习最核心的研究领域之一,分类问题受到了研究者持续而广泛的关注,并且出现了大量的经典理论、算法模型和应用软件。但是在现实应用领域,获取到的分类数据集经常存在类别间样本数分布不平衡的情况,造成传统分类器的分类效果明显下降,这种情况被称为类别不平衡问题。简单而言,类别不平衡就是一个类中的样本数量要明显少于另一个(或几个)类。类别不平衡问题在通讯、互联网、生态学、生物学、医学等领域广泛存在,并被列为当前数据挖掘界最突出问题之一。从学习的角度分析,少数类往往包含更重要的分类信息而且错分少数类样本的代价会更高。但是由于少数类样本不但与一些异常且重要的情况有着密切的关联,而且获取少数类样本的成本更高,因此识别的难度往往会更大。另一方面,由于大多数标准的分类算法只考虑训练集为平衡的情况,当面临不平衡数据的时候就可能会生成不理想的分类器。近几年来,由于类不平衡问题在许多应用场景中经常出现,不平衡数据分类已经成为机器学习和数据挖掘研究群体的关注热点。鉴于此,本文基于集成学习和半监督学习的相关方法,对不平衡数据的分类和特征选择问题展开了研究。现将本文的主要工作和成果总结如下:1)当前搜索引擎公司普遍受到垃圾网页(web spam)问题的困扰,本文针对不平衡垃圾网页数据集提出了一种结合过采样方法SMOTE与随机森林的改进方法SMOTERF。在WEBSPAM-UK2007数据集上的对比实验表明,本文方法在分类结果,尤其是AUC值上有了明显提升。即使与参数优化后的随机森林对比,其AUC值也有一定提高。本文方法简单且泛化能力强,可以用于搜索引擎垃圾网页检测。2)基于近几年提出的一个高效的集成学习算法旋转森林,本文提出了三个改进算法,并分别应用于不平衡的垃圾网页检测和高度不平衡数据分类的问题中。首先,本文先用SMOTE方法平衡垃圾网页数据集的原始分布,再利用改进的嵌套旋转森林算法进行分类。实验结果证明SMOTE和嵌套旋转森林的结合方法可以明显地提高不平衡的垃圾网页数据集的分类效果。针对高度不平衡数据集的分类问题,本文将两个经典的不平衡预处理方法随机欠采样和SMOTE过采样分别嵌入到旋转森林的特征提取过程中,生成了两个改进算法SROForest和RUROForest。在22个高度不平衡数据集上的对比实验结果表明,本文方法对AUC值的提高较为明显。非参数统计结果也证明了本文方法,尤其是RUROForest的表现优于其他对比方法。3)由于在许多现实数据集中,类别分布不平衡和标记样本数量过少的情况经常同时存在,因此,本文提出了一系列SMOTE与半监督框架下的自标记技术和多分类器模型的结合方法,来解决欠标记且不平衡的垃圾网页数据集分类问题。在部分标记的WEBSPAM-UK2007数据集上的对比实验结果表明,本文提出的方法,特别是基于多分类器模型的方法能够在基本不降低分类精度的前提下,显著提高spam类的recall值和整体的AUC值,是解决只有少量标记且类不平衡数据集分类问题的一个有效策略。4)针对利用高维不平衡的卵巢癌微阵列数据进行诊断及生存预测的问题,本文提出了一个基于随机森林的过滤式不平衡特征选择算法IFSRF。该算法选用AUC值作为特征选择时的评价指标,因此可以显著降低类分布不平衡给分类系统带来的负面影响。实验结果表明IFSRF能够明显提高所有分类器特别是随机森林在卵巢癌诊断、生存预测和复发预测3个不平衡数据集上的AUC值,同时还能保证整体分类精度略有提高。本文方法实现简单且鲁棒性强,可以广泛用于癌症微阵列数据集的分类问题中。综上所述,本文针对垃圾网页检测、高度不平衡数据分类和卵巢癌诊断与生存预测等不平衡数据分类问题,从样本的预处理、集成学习、半监督学习和特征选择等几个不同的角度提出了相应的解决方案,并通过实验验证了它们的有效性。本文工作可以为今后的不平衡数据分类研究提供帮助。
[Abstract]:With the advent of large data age , the technology of machine learning and data mining is facing unprecedented opportunities and challenges . As one of the most important research fields of machine learning , the classification problem has been studied by researchers . This paper presents an effective strategy for the classification of cancer microarray data . The results show that the method is simple and robust and can be widely used in the classification of cancer microarray data sets .
【学位授予单位】:山东师范大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP181;TP393.092
【相似文献】
相关期刊论文 前10条
1 王胜祥;现实、实践与理论——兼谈图书馆高位理论[J];黑龙江图书馆;1990年02期
2 王健庭;火信号的采集与相关修正[J];数据采集与处理;1987年02期
3 陈国阶;我国东西部发展不平衡与西部开发[J];科技导报;1995年07期
4 王萌;施艳艳;王海明;沈明辉;;不平衡电网电压下双馈风力发电系统强励控制[J];测控技术;2014年07期
5 漫征;;克服地区落后论的错误思想[J];新闻战线;1960年11期
6 ;来稿选题建议[J];青年研究;1999年01期
7 沈睿;;区域发展不平衡——不同地域中小企业信息化建设差距较大[J];每周电脑报;2004年08期
8 张昕竹;用电信普遍服务政策改善经济发展不平衡[J];通信世界;2001年16期
9 周耘;;试论我国年鉴发展的不平衡性[J];图书馆学研究;1987年04期
10 刘叶婷;;智慧城市应依“标”而建[J];信息化建设;2013年09期
相关会议论文 前6条
1 张雨石;唐丽敏;王庸凯;陈文科;;关于中日航线集装箱运量不平衡原因的分析[A];中国航海学会——2004年度学术交流会优秀论文集[C];2004年
2 廖芳宇;;基于LabVIEW的三相不平衡的测量[A];2011年云南电力技术论坛论文集(入选部分)[C];2011年
3 沙鹏程;;关于西部民营企业可持续发展的思考[A];第十四次全国回族学研讨会论文汇编[C];2003年
4 张敦伟;丁博;;配电网三相不平衡补偿的探讨[A];2007中国电机工程学会电力系统自动化专委会供用电管理自动化学科组(分专委会)二届三次会议论文集[C];2007年
5 王仲生;王翔;;转子不平衡自愈监控系统设计[A];第七届全国信息获取与处理学术会议论文集[C];2009年
6 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关重要报纸文章 前10条
1 本报记者 刘金松;教育最大的不公平是教育资源不平衡[N];经济观察报;2014年
2 程凯;解决不平衡还要靠市场[N];中华工商时报;2005年
3 本报见习记者 周宁;示范小城镇建设“四个不平衡”[N];经济信息时报;2013年
4 记者 张黎明;我市治堵工作进展不平衡[N];金华日报;2014年
5 本报记者 任s,
本文编号:1842613
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1842613.html