极限学习机不平衡数据分类算法研究
发布时间:2021-07-11 22:21
不平衡数据分类是数据挖掘和模式识别领域的一个重要研究内容,引起了国内外学者的广泛关注。实际应用中很多数据样本具有类分布不平衡问题,现有不平衡数据分类算法关注整体识别率,忽视小类样本识别率。因此,如何在提高小类样本识别率的同时兼顾大类样本的识别率成为数据挖掘领域的一个极具挑战性的问题。极限学习机具有快速、简单易实现、泛化性较强的特点,因而被广泛应用于分类问题研究,但极限学习机学习不平衡数据研究起步较晚,相比传统神经网络需要更多的隐含层节点,输出稳定性受随机参数影响,训练样本权值依赖算法输入并影响算法的泛化性能,算法抗噪声的能力有待提高等问题。已有研究表明,传统的局部优化算法训练神经网络难以对此类问题进行有效求解。基于种群的优化算法是受自然界群体智能启发而提出,是寻找优化问题近似最优解的一种有效方法,已经被广泛用于训练神经网络,表现出了较强的全局优化能力。此外,集成学习技术是减少极限学习机随机参数对算法输出稳定性影响的另一种方法。本文的研究正是基于此展开,主要从如何提高加权极限学习机学习不平衡数据能力的角度出发,提出了三种加权极限学习机不平衡数据分类算法,并改进了一个应用于蛋白质泛素化位点...
【文章来源】:西北大学陕西省 211工程院校
【文章页数】:114 页
【学位级别】:博士
【部分图文】:
本文的结构框图
第二章 自适应差分进化优化的加权极限学习机分类算法用Friedman test对各算法性能在所有数据集上按G-mean计算平均秩的结果如表2.8,其中显著性水平设置为 0.05。Friedman test 的 p 值为 2.8e-14,零假设被拒绝。接下来用Nemenyi post-hoc test[103-104]来说明究竟哪个算法性能是最优的。用 Nemenyi post-hoc test 将10 个算法平均 G-mean 秩在 x 轴上按升序排列。如图 2.3,每个算法的平均秩用红色的‘*’标识。黑色的‘↓’给出了算法的关键差异,‘↓’右边的算法性能都比‘↓’所代表的算法性能差,而‘↓’左边的算法性能都比‘↓’所代表的算法性能好。每两个相邻算法之间连接的横线表示两个算法性能差异大小。从图 2.3 可以看出,SADE-WELM 算法的性能优于其它算法。表 2.8 SADE-WELM 与相关算法的 Friedman test 的平均秩比较结果p-value WSVM Over-BaggingUnder-BaggingRUS-BoostEasy-EnsembleWELM EN-WELME-WELMSADE-WELM2.8e-14 7.6 6.125 7.3333 6 5.8666 4.6666 3.1333 2.8 1.2
连接相邻两个算法之间的横线表示了这两个算法性能的差异大小。如图3.4 所示,本章提出的 IABC-WELM 算法性能优于其右边的 9 个算法,而 SADE-WELM的性能是所有算法中最优的。p-value WSVM Over-BaggingUnder-BaggingRUS-BoostEasy-EnsembleWELM EN-WELME-WELMABC-WELMIABC-WELMSADE-WELM7.4e-18 9.6 8.433 9.266 7.466 8.2 6.66 4.866 4.933 3.7 2.5 1.266
【参考文献】:
博士论文
[1]基于神经网络的不平衡数据分类方法研究[D]. 杨泽平.华东理工大学 2015
[2]基于元启发优化极限学习机的分类算法及其应用研究[D]. 马超.吉林大学 2014
[3]针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D]. 王瑞.中国科学技术大学 2013
[4]基于数据挖掘技术的蛋白质功能预测研究[D]. 孙承磊.上海大学 2013
[5]进化计算优化前向神经网络的学习方法研究[D]. 季伟东.东北林业大学 2013
[6]高维生物数据的分类与预测研究[D]. 王彤.上海交通大学 2009
本文编号:3278690
【文章来源】:西北大学陕西省 211工程院校
【文章页数】:114 页
【学位级别】:博士
【部分图文】:
本文的结构框图
第二章 自适应差分进化优化的加权极限学习机分类算法用Friedman test对各算法性能在所有数据集上按G-mean计算平均秩的结果如表2.8,其中显著性水平设置为 0.05。Friedman test 的 p 值为 2.8e-14,零假设被拒绝。接下来用Nemenyi post-hoc test[103-104]来说明究竟哪个算法性能是最优的。用 Nemenyi post-hoc test 将10 个算法平均 G-mean 秩在 x 轴上按升序排列。如图 2.3,每个算法的平均秩用红色的‘*’标识。黑色的‘↓’给出了算法的关键差异,‘↓’右边的算法性能都比‘↓’所代表的算法性能差,而‘↓’左边的算法性能都比‘↓’所代表的算法性能好。每两个相邻算法之间连接的横线表示两个算法性能差异大小。从图 2.3 可以看出,SADE-WELM 算法的性能优于其它算法。表 2.8 SADE-WELM 与相关算法的 Friedman test 的平均秩比较结果p-value WSVM Over-BaggingUnder-BaggingRUS-BoostEasy-EnsembleWELM EN-WELME-WELMSADE-WELM2.8e-14 7.6 6.125 7.3333 6 5.8666 4.6666 3.1333 2.8 1.2
连接相邻两个算法之间的横线表示了这两个算法性能的差异大小。如图3.4 所示,本章提出的 IABC-WELM 算法性能优于其右边的 9 个算法,而 SADE-WELM的性能是所有算法中最优的。p-value WSVM Over-BaggingUnder-BaggingRUS-BoostEasy-EnsembleWELM EN-WELME-WELMABC-WELMIABC-WELMSADE-WELM7.4e-18 9.6 8.433 9.266 7.466 8.2 6.66 4.866 4.933 3.7 2.5 1.266
【参考文献】:
博士论文
[1]基于神经网络的不平衡数据分类方法研究[D]. 杨泽平.华东理工大学 2015
[2]基于元启发优化极限学习机的分类算法及其应用研究[D]. 马超.吉林大学 2014
[3]针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D]. 王瑞.中国科学技术大学 2013
[4]基于数据挖掘技术的蛋白质功能预测研究[D]. 孙承磊.上海大学 2013
[5]进化计算优化前向神经网络的学习方法研究[D]. 季伟东.东北林业大学 2013
[6]高维生物数据的分类与预测研究[D]. 王彤.上海交通大学 2009
本文编号:3278690
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3278690.html