基于混合采样AdaBoost的地中海贫血数据诊断研究
发布时间:2021-02-28 18:52
地中海贫血病是一种严重的血红蛋白病,目前尚无根治方法,中、重型患者会给家庭和社会带来沉重负担,有效避免其患儿的出生变得尤为重要。目前机器学习在地中海贫血预警领域应用不广,文中提出了一种新的混合采样AdaBoost算法,对少类样本进行DSMOTE处理,对多类样本采用随机下采样处理,并将平衡后的数据集送入AdaBoost分类器进行分类训练。针对不同的采样方法和分类器进行仿真验证,结果表明所提方法的综合性能评估具有一定的优越性,对地中海贫血临床预警有一定指导意义。
【文章来源】:数据通信. 2020,(05)
【文章页数】:5 页
【部分图文】:
随机森林特征选择
从表4可以看出以上4种分类模型效果相差不大,但是相对而言LR分类器在FN相差不大的情况下,FP最大,会对受检者造成严重的经济损失。而KNN和SVM性能相差不大,但依然没有Ada Boost好。表5是不同分类器下的评价指标值,相对而言,所提混合采样Ada Boost的Acc、Pre、Spe和F值都有明显优势。图3展示了4种机器学习的5种指标柱状图,图中可以清晰的看出所提出的混合采样下Adaboost算法的各项指标相对其他算法而言具有一定的优势。结合表4和图3可知混合采样Adaboost算法性能最优。
鉴于不平衡数据的特征采用单一采样方法仍存在的缺点,本文提出一种基于混合采样Ada Boost算法。该算法主要从少类样本的生成方式及生成数目入手,并把平衡后的数据集送入Ada Boost算法,在数据层对比了SMOTE过采样和Under下采样;算法层对比了LR、KNN和SVM分类器。实验结果表明,所提方法在评价指标上存在一定的优越性,可为地中海贫血临床预警提供一定的参考价值。
【参考文献】:
期刊论文
[1]基于随机森林模型的交界域火灾风险分析[J]. 侯晓静,明金科,秦荣水,朱霁平. 林业科学. 2019(08)
[2]不平衡分类的数据采样方法综述[J]. 刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍. 重庆理工大学学报(自然科学). 2019(07)
[3]基于概率采样和集成学习的不平衡数据分类算法[J]. 曹雅茜,黄海燕. 计算机科学. 2019(05)
[4]基于KELM-AdaBoost方法的短期风电功率预测(英文)[J]. 李军,闫佳佳. 控制工程. 2019(03)
[5]基于混合采样的非平衡数据分类算法[J]. 吴艺凡,梁吉业,王俊红. 计算机科学与探索. 2019(02)
[6]基于混淆矩阵的多目标优化三支决策模型[J]. 徐健锋,苗夺谦,张远健. 模式识别与人工智能. 2017(09)
[7]中国南方地区地中海贫血研究进展[J]. 杨阳,张杰. 中国实验血液学杂志. 2017(01)
[8]基于AdaBoost的类不平衡学习算法[J]. 秦孟梅,邱建林,陆鹏程,陈璐璐,赵伟康. 计算机应用研究. 2017(11)
[9]Constructing ECOC based on confusion matrix for multiclass learning problems[J]. Jindeng ZHOU,Yun YANG,Mingjie ZHANG,Haibo XING. Science China(Information Sciences). 2016(01)
[10]基于聚类融合的不平衡数据分类方法[J]. 陈思,郭躬德,陈黎飞. 模式识别与人工智能. 2010(06)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]地中海贫血疾病筛查方案的Meta分析[D]. 任俊香.昆明理工大学 2016
本文编号:3056293
【文章来源】:数据通信. 2020,(05)
【文章页数】:5 页
【部分图文】:
随机森林特征选择
从表4可以看出以上4种分类模型效果相差不大,但是相对而言LR分类器在FN相差不大的情况下,FP最大,会对受检者造成严重的经济损失。而KNN和SVM性能相差不大,但依然没有Ada Boost好。表5是不同分类器下的评价指标值,相对而言,所提混合采样Ada Boost的Acc、Pre、Spe和F值都有明显优势。图3展示了4种机器学习的5种指标柱状图,图中可以清晰的看出所提出的混合采样下Adaboost算法的各项指标相对其他算法而言具有一定的优势。结合表4和图3可知混合采样Adaboost算法性能最优。
鉴于不平衡数据的特征采用单一采样方法仍存在的缺点,本文提出一种基于混合采样Ada Boost算法。该算法主要从少类样本的生成方式及生成数目入手,并把平衡后的数据集送入Ada Boost算法,在数据层对比了SMOTE过采样和Under下采样;算法层对比了LR、KNN和SVM分类器。实验结果表明,所提方法在评价指标上存在一定的优越性,可为地中海贫血临床预警提供一定的参考价值。
【参考文献】:
期刊论文
[1]基于随机森林模型的交界域火灾风险分析[J]. 侯晓静,明金科,秦荣水,朱霁平. 林业科学. 2019(08)
[2]不平衡分类的数据采样方法综述[J]. 刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍. 重庆理工大学学报(自然科学). 2019(07)
[3]基于概率采样和集成学习的不平衡数据分类算法[J]. 曹雅茜,黄海燕. 计算机科学. 2019(05)
[4]基于KELM-AdaBoost方法的短期风电功率预测(英文)[J]. 李军,闫佳佳. 控制工程. 2019(03)
[5]基于混合采样的非平衡数据分类算法[J]. 吴艺凡,梁吉业,王俊红. 计算机科学与探索. 2019(02)
[6]基于混淆矩阵的多目标优化三支决策模型[J]. 徐健锋,苗夺谦,张远健. 模式识别与人工智能. 2017(09)
[7]中国南方地区地中海贫血研究进展[J]. 杨阳,张杰. 中国实验血液学杂志. 2017(01)
[8]基于AdaBoost的类不平衡学习算法[J]. 秦孟梅,邱建林,陆鹏程,陈璐璐,赵伟康. 计算机应用研究. 2017(11)
[9]Constructing ECOC based on confusion matrix for multiclass learning problems[J]. Jindeng ZHOU,Yun YANG,Mingjie ZHANG,Haibo XING. Science China(Information Sciences). 2016(01)
[10]基于聚类融合的不平衡数据分类方法[J]. 陈思,郭躬德,陈黎飞. 模式识别与人工智能. 2010(06)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]地中海贫血疾病筛查方案的Meta分析[D]. 任俊香.昆明理工大学 2016
本文编号:3056293
本文链接:https://www.wllwen.com/yixuelunwen/xxg/3056293.html
最近更新
教材专著