缺失值填补效果:机器学习与统计学习的比较
发布时间:2021-06-22 05:01
数据缺失是众多影响数据质量的因素中最常见的一种。如果处理不好缺失数据,就会直接影响分析结果的可靠性,进而达不到分析的目的。文章以医疗领域的缺失值问题为例,通过灵敏度、准确率和Kappa值三个指标来比较分析机器填补法和统计填补法在不同缺失率下的填补效果。研究结果表明,在注重小比例人群的医疗领域,机器学习方法表现突出,该方法在三个方面皆优于统计填补法。另外,随着缺失率的增长,两种填补方法的效果都有所下降,但值得注意的是,即使缺失率很高时,机器学习方法的填补效果仍然优于统计方法,且具有很高的稳定性。
【文章来源】:统计与决策. 2020,36(17)北大核心CSSCI
【文章页数】:5 页
【部分图文】:
不同缺失率下各填补方法的灵敏度变化情况100%100%90%C5.0SVMRFMI热卡填补众数填补90%85%10%30%40%50%0%10%30%40%50%
谑?畈?0.0000.6500.000MI0.6170.6730.308热卡填补0.6900.7650.5792.3.2不同评价方法下各模型的比较考虑不同缺失率下,代表机器学习和统计方法的各填补方法对填补效果的影响。以准确率、精确率、一致性为分析对象,分别如图1至图3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI热卡填补众数填补图1不同缺失率下各填补方法的灵敏度变化情况100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI热卡填补众数填补图2不同缺失率下各填补方法的准确率变化情况10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI热卡填补众数填补图3不同缺失率下各填补方法的Kappa值变化情况图1灵敏度的评价效果表明,支持向量机随缺失率的变化呈现先增长再下降的趋势,在缺失率为30%时,甚至达到最大值1.000;随机森林随缺失率的增加呈现稳定发展,基本维持在95%的水平。热卡填补法随缺失率的增加不断下降,最终只有不到0.70;多重填补在缺失率大于30%后呈现一定的下降,之后稳定在0.60的水平;众数填补的灵敏度始终维持在0的水平。图2准确率的评价效果表明,随机森林填补法在各缺失率下的变化较为稳定且保持高水平;支持向量机的各项指标在10%~30%的缺失率下保持增长趋势,并在30%处指标值达到最大,此后有所下降;决策树在缺失率40%之前呈稳定变化,此后却出现断崖式下降。热卡填补随着缺失率的增加,不断下降;多重填补法在缺失率不足30%时维持稳定,此后出现明显下降,当缺失率大于40%时,已经下降到0.65;众数填补不随缺失率的改变而变化,始终维持在0.65的水平。图3一致性的评价效果表明,支?
填补,众数填补依然表现最差,除了准确率维持0.650不变外,灵敏度和Kappa值均为0。表650%缺失率下不同模型的各评价指标的情况方法模型灵敏度准确率Kappa值机器学习法C5.00.8920.9500.889RF0.9580.9770.949SVM0.9420.9710.935统计方法众数填补0.0000.6500.000MI0.6170.6730.308热卡填补0.6900.7650.5792.3.2不同评价方法下各模型的比较考虑不同缺失率下,代表机器学习和统计方法的各填补方法对填补效果的影响。以准确率、精确率、一致性为分析对象,分别如图1至图3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI热卡填补众数填补图1不同缺失率下各填补方法的灵敏度变化情况100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI热卡填补众数填补图2不同缺失率下各填补方法的准确率变化情况10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI热卡填补众数填补图3不同缺失率下各填补方法的Kappa值变化情况图1灵敏度的评价效果表明,支持向量机随缺失率的变化呈现先增长再下降的趋势,在缺失率为30%时,甚至达到最大值1.000;随机森林随缺失率的增加呈现稳定发展,基本维持在95%的水平。热卡填补法随缺失率的增加不断下降,最终只有不到0.70;多重填补在缺失率大于30%后呈现一定的下降,之后稳定在0.60的水平;众数填补的灵敏度始终维持在0的水平。图2准确率的评价效果表明,随机森林填补法在各缺失率下的变化较为稳定且保持高水平;支持向量机的各项指标在10%~30%的缺失率下保持增长趋势,并在30%处指标值达到最大,此后有所下降;决策树在缺
【参考文献】:
期刊论文
[1]基于优化决策树和EM的缺失数据填充算法[J]. 梁秉毅,蔡延光,蔡颢,戚远航,黄何列,Ole Hejlesen. 自动化与信息工程. 2017(05)
[2]基于聚类分析的缺失数据最近邻填补算法[J]. 张赤,丰洪才,金凯,杨婷. 计算机应用与软件. 2014(05)
[3]一种基于支持向量机的缺失值填补算法[J]. 张婵. 计算机应用与软件. 2013(05)
[4]基于支持向量机的缺失数据补齐方法[J]. 赵磊,李国和,马现峰. 计算机工程与应用. 2006(36)
本文编号:3242174
【文章来源】:统计与决策. 2020,36(17)北大核心CSSCI
【文章页数】:5 页
【部分图文】:
不同缺失率下各填补方法的灵敏度变化情况100%100%90%C5.0SVMRFMI热卡填补众数填补90%85%10%30%40%50%0%10%30%40%50%
谑?畈?0.0000.6500.000MI0.6170.6730.308热卡填补0.6900.7650.5792.3.2不同评价方法下各模型的比较考虑不同缺失率下,代表机器学习和统计方法的各填补方法对填补效果的影响。以准确率、精确率、一致性为分析对象,分别如图1至图3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI热卡填补众数填补图1不同缺失率下各填补方法的灵敏度变化情况100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI热卡填补众数填补图2不同缺失率下各填补方法的准确率变化情况10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI热卡填补众数填补图3不同缺失率下各填补方法的Kappa值变化情况图1灵敏度的评价效果表明,支持向量机随缺失率的变化呈现先增长再下降的趋势,在缺失率为30%时,甚至达到最大值1.000;随机森林随缺失率的增加呈现稳定发展,基本维持在95%的水平。热卡填补法随缺失率的增加不断下降,最终只有不到0.70;多重填补在缺失率大于30%后呈现一定的下降,之后稳定在0.60的水平;众数填补的灵敏度始终维持在0的水平。图2准确率的评价效果表明,随机森林填补法在各缺失率下的变化较为稳定且保持高水平;支持向量机的各项指标在10%~30%的缺失率下保持增长趋势,并在30%处指标值达到最大,此后有所下降;决策树在缺失率40%之前呈稳定变化,此后却出现断崖式下降。热卡填补随着缺失率的增加,不断下降;多重填补法在缺失率不足30%时维持稳定,此后出现明显下降,当缺失率大于40%时,已经下降到0.65;众数填补不随缺失率的改变而变化,始终维持在0.65的水平。图3一致性的评价效果表明,支?
填补,众数填补依然表现最差,除了准确率维持0.650不变外,灵敏度和Kappa值均为0。表650%缺失率下不同模型的各评价指标的情况方法模型灵敏度准确率Kappa值机器学习法C5.00.8920.9500.889RF0.9580.9770.949SVM0.9420.9710.935统计方法众数填补0.0000.6500.000MI0.6170.6730.308热卡填补0.6900.7650.5792.3.2不同评价方法下各模型的比较考虑不同缺失率下,代表机器学习和统计方法的各填补方法对填补效果的影响。以准确率、精确率、一致性为分析对象,分别如图1至图3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI热卡填补众数填补图1不同缺失率下各填补方法的灵敏度变化情况100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI热卡填补众数填补图2不同缺失率下各填补方法的准确率变化情况10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI热卡填补众数填补图3不同缺失率下各填补方法的Kappa值变化情况图1灵敏度的评价效果表明,支持向量机随缺失率的变化呈现先增长再下降的趋势,在缺失率为30%时,甚至达到最大值1.000;随机森林随缺失率的增加呈现稳定发展,基本维持在95%的水平。热卡填补法随缺失率的增加不断下降,最终只有不到0.70;多重填补在缺失率大于30%后呈现一定的下降,之后稳定在0.60的水平;众数填补的灵敏度始终维持在0的水平。图2准确率的评价效果表明,随机森林填补法在各缺失率下的变化较为稳定且保持高水平;支持向量机的各项指标在10%~30%的缺失率下保持增长趋势,并在30%处指标值达到最大,此后有所下降;决策树在缺
【参考文献】:
期刊论文
[1]基于优化决策树和EM的缺失数据填充算法[J]. 梁秉毅,蔡延光,蔡颢,戚远航,黄何列,Ole Hejlesen. 自动化与信息工程. 2017(05)
[2]基于聚类分析的缺失数据最近邻填补算法[J]. 张赤,丰洪才,金凯,杨婷. 计算机应用与软件. 2014(05)
[3]一种基于支持向量机的缺失值填补算法[J]. 张婵. 计算机应用与软件. 2013(05)
[4]基于支持向量机的缺失数据补齐方法[J]. 赵磊,李国和,马现峰. 计算机工程与应用. 2006(36)
本文编号:3242174
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3242174.html