混合型缺失数据填补方法比较与应用
发布时间:2021-05-09 21:52
目的针对混合型缺失数据,使用几种填补方法在缺失填补中的应用并评价填补效果。方法结合实际数据,模拟出不同缺失比例(10%、20%、30%、50%),采用MissForest、因子分析(FAMD)、K-最近邻填补法(KNN)和基于链式方程多重插补(MICE)四种方法进行填补;采用错分类比例(PFC)、正则化均方根误差(NRMSE)和回归系数估计值比较填补效果。结果20FAMD与MissForest相比,对分类变量填补表现优越。缺失比例是10%时,FAMD与MissForest表现优于KNN和MICE;缺失比例是20%时FAMD明显优于其它三种方法,但是MissForest表现亦可;缺失比例是30%时,四种模型表现明显下降,处理效果均不太理想;缺失比例是50%时,虽然FAMD仍有两个变量符合优良标准,但对某些变量估计误差较大,其它三种方法填补均失效。结论20FAMD填补方法总体表现较好,面对混合型缺失数据时可以考虑优先选用。
【文章来源】:中国卫生统计. 2020,37(03)北大核心CSCD
【文章页数】:5 页
【文章目录】:
原理与方法
1.MissForest 填补
2.FMAD填补
3. KNN填补
4. MICE填补
模拟分析
1. 模拟思路
2. 模拟完整数据集与模型构建
3. 评价指标
4. 模拟结果
实例应用
1. 资料来源
2. 分析方法及评价标准
结果与分析
1. 四种方法的NRMSE和PFC
2. 不同缺失比例下变量的回归系数
讨 论
【参考文献】:
期刊论文
[1]基于R软件的缺失数据MICE填补效果研究[J]. 章涛,朱麟,季加东,袁中尚,薛付忠,李秀君. 中国卫生统计. 2015(04)
[2]缺失森林算法在缺失值填补中的应用[J]. 沈琳,胡国清,陈立章,谭红专. 中国卫生统计. 2014(05)
本文编号:3178088
【文章来源】:中国卫生统计. 2020,37(03)北大核心CSCD
【文章页数】:5 页
【文章目录】:
原理与方法
1.MissForest 填补
2.FMAD填补
3. KNN填补
4. MICE填补
模拟分析
1. 模拟思路
2. 模拟完整数据集与模型构建
3. 评价指标
4. 模拟结果
实例应用
1. 资料来源
2. 分析方法及评价标准
结果与分析
1. 四种方法的NRMSE和PFC
2. 不同缺失比例下变量的回归系数
讨 论
【参考文献】:
期刊论文
[1]基于R软件的缺失数据MICE填补效果研究[J]. 章涛,朱麟,季加东,袁中尚,薛付忠,李秀君. 中国卫生统计. 2015(04)
[2]缺失森林算法在缺失值填补中的应用[J]. 沈琳,胡国清,陈立章,谭红专. 中国卫生统计. 2014(05)
本文编号:3178088
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3178088.html