当前位置:主页 > 医学论文 > 医卫管理论文 >

混合型缺失数据填补方法比较与应用

发布时间:2021-05-09 21:52
  目的针对混合型缺失数据,使用几种填补方法在缺失填补中的应用并评价填补效果。方法结合实际数据,模拟出不同缺失比例(10%、20%、30%、50%),采用MissForest、因子分析(FAMD)、K-最近邻填补法(KNN)和基于链式方程多重插补(MICE)四种方法进行填补;采用错分类比例(PFC)、正则化均方根误差(NRMSE)和回归系数估计值比较填补效果。结果20FAMD与MissForest相比,对分类变量填补表现优越。缺失比例是10%时,FAMD与MissForest表现优于KNN和MICE;缺失比例是20%时FAMD明显优于其它三种方法,但是MissForest表现亦可;缺失比例是30%时,四种模型表现明显下降,处理效果均不太理想;缺失比例是50%时,虽然FAMD仍有两个变量符合优良标准,但对某些变量估计误差较大,其它三种方法填补均失效。结论20FAMD填补方法总体表现较好,面对混合型缺失数据时可以考虑优先选用。 

【文章来源】:中国卫生统计. 2020,37(03)北大核心CSCD

【文章页数】:5 页

【文章目录】:
原理与方法
    1.MissForest 填补
    2.FMAD填补
    3. KNN填补
    4. MICE填补
模拟分析
    1. 模拟思路
    2. 模拟完整数据集与模型构建
    3. 评价指标
    4. 模拟结果
实例应用
    1. 资料来源
    2. 分析方法及评价标准
结果与分析
    1. 四种方法的NRMSE和PFC
    2. 不同缺失比例下变量的回归系数
讨 论


【参考文献】:
期刊论文
[1]基于R软件的缺失数据MICE填补效果研究[J]. 章涛,朱麟,季加东,袁中尚,薛付忠,李秀君.  中国卫生统计. 2015(04)
[2]缺失森林算法在缺失值填补中的应用[J]. 沈琳,胡国清,陈立章,谭红专.  中国卫生统计. 2014(05)



本文编号:3178088

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3178088.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户049df***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com