Logistic回归模型中缺失数据的处理
发布时间:2017-10-02 20:14
本文关键词:Logistic回归模型中缺失数据的处理
【摘要】:数据缺失的问题在现在的社会调查和实验研究领域非常常见。缺失数据也被称作不完全数据,会给统计分析带来复杂性,造成统计偏差,影响调查结果。传统的数据缺失处理方法具有局限性,处理技术的不断发展使得应用更先进方法成为了可能。本文是针对缺失数据的填补方法,通过参数估计的相对误差大小和模型拟合效果来比较三种较为常见的缺失数据的处理方法。文章采用的案例是Logistic回归模型,通过模拟缺失率为5%,10%,15%,20%,30%,40%,50%的七种随机缺失情况,来比较EM算法、回归插补法和均值插补法三种处理方法。
【关键词】:缺失数据 均值插补法 回归插补法 EM算法
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:C81
【目录】:
- 摘要5-6
- Abstract6-7
- 第一章 引言7-11
- 1.1 选题背景及研究意义7
- 1.2 国内外研究概况7-9
- 1.2.1 国外研究概况7-9
- 1.2.2 国内研究概况9
- 1.3 本文的主要内容和创新9-11
- 1.3.1 本文的主要内容9-10
- 1.3.2 本文的主要创新10-11
- 第二章 缺失数据的介绍及处理方法11-22
- 2.1 缺失数据的定义11
- 2.2 缺失数据产生的原因11-12
- 2.3 缺失数据的缺失机制12-13
- 2.3.1 完全随机缺失(MCAR)12
- 2.3.2 随机缺失(MAR)12
- 2.3.3 非随机缺失(NMAR)12-13
- 2.4 数据缺失模式13-15
- 2.5 缺失数据处理方法总述15-16
- 2.6 常用统计方法16-22
- 2.6.1 均值插补法16-17
- 2.6.2 回归插补法17-18
- 2.6.3 EM算法(期望最大化法)18-20
- 2.6.4 多重插补法20-22
- 第三章 Logistic模型极大似然估计的EM算法22-25
- 3.1 Logistic回归模型定义及其性质22
- 3.2 Logistic模型的极大似然估计22-24
- 3.3 不完全数据下的Logistic模型24
- 3.4 Logistic模型的EM算法实现24-25
- 第四章 缺失数据不同插补法的实证分析25-31
- 4.1 样本选取25-26
- 4.2 完整数据集的Logistic回归26-27
- 4.3 不同缺失率数据集的分析27-31
- 4.3.1 缺失率为5%的数据集的分析27
- 4.3.2 缺失率为10%的数据集的分析27-28
- 4.3.3 缺失率为15%的数据集的分析28
- 4.3.4 缺失率为20%的数据集的分析28
- 4.3.5 缺失率为30%的数据集的分析28-29
- 4.3.6 缺失率为40%的数据集的分析29
- 4.3.7 缺失率为50%的数据集的分析29-30
- 4.3.8 不同缺失率下方法比较的总结30-31
- 第五章 全文总结与展望31-32
- 参考文献32-33
- 致谢33-34
【相似文献】
中国期刊全文数据库 前10条
1 金勇进;缺失数据的加权调整(系列之Ⅳ)[J];数理统计与管理;2001年05期
2 杨金英;崔朝杰;;图模型方法用于二值变量相关性分析中缺失数据的估计[J];中国卫生统计;2012年05期
3 金勇进;缺失数据的偏差校正(系列三)[J];数理统计与管理;2001年04期
4 张朝雄;沈e,
本文编号:961584
本文链接:https://www.wllwen.com/shekelunwen/shgj/961584.html