调查数据缺失值的多重插补研究
发布时间:2017-07-25 16:00
本文关键词:调查数据缺失值的多重插补研究
【摘要】:调查数据中的缺失数据问题普遍存在于抽样调查中,这些缺失数据影响后续统计分析,当今收集数据的技术和途径日益广泛,缺失数据的产生原因多样化,缺失数据成为当今抽样调查中不可避免的一部分。但缺失数据的存在增加统计分析难度,缺失数据会使有效数据减少,可获得的信息相应减少,影响统计量精度。由于不能充分表现总体信息,可能会导致统计推断出现偏差或无效,最终影响统计决策。随着人们研究问题的逐渐加深,传统的删除法和忽略法已经不能满足现实的需要。统计调查缺失数据问题的研究有重要应用价值。 本文首先介绍了论文选题背景和研究意义,并对有关缺失数据研究作了简单文献描述;第2章介绍了缺失数据产生的原因及缺失数据的缺失机制和缺失模式,并详细介绍了均值插补法、回归插补法、EM算法、多重插补法等四种插补方法及其理论基础;第3章分别对单一变量随机缺失和多变量随机缺失进行了系统分析,在不同缺失率及不同抽样比条件下对四种插补方法的插补效果进行比较分析。给出四种插补方法的插补值偏差、均方误差及箱线图;第4章进行了基于模型的多重插补插补效果实证分析;以新农村建设满意度调查为背景材料,运用逻辑回归模型与多重插补相结合的方法进行实证分析,并探讨不同缺失率下的插补效果;第5章是全文总结及缺失数据处理方法研究工作进行展望。最终结果显示,缺失率增加,可用的样本数据所占比例减小,四种插补方法的插补值偏差逐渐加大。EM插补和多重插补两种方法在各缺失率下相对来讲都比较稳定,多重插补方法在中高缺失率下有较大的优势,运用逻辑回归模型与多重插补相结合的方法插补效果良好。
【关键词】:调查数据 缺失率 多重插补方法
【学位授予单位】:河北经贸大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:C81
【目录】:
- 摘要3-4
- Abstract4-5
- 目录5-6
- 1 绪论6-9
- 1.1 选题背景和研究意义6-7
- 1.2 相关文献综述7-8
- 1.3 论文结构及研究方法8
- 1.4 文章创新点8-9
- 2 缺失数据产生原因及常见的缺失数据插补方法9-18
- 2.1 缺失数据产生原因9-10
- 2.2 缺失数据的机制及模式10-12
- 2.2.1 缺失机制10-11
- 2.2.2 缺失模式11-12
- 2.3 常见的缺失数据插补方法综述12-16
- 2.3.1 均值插补12
- 2.3.2 回归插补法12-13
- 2.3.3 EM 算法13-14
- 2.3.4 多重插补14-16
- 2.4 本章小结16-18
- 3 不同状态下缺失数据插补方法的实证分析18-34
- 3.1 不同缺失率下,单变量缺失模式插补效果比较18-28
- 3.2 不同缺失率下,,多变量缺失模式插补效果比较28-31
- 3.3 不同抽样比下,插补效果比较31-34
- 4 基于逻辑回归模型的多重插补效果实证分析34-50
- 4.1 逻辑回归模型的构建及分析34-36
- 4.2 基于逻辑回归模型的多重插补实证分析36-50
- 5 本文总结与展望50-51
- 参考文献51-54
- 后记54-55
- 攻读硕士学位期间的研究成果55
【参考文献】
中国期刊全文数据库 前10条
1 武建虎,贺佳,贺宪民,程红岩;多变量缺失数据的不同处理方法及分析结果比较[J];第二军医大学学报;2004年09期
2 张靖;姚珍;唐雪飞;;基于决策树的不完整数据的处理[J];电子科技大学学报;2007年01期
3 邓银燕;郑宏宇;贺瑞缠;;残缺数据型决策中的逆判方法及应用[J];纺织高校基础科学学报;2009年03期
4 杨基栋;;缺失数据的插补方法及其统计分析[J];华北水利水电学院学报;2010年02期
5 张宏亭;李学仁;孔韬;;BP神经网络在缺失数据估计中的应用[J];计算机工程与设计;2007年14期
6 金勇进;缺失数据的插补调整[J];数理统计与管理;2001年06期
7 杨军;赵宇;丁文兴;;抽样调查中缺失数据的插补方法[J];数理统计与管理;2008年05期
8 潘淑清;抽样调查中无回答的统计影响及控制误区[J];统计与决策;2002年10期
9 赵志文;宋立新;刘银萍;;具有部分缺失数据的两个几何分布总体参数的估计与检验[J];统计与决策;2010年05期
10 庞新生;;缺失数据多重插补处理方法的算法实现[J];统计与决策;2012年11期
本文编号:572075
本文链接:https://www.wllwen.com/shekelunwen/shgj/572075.html