当前位置:主页 > 社科论文 > 社会学论文 >

调查数据缺失值常用插补方法比较的实证分析

发布时间:2017-10-31 10:23

  本文关键词:调查数据缺失值常用插补方法比较的实证分析


  更多相关文章: 调查数据 缺失率 变量缺失 CART模型 插补效果比较


【摘要】:由于调查受到各种已知或者未知因素的影响,往往会出现调查数据的缺失。在统计中,调查数据的缺失值问题是目前普遍存在而且难处理的问题。近年来,随着大数据时代的到来,这一问题越来越受到国内外学者的关注。数据缺失,尤其是高缺失率很容易引起数据本身的可用性的缺失,,增加了数据分析的难度,使得统计分析出现很大的偏差,从而会降低研究者工作效率。对于含有缺失值的调查数据,事前预防是最有效的方法,即在调查过程中把无回答率降到最低,提高被调查者的回答率。但是由于各种因素的影响,现实中的无回答总是无法避免的,所以,对于调查数据无回答的事后处理显得尤为重要。 调查中出现的问题不同,得到的含有缺失值的调查数据的特点也就不一样,所以采取的处理这些缺失值的方法也是不相同的。本文选取统计学上常用的缺失值插补方法,包括EM算法插补、多重插补法、回归插补法、均值插补法这四种插补方法,分别通过构建统计学模型来进一步探索这四种插补方法的插补效果。含有缺失值的数据集是利用SPSS随机生成。所研究的条件分别为:变量缺失的模式,即单一变量缺失和多变量缺失;不同的缺失率分别为10%、20%、30%、40%、50%;不同缺失率下的辅助变量的个数不同,分别为4个、7个及10个辅助变量的模拟比较分析。 全文首先介绍了选题背景和研究意义,以及国内外对缺失值处理方法的文献综述和国内外文献评述。第2章介绍了缺失数据问题相关的理论,包括缺失数据产生的原因以及缺失值的缺失机制和模式。第3章详细总结了统计上常用的缺失数据插补方法。第4章利用缺失值插补常用方法对调查数据进行实证分析。利用均值插补、回归插补、EM算法、多重插补这四种插补方法,分别在单一变量缺失和多变量缺失的情况下,结合数据挖掘技术分析这些方法在不同的数据缺失率(10%、20%、30%、40%、50%)的插补效果分析。第5章是对全文的总结及展望。
【关键词】:调查数据 缺失率 变量缺失 CART模型 插补效果比较
【学位授予单位】:河北经贸大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:C81
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 1 绪论8-14
  • 1.1 选题背景和研究意义8-9
  • 1.2 文献综述9-13
  • 1.3 文章创新点13-14
  • 2 调查中缺失数据的介绍14-22
  • 2.1 缺失数据产生的原因14-15
  • 2.2 缺失数据的缺失机制和缺失模式15-21
  • 2.3 本章小结21-22
  • 3 缺失值处理方法22-29
  • 3.1 基于插补技术的处理方法22-23
  • 3.2 统计常用的插补方法23-29
  • 4 调查中缺失数据不同插补方法的实证分析29-66
  • 4.1 单一变量缺失值插补29-54
  • 4.1.1 利用 4 个辅助变量的各个插补方法的比较30-39
  • 4.1.2 利用 7 个辅助变量的各个插补方法的比较39-47
  • 4.1.3 利用 10 个辅助变量的各个插补方法的比较47-54
  • 4.2 多变量缺失值插补54-64
  • 4.3 本章小结64-66
  • 5 全文总结与展望66-67
  • 参考文献67-70
  • 后记70-71
  • 攻读硕士学位期间科研成果71

【参考文献】

中国期刊全文数据库 前10条

1 游晓锋;丁树良;刘红云;;缺失数据的估计方法及应用[J];江西师范大学学报(自然科学版);2011年03期

2 花琳琳;施念;杨永利;赵天仪;施学忠;;不同缺失值处理方法对随机缺失数据处理效果的比较[J];郑州大学学报(医学版);2012年03期

3 杨基栋;;缺失数据的插补方法及其统计分析[J];华北水利水电学院学报;2010年02期

4 金勇进,朱琳;不同差补方法的比较[J];数理统计与管理;2000年04期

5 金勇进;缺失数据的插补调整[J];数理统计与管理;2001年06期

6 杨军;赵宇;丁文兴;;抽样调查中缺失数据的插补方法[J];数理统计与管理;2008年05期

7 潘淑清;抽样调查中无回答的统计影响及控制误区[J];统计与决策;2002年10期

8 庞新生;多重插补处理缺失数据方法的理论基础探析[J];统计与决策;2005年04期

9 庞新生;;缺失数据处理方法的比较[J];统计与决策;2010年24期

10 庞新生;;缺失数据多重插补处理方法的算法实现[J];统计与决策;2012年11期

中国硕士学位论文全文数据库 前6条

1 杨利华;缺失数据的处理方法研究及应用[D];景德镇陶瓷学院;2011年

2 茅群霞;缺失值处理统计方法的模拟比较研究及应用[D];四川大学;2005年

3 梁霞;缺失数据的多重插补及其改进[D];中南大学;2007年

4 张香云;缺失数据的借补方法及在林分生长模型中的应用研究[D];苏州大学;2006年

5 袁中萸;多元线性回归模型中缺失数据填补方法的效果比较[D];中南大学;2008年

6 石丽;多重插补在成分数据缺失值补全中的应用[D];山西大学;2012年



本文编号:1121949

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/shgj/1121949.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1c500***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com