九种常用缺失值插补方法的比较
本文选题:两类缺失模式 + 随机缺失数据集 ; 参考:《云南师范大学》2017年硕士论文
【摘要】:数据集中缺失值的存在是一个常见但难于处理的问题,它会增大统计分析的复杂性和难度,导致分析结果的偏倚,降低统计工作的效率。虽然事前预防是避免缺失值最简单有效的方法,但是由于种种常规原因和现实条件,事前预防并不能完善地解决问题。因此,对缺失值的事后处理显得尤为重要,也越来越受到研究者们的高度重视。常见的缺失值的处理方法主要有直接删除法和数据插补法两种,鉴于直接删除法会导致数据信息的再次损失,所以本文主要从数据插补方面入手,先对统计学中常用的九种缺失值的插补方法——均值插补、随机插补、回归插补、多重插补、k最近邻插补、决策树插补、支持向量机插补和神经网络插补等方法的插补原理作了介绍;接着按数据量从小到大的顺序选取3个数据集salary、iris和Airfoil,以10%的样本量缺失率,在R中按单个变量随机缺失和多个变量随机缺失两种模式生成相应的缺失数据集(这里随机缺失的含义是将其中随机抽取的10%的数据替换为缺失值),然后用上述九种插补方法对两种缺失模式的数据集进行插补。为评价和比较各种插补方法的插补效果,本文从两方面进行比较:(1)从数据插补误差的角度,把单个变量缺失模式下的3个数据集的九种插补方法生成的诸插补值与对应的数据真值(随机缺失前)进行比较,计算对应的平均绝对误差(MAE)和均方误差(MSE),按这两个指标的大小评价比较这九种插补方法的优劣。(2)从模型的角度,用缺失前的完整数据集和先缺失再插补后的诸数据集各自建立多元线性回归模型,估计相应的回归系数(向量),计算出相应的判定系数,再进行比较和评价。最后指出了各插补方法的特点和异同,对本文的研究结果进行归纳总结,并说明有待改进之处和可以进一步研究的内容。
[Abstract]:The existence of missing values in data sets is a common but difficult problem, which will increase the complexity and difficulty of statistical analysis, lead to the bias of analysis results and reduce the efficiency of statistical work. Although pre-prevention is the simplest and most effective method to avoid missing value, due to various conventional reasons and practical conditions, pre-prevention can not solve the problem perfectly. Therefore, the post-processing of missing values is particularly important and has been paid more and more attention by researchers. There are two common methods to deal with missing values: direct deletion method and data interpolation method. In view of the fact that the direct deletion method will lead to the loss of data information again, so this paper mainly starts from the aspect of data interpolation. First, the interpolation methods of nine kinds of missing values commonly used in statistics are mean interpolation, random interpolation, regression interpolation, multi-interpolation nearest neighbor interpolation, decision tree interpolation, This paper introduces the interpolation principle of support vector machine interpolation and neural network interpolation, and then selects three data sets, Salarymiris and Airfoil, according to the order of data from small to large, and takes 10% sample loss rate. Generate the corresponding missing data set in R according to the two patterns of random deletion of single variable and random deletion of multiple variables (here the meaning of random deletion is to replace 10% of the randomly sampled data with the missing value), and then use the above. Nine interpolation methods are used to interpolate the data sets of two missing patterns. In order to evaluate and compare the interpolation effect of various interpolation methods, this paper compares the error of data interpolation from two aspects. The interpolation values generated by nine interpolation methods for three data sets in a single variable deletion mode are compared with the corresponding true values (before random deletion). Calculate the corresponding mean absolute error (mae) and mean square error (MSE), evaluate and compare the advantages and disadvantages of these nine interpolation methods according to the size of these two indexes) from the point of view of the model, The multivariate linear regression models are established by using the complete data sets before deletion and those before deletion and interpolation respectively. The corresponding regression coefficients (vectors) are estimated and the corresponding decision coefficients are calculated and compared and evaluated. Finally, the characteristics and similarities and differences of the interpolation methods are pointed out, the research results of this paper are summarized, and the points for improvement and the contents that can be further studied are explained.
【学位授予单位】:云南师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:O212.1
【相似文献】
相关期刊论文 前10条
1 周家斌;一种气象资料插补方法[J];科学通报;1987年15期
2 张时钊;;气象哨温度资料的插补[J];陕西气象;1981年08期
3 曹宗智;利用电子计算机实现水文资料的自动插补[J];干旱区地理;1987年04期
4 蒋勇敏,邱士安;无误差插补方法初探[J];机械;2000年S1期
5 乔丽华;傅德印;;缺失数据的多重插补方法[J];统计教育;2006年12期
6 杨伟东;朱红春;刘丽冰;;计算机数据课程中插补原理教学方法的探讨[J];实验室科学;2009年02期
7 屠其璞;一种气温场序列的延长插补方法[J];南京气象学院学报;1986年01期
8 黄蓉;胡泽勇;关婷;孙根厚;杨耀先;刘火霖;;藏北高原气温资料插补及其变化的初步分析[J];高原气象;2014年03期
9 庞新生;;分层随机抽样条件下缺失数据的多重插补方法[J];统计与信息论坛;2009年05期
10 杨军;赵宇;丁文兴;;抽样调查中缺失数据的插补方法[J];数理统计与管理;2008年05期
相关会议论文 前5条
1 余予;李俊;任芝花;张志富;;标准序列法在日平均气温缺测数据插补中的应用[A];第八届全国优秀青年气象科技工作者学术研讨会论文汇编[C];2014年
2 吕强;;编写数控车、铣床加工多边形插补程序的方法[A];数控技术学术研讨会论文集[C];1999年
3 安金刚;;离线插补技术在运动控制中的应用[A];全国第十二届空间及运动体控制技术学术会议论文集[C];2006年
4 郑金兴;张铭钧;孟庆鑫;;变插补周期的数控进给速度控制算法研究[A];先进制造技术论坛暨第五届制造业自动化与信息化技术交流会论文集[C];2006年
5 谷永山;王锐;韦穗;;基于两幅视图的纵向插补方法[A];第十五届全国图象图形学学术会议论文集[C];2010年
相关博士学位论文 前8条
1 王允森;基于样条插补的高质量加工关键技术的研究[D];中国科学院研究生院(沈阳计算技术研究所);2015年
2 金永乔;微小线段高速加工的轨迹优化建模及前瞻插补技术研究[D];上海交通大学;2015年
3 叶伟;数控系统纳米插补及控制研究[D];北京交通大学;2010年
4 梅鹏;中国群死群伤火灾数据插补及快速损失评估研究[D];中国科学技术大学;2013年
5 孟书云;高精度开放式数控系统复杂曲线曲面插补关键技术研究[D];南京航空航天大学;2006年
6 刘巍;ARGO稀损数据插补与三维海洋要素场重构研究[D];西南交通大学;2012年
7 周勇;高速进给驱动系统动态特性分析及其运动控制研究[D];华中科技大学;2008年
8 郝永江;复杂参数曲线曲面加工控制与状态监测技术研究[D];天津大学;2011年
相关硕士学位论文 前10条
1 廖祥超;九种常用缺失值插补方法的比较[D];云南师范大学;2017年
2 刘艳玲;调查数据无回答的插补方法及模拟比较[D];天津财经大学;2012年
3 余威;气象相似性网络构建及缺失气象要素数据的插补[D];西南大学;2015年
4 李玲雪;缺失偏态数据下异方差模型的统计推断[D];昆明理工大学;2015年
5 李永杰;基于PH曲线五轴数控插补策略的研究[D];辽宁科技大学;2015年
6 赵伟;针对回归模型的缺失数据插补方法模拟分析[D];天津财经大学;2014年
7 骆新珍;基于DA插补法的线性回归模型系数估计量的模拟研究[D];天津财经大学;2014年
8 肖哲;基于STM32的嵌入式数控插补控制器的研究与实现[D];湖北工业大学;2016年
9 李珍;不完全测量信息系统的辨识研究[D];安徽工程大学;2016年
10 纪忠光;缺失数据的非参数插补[D];华中师范大学;2016年
,本文编号:2029136
本文链接:https://www.wllwen.com/kejilunwen/yysx/2029136.html