当前位置:主页 > 管理论文 > 统计学论文 >

缺失的分类数据填补方法研究

发布时间:2021-02-01 16:29
  缺失数据的处理是数据预处理中很重要的一部分.缺失数据的存在对模型的估计,模型的检验等造成了影响,研究如何有效的处理缺失数据具有很重要的意义.该文主要是探讨对分类数据的缺失填补方法的研究.假设分类属性数据是由一个潜在的服从标准正态分布的连续变量决定的,然后分别讨论了两类情况,一类是没有因变量的数据集,另一类是含有因变量的数据集(这里仅对一个因变量的情况讨论).对于无因变量的情况,考虑样本之间的相似性,结合数据集转化的思想提出了一种新的填补算法(TKNN填补算法).对于有一个因变量的情况,数据集转化后再用回归方程估计缺失值,即改进的回归填补算法(TReg填补算法).文中用均方根误差RMSE作为评价指标,可以看到将数据集转化后的填补算法在一定程度上的有效性.本文主要结论是:1.在缺失比例较小时,用完全个体分析就能得到较好的结果.2.TReg和TKNN填充算法在一定程度上比直接在原始数据集上做填充的效果好.希望本文对之后学者研究缺失数据及数据分析时有一定的借鉴意义. 

【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校

【文章页数】:41 页

【学位级别】:硕士

【部分图文】:

缺失的分类数据填补方法研究


图2.1缺失模式??

数据集


.本文一开始假设分类变量是由潜在的服从连续分布的变量决定的,正态分是连续分布的一种,现实生活中许多数据可以看成是来自于正态分布,正态分又常叫做高斯分布,是一个在概率上很重要的分布.所以接下来的一节内容将绍分类变量和服从标准正态分布的变量以及潜变量表达式三者之间的转化.??2.4.1服从一元正态分布变量的转化??二元变量的转化??下图表明了一个服从标准正态分布随机变量Z与一个服从伯努利分布的散属性变量具有两个值0或1)之间的转化,当Pps:?=?1)?=?0.2,_PpS:=〇)?=P。=?1?—仍=?0.8时,求得g?=疒Ypo)?=?0.8416212,当潜在变量Z是取值于g值时取值为0,当Z取值大于等于值时,X取值为1.??

条件期望,均值,事例,缺失数据


图3.1条件期望填补和均值填补??TKNN填补算法??一节将介绍改进的近邻算法,这里定义为TKNN(Translated?KNN算法填补缺失数据步骤如下:??首先根据前面一章对数据集的转化的内容,将分类数据%转化为对于每一个缺失数据,计算它与其他事例之间的相似度.??s(Xi,Xj)?=?WjS_1Uj??d(xi,Xj)?=?exp(—s(xi,Xj))??根据计算得到的距离从小到大的顺序,选取前k个事例??因为这里考虑的是分类数据,所以以选取的k个事例的最大类进

【参考文献】:
期刊论文
[1]基于数据集特征的KNN最优K值预测方法[J]. 李洪奇,杨中国,朱丽萍,刘蔷.  计算机应用与软件. 2016(06)
[2]基于近邻噪声处理的KNN缺失数据填补算法[J]. 郝胜轩,宋宏,周晓锋.  计算机仿真. 2014(07)
[3]二分类Logistic回归插补法及其应用[J]. 戴明锋,金勇进,查奇芬,刘寅飞.  数学的实践与认识. 2013(21)
[4]基于BP神经网络的不完全测量数据处理方法研究[J]. 任云志,贺跃光,吴弘,姬方,戴潇蕾.  现代测绘. 2013(01)
[5]基于不完备数据聚类的缺失数据填补方法[J]. 武森,冯小东,单志广.  计算机学报. 2012(08)
[6]基于EM和贝叶斯网络的丢失数据填充算法[J]. 李宏,阿玛尼,李平,吴敏.  计算机工程与应用. 2010(05)
[7]基于马氏距离和灰色分析的缺失值填充算法[J]. 刘星毅.  计算机应用. 2009(09)
[8]列联表的对数线性模型[J]. 孙凤.  统计与决策. 2006(23)
[9]缺失数据处理方法的比较研究[J]. 刘鹏,雷蕾,张雪凤.  计算机科学. 2004(10)
[10]高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J]. 周永权,焦李成.  电子学报. 2004(08)



本文编号:3013081

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3013081.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户535c1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com