当前位置:主页 > 科技论文 > 数学论文 >

基于收缩近邻方法的征信缺失数据插补研究

发布时间:2018-05-09 19:54

  本文选题:征信数据 + 缺失插补 ; 参考:《数学的实践与认识》2017年08期


【摘要】:在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量.
[Abstract]:In order to reduce the computational cost of missing data interpolation, a shrinking nearest neighbor interpolation method is proposed under the background of massive credit information data. The shrinkage nearest neighbor method completes data interpolation in three stages. In the first stage, the sample probability is calculated based on the missing ratio of samples and variables; the contraction of data is completed by unequal general sampling; the second stage is based on the distance between samples. The samples close to the missing samples are selected to form the training set. In the third stage, a stochastic forest model is established for iterative interpolation. The Australian data sets and the Chinese bank data sets are used to simulate the results. The results show that the shrinking nearest neighbor method can reduce the computational complexity greatly under the condition of ensuring certain interpolation accuracy.
【作者单位】: 中国人民大学应用统计科学研究中心;
【基金】:教育部人文社会科学重点研究基地重大项目(15JJD910002)
【分类号】:O212.2

【相似文献】

相关期刊论文 前10条

1 蒋勇敏,邱士安;无误差插补方法初探[J];机械;2000年S1期

2 乔丽华;傅德印;;缺失数据的多重插补方法[J];统计教育;2006年12期

3 庞新生;;分层随机抽样条件下缺失数据的多重插补方法[J];统计与信息论坛;2009年05期

4 杨军;赵宇;丁文兴;;抽样调查中缺失数据的插补方法[J];数理统计与管理;2008年05期

5 张岫云;按偏差最小原理进行插补的计算方法[J];上海机械学院学报;1980年02期

6 刘凤芹;;基于链式方程的收入变量缺失值的多重插补[J];统计研究;2009年01期

7 马桦;高性能曲线及空间曲面插补方法的探讨[J];机械与电子;1995年06期

8 陈元芳;丛树铮;;水文极值系列相关展延方法与条件的研究[J];河海大学学报;1988年03期

9 袁超廷;数控中的最小误差法插补原理[J];中国科学(A辑 数学 物理学 天文学 技术科学);1987年08期

10 吴焱明,王纯贤,王治森;基于参数方程的椭圆时间分割插补方法[J];机械与电子;1999年01期

相关硕士学位论文 前9条

1 李玲雪;缺失偏态数据下异方差模型的统计推断[D];昆明理工大学;2015年

2 赵伟;针对回归模型的缺失数据插补方法模拟分析[D];天津财经大学;2014年

3 骆新珍;基于DA插补法的线性回归模型系数估计量的模拟研究[D];天津财经大学;2014年

4 杨晓倩;缺失数据插补方法的选择研究[D];兰州财经大学;2016年

5 王锦霞;基于质谱筛选差异表达蛋白的统计学方法研究[D];大连海事大学;2016年

6 石丽;多重插补在成分数据缺失值补全中的应用[D];山西大学;2012年

7 李静华;基于PMM插补法的线性回归模型系数估计量的模拟研究[D];天津财经大学;2015年

8 李萌;基于半参数模型的插补方法与实证研究[D];北京林业大学;2014年

9 刘燕;基于Logistic回归的近邻择优插补法[D];天津财经大学;2013年



本文编号:1867201

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/1867201.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户513ad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com