个人征信数据不平衡结构处理及特征选择

发布时间：2020-06-19 14:25

【摘要】：本文数据来源为“东证期货杯”全国大学生统计建模大赛中选题二提供的贷款机构历史业务数据~([1])。首先,针对数据缺失,对连续变量根据数据缺失率分别采用删除法和多重填补法处理,名义变量采用特殊类别法处理;在信用数据不平衡问题上,结合K均值算法欠抽样与SMOTE过抽样组合抽样方法在处理数据不平衡问题上有较好的预测效果。其次,在变量体系指标选择方面,改进了logistic回归的Lasso估计,采用四种信用评分模型对变量选择方法进行比较:针对不同模型特点,该变量选择方法对预测结果有不同程度提升。最后,经过实验比较可得,随机森林分类精度高;logistic回归总体分类精度略低于其他模型,但对于数据中少类样本的识别要高于一般模型;决策树模型分类精度略低于随机森林,但对数据中少类样本识别率不高。
【学位授予单位】：暨南大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：F832.4
【图文】：

变量系数,参数变化

图 3.1 变量系数随惩罚参数变化图特殊 Lambda 值错误分类率置信度图 3.2 基于模型分类错误率的变化过程进一步，为避免造成过拟合情况，通过交叉验证对模型拟合，此时关于惩罚参数值选择过程如图 3.2 所示。图 3.2 中，下横坐标为 log ，上横坐标为对应时的非零系数

过程图,分类错误,过程,自适应

20图 3.2 基于模型分类错误率的变化过程进一步，为避免造成过拟合情况，通过交叉验证对模型拟合，此时关于惩罚参数值选择过程如图 3.2 所示。图 3.2 中，下横坐标为 log ，上横坐标为对应时的非零系数个数，纵坐标为模型分类错误率。图中两条虚线分别代表了两个特殊的值，一个指在方差范围内得到最简单模型的值，另一个指在所有中得到最小目标参量均值。基于模型压缩变量考虑，模型选择变量为 19 个。3.3logistic 回归的 Lasso 估计方法改进3.3.1 自适应 Lasso 估计由于在进行高维数据分析时 Lasso 倾向于筛选出较多的变量，即存在过度估计问题，Zou（2006）提出了自适应 Lasso（adaptive Lasso）方法，目的是在1l 惩罚下使用自适应

【参考文献】