当前位置:主页 > 经济论文 > 银行论文 >

个人征信数据不平衡结构处理及特征选择

发布时间:2020-06-19 14:25
【摘要】:本文数据来源为“东证期货杯”全国大学生统计建模大赛中选题二提供的贷款机构历史业务数据~([1])。首先,针对数据缺失,对连续变量根据数据缺失率分别采用删除法和多重填补法处理,名义变量采用特殊类别法处理;在信用数据不平衡问题上,结合K均值算法欠抽样与SMOTE过抽样组合抽样方法在处理数据不平衡问题上有较好的预测效果。其次,在变量体系指标选择方面,改进了logistic回归的Lasso估计,采用四种信用评分模型对变量选择方法进行比较:针对不同模型特点,该变量选择方法对预测结果有不同程度提升。最后,经过实验比较可得,随机森林分类精度高;logistic回归总体分类精度略低于其他模型,但对于数据中少类样本的识别要高于一般模型;决策树模型分类精度略低于随机森林,但对数据中少类样本识别率不高。
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F832.4
【图文】:

变量系数,参数变化


图 3.1 变量系数随惩罚参数变化图特殊 Lambda 值错误分类率置信度图 3.2 基于模型分类错误率的 变化过程进一步,为避免造成过拟合情况,通过交叉验证对模型拟合,此时关于惩罚参数 值选择过程如图 3.2 所示。图 3.2 中,下横坐标为 log ,上横坐标为对应 时的非零系数

过程图,分类错误,过程,自适应


20图 3.2 基于模型分类错误率的 变化过程进一步,为避免造成过拟合情况,通过交叉验证对模型拟合,此时关于惩罚参数 值选择过程如图 3.2 所示。图 3.2 中,下横坐标为 log ,上横坐标为对应 时的非零系数个数,纵坐标为模型分类错误率。图中两条虚线分别代表了两个特殊的 值,一个指在方差范围内得到最简单模型的 值,另一个指在所有 中得到最小目标参量均值。基于模型压缩变量考虑,模型选择变量为 19 个。3.3logistic 回归的 Lasso 估计方法改进3.3.1 自适应 Lasso 估计由于在进行高维数据分析时 Lasso 倾向于筛选出较多的变量,即存在过度估计问题,Zou(2006)提出了自适应 Lasso(adaptive Lasso)方法,目的是在1l 惩罚下使用自适应

【参考文献】

相关期刊论文 前5条

1 宋丽平;张利坤;徐玮;;P2P网络借贷个人信用风险评估[J];财会月刊;2015年35期

2 张发明;;一种融合SOM与K-means算法的动态信用评价方法及应用[J];运筹与管理;2014年06期

3 张秀秀;王慧;田双双;乔楠;闫丽娜;王彤;;高维数据回归分析中基于LASSO的自变量选择[J];中国卫生统计;2013年06期

4 刘扬;刘伟江;;特征选择方法在信用评估指标选取中的应用[J];数理统计与管理;2006年06期

5 石庆焱;一个基于神经网络——Logistic回归的混合两阶段个人信用评分模型研究[J];统计研究;2005年05期

相关博士学位论文 前4条

1 向晖;个人信用评分组合模型研究与应用[D];湖南大学;2011年

2 陈为民;基于支持向量机的信用卡信用风险管理模型与技术研究[D];湖南大学;2009年

3 孙德山;支持向量机分类与回归方法研究[D];中南大学;2004年

4 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年

相关硕士学位论文 前2条

1 樊鹏;基于优化的xgboost-LMT模型的供应商信用评价研究[D];广东工业大学;2016年

2 王冠;基于用户互联网行为数据的个人征信评估体系建设分析[D];北京交通大学;2015年



本文编号:2720912

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/2720912.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2f0d3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com