信用评分系统的设计与实现
发布时间:2021-01-12 21:17
随着中国经济快速稳定的发展,互联网金融信贷业务的发展也来到了高潮。客户数据爆发式增长,传统依靠专家型数据分析的结果缺乏可靠性、准确性以及对海量数据处理效率缓慢,无法有效的挖掘出数据的价值等缺陷日益突出。如何更好挖掘出用户信贷数据,购物数据中蕴含的信息对客户的信用进行定级以减少坏账的发生,同时对客户准确分类以做到更好的互联网金融风控成为了重要的研究方向。由于金融行业的特殊性,为了降低开发评分卡模型的门槛以及提高建模效率,应该有一套信用评分系统能够完成信用评分模型的构建。针对上述问题和需求,通过查询和阅读相关文献对信用评分系统进行深入研究,改进了卡方分箱法分箱后WOE不单调以及某个分箱中样本占比过多等问题;使用基于IV值、皮尔逊相关系数、假设检验、逐步回归等方法挑选入模变量解决了互联网高维特征难以挑选的问题;对Spark技术框架进行深入研究,实现了一个信用评分系统,该系统由资源管理模块、模型构建模块、可视化模块三大模块构成。其中资源管理模块由数据资源管理、模型管理、任务流程管理构成。其主要负责数据的上传下载、模型的存储和删除、任务的查找和删除等;模型构建模块由功能组件和算法组件构成。其中功...
【文章来源】:浙江工业大学浙江省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
表现期与观察期Figure2-2.Performanceperiodandobservationperiod
浙江工业大学硕士学位论文23从概率分布上讲,TPR为累积的好用户的概率分布,FPR为累积的坏客户的概率分布。KS曲线的绘制原理为:首先对所有的样本按照模型给出的预测概率进行降序排序,将训练样本等频分为10,取每一个分段的临界点处的概率值作为阈值,分别计算TPR以及FPR。然后以该阈值作为横坐标,TPR以及FPR作为纵坐标。曲线类似于下图2-11:图2-11KS曲线Figure2-11KScurveKS值主要用来度量好坏客户累计分布函数之间差值的大校差值越大说明好坏分布越明显,银行在信用评分模型实际使用中十分重视KS值的大校以下表2-9为常见的KS值评估指标[50]。表2-9KS评估指标Table2-9.KSevaluationindexKS模型表现<0.2差0.2-0.4一般0.4-0.5好0.5-0.6很好0.6-0.75非常好0.75-1完美
信用评分系统的设计与实现303.3.1变量相关性分析在单变量相关性分析中变量的筛选一般经过以下几个步骤:①将变量按照分组计算后的IV值降序排序②计算第i和第i+1变量的皮尔逊相关系数corr③对于corr大于0.7的变量对,删除IV值较小的那个变量流程图如下图3-5所示:IV降序排序,计算第i,i+1个变量之间corrCorr>0.7所有变量符合条件输出变量列表移除IV较小的变量变量列表是是否否图3-5单变量筛选流程Figure3-5.Singlevariablescreeningprocess经过单变量筛选后,变量列表中的变量两两之间的相关系数都低于阈值。筛选后的变量相关性可视化热点图如下图3-6所示:图3-6变量皮尔逊系数热点图Figure3-6.Pearsoncoefficientheatmap在经过单变量筛选后的变量会进入多重共性线筛选环节,来剔除多个变量之间存在多重共线性的变量。一般使用VIF(VarianceInflationFactor)值来衡量,
【参考文献】:
期刊论文
[1]并行计算框架Spark中一种新的RDD分区权重缓存替换算法[J]. 刘恒,谭良. 小型微型计算机系统. 2018(10)
[2]基于Spark核心架构的大数据平台技术研究与实践[J]. 曹猛. 中国战略新兴产业. 2018(28)
[3]数据挖掘模型在小企业主信用评分领域的应用[J]. 王磊,范超,解明明. 统计研究. 2014(10)
[4]基于Lasso-logistic模型的个人信用风险预警方法[J]. 方匡南,章贵军,张惠颖. 数量经济技术经济研究. 2014(02)
[5]关于互联网金融的若干思考[J]. 陈敬民. 金融纵横. 2013(09)
[6]不平衡数据分类方法及其在入侵检测中的应用研究[J]. 江颉,王卓芳,GONG Rong-sheng,陈铁明. 计算机科学. 2013(04)
[7]Logistic模型中参数的自适应Lasso估计[J]. 王娉,郭鹏江,夏志明. 西北大学学报(自然科学版). 2012(05)
[8]基于信用评分模型的我国商业银行客户违约概率研究[J]. 王颖,聂广礼,石勇. 管理评论. 2012(02)
[9]基于多分类器组合的个人信用评估模型[J]. 向晖,杨胜刚. 湖南大学学报(社会科学版). 2011(03)
[10]基于FAHP的个人信用评分模型[J]. 易传和,彭江. 统计与决策. 2009(15)
博士论文
[1]基于决策树的信用风险评估方法研究[D]. 赵静娴.天津大学 2009
硕士论文
[1]基于云计算的故障装备大数据技术研究[D]. 洪栋斌.北京邮电大学 2019
[2]面向推荐的大数据计算与存储平台设计与实现[D]. 李琛轩.哈尔滨工业大学 2016
[3]信用评分卡在电商小微企业信贷中的应用[D]. 丁卫东.浙江大学 2016
[4]基于数据挖掘的个人信用评分系统的分析与设计[D]. 彭州.西南财经大学 2003
本文编号:2973562
【文章来源】:浙江工业大学浙江省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
表现期与观察期Figure2-2.Performanceperiodandobservationperiod
浙江工业大学硕士学位论文23从概率分布上讲,TPR为累积的好用户的概率分布,FPR为累积的坏客户的概率分布。KS曲线的绘制原理为:首先对所有的样本按照模型给出的预测概率进行降序排序,将训练样本等频分为10,取每一个分段的临界点处的概率值作为阈值,分别计算TPR以及FPR。然后以该阈值作为横坐标,TPR以及FPR作为纵坐标。曲线类似于下图2-11:图2-11KS曲线Figure2-11KScurveKS值主要用来度量好坏客户累计分布函数之间差值的大校差值越大说明好坏分布越明显,银行在信用评分模型实际使用中十分重视KS值的大校以下表2-9为常见的KS值评估指标[50]。表2-9KS评估指标Table2-9.KSevaluationindexKS模型表现<0.2差0.2-0.4一般0.4-0.5好0.5-0.6很好0.6-0.75非常好0.75-1完美
信用评分系统的设计与实现303.3.1变量相关性分析在单变量相关性分析中变量的筛选一般经过以下几个步骤:①将变量按照分组计算后的IV值降序排序②计算第i和第i+1变量的皮尔逊相关系数corr③对于corr大于0.7的变量对,删除IV值较小的那个变量流程图如下图3-5所示:IV降序排序,计算第i,i+1个变量之间corrCorr>0.7所有变量符合条件输出变量列表移除IV较小的变量变量列表是是否否图3-5单变量筛选流程Figure3-5.Singlevariablescreeningprocess经过单变量筛选后,变量列表中的变量两两之间的相关系数都低于阈值。筛选后的变量相关性可视化热点图如下图3-6所示:图3-6变量皮尔逊系数热点图Figure3-6.Pearsoncoefficientheatmap在经过单变量筛选后的变量会进入多重共性线筛选环节,来剔除多个变量之间存在多重共线性的变量。一般使用VIF(VarianceInflationFactor)值来衡量,
【参考文献】:
期刊论文
[1]并行计算框架Spark中一种新的RDD分区权重缓存替换算法[J]. 刘恒,谭良. 小型微型计算机系统. 2018(10)
[2]基于Spark核心架构的大数据平台技术研究与实践[J]. 曹猛. 中国战略新兴产业. 2018(28)
[3]数据挖掘模型在小企业主信用评分领域的应用[J]. 王磊,范超,解明明. 统计研究. 2014(10)
[4]基于Lasso-logistic模型的个人信用风险预警方法[J]. 方匡南,章贵军,张惠颖. 数量经济技术经济研究. 2014(02)
[5]关于互联网金融的若干思考[J]. 陈敬民. 金融纵横. 2013(09)
[6]不平衡数据分类方法及其在入侵检测中的应用研究[J]. 江颉,王卓芳,GONG Rong-sheng,陈铁明. 计算机科学. 2013(04)
[7]Logistic模型中参数的自适应Lasso估计[J]. 王娉,郭鹏江,夏志明. 西北大学学报(自然科学版). 2012(05)
[8]基于信用评分模型的我国商业银行客户违约概率研究[J]. 王颖,聂广礼,石勇. 管理评论. 2012(02)
[9]基于多分类器组合的个人信用评估模型[J]. 向晖,杨胜刚. 湖南大学学报(社会科学版). 2011(03)
[10]基于FAHP的个人信用评分模型[J]. 易传和,彭江. 统计与决策. 2009(15)
博士论文
[1]基于决策树的信用风险评估方法研究[D]. 赵静娴.天津大学 2009
硕士论文
[1]基于云计算的故障装备大数据技术研究[D]. 洪栋斌.北京邮电大学 2019
[2]面向推荐的大数据计算与存储平台设计与实现[D]. 李琛轩.哈尔滨工业大学 2016
[3]信用评分卡在电商小微企业信贷中的应用[D]. 丁卫东.浙江大学 2016
[4]基于数据挖掘的个人信用评分系统的分析与设计[D]. 彭州.西南财经大学 2003
本文编号:2973562
本文链接:https://www.wllwen.com/guanlilunwen/huobilw/2973562.html