基于非均衡数据处理和特征选择的信贷风险评估算法研究
发布时间:2020-05-26 08:05
【摘要】:随着互联网金融的快速发展,许多银行机构和借贷平台暴露出越来越多的信用风险问题。信贷风险评估模型作为一种有效的工具,可以利用客户信息和客户活动数据识别潜在的风险,在金融机构中发挥着至关重要的作用。本文针对信贷客户数据海量、高维且类别分布不均衡的特点,对原始的信贷客户数据进行了均衡化处理和特征选择,并在此基础上建立了基于集成学习的信贷风险评估模型,实现了信贷客户的风险评估。具体研究内容及创新点如下:(1)提出了一种基于选择性混合采样的非均衡信贷数据处理方法。通过对信贷客户数据中不同类别的样本分布情况进行分析,分别对少数类和多数类的信贷客户样本进行选择性采样处理,解决了因信贷数据类别分布不均衡所导致的风险评估不合理的问题。实验结果表明,相较于SD_ISMOTE方法,该方法处理后的信贷客户数据将C4.5风险评估模型的F-measure值和G-mean值分别提高了6%和7%。(2)提出了一种基于多过滤器结合NSD(New Separable Degree)指标的信贷特征选择方法。通过从多个角度对信贷客户特征的重要程度进行度量和评估,避免了单一过滤器选择特征时,信贷客户特征的多方面信息容易被忽略的问题。实验结果表明,相较于单一过滤器的方法(SFS-LW),该方法选出的最优特征子集将信贷客户风险评估的分类精确率提高了11.8%;相较于多过滤器结合包装器的方法,该方法选择特征的时间效率提升了30%~80%。(3)结合静态集成和动态选择集成,提出了两种基于集成学习的风险评估模型:基于静态集成学习的FS-Bagging模型和基于动态选择集成的FBK模型,实现了信贷客户的风险评估。实验结果表明,基于动态选择集成的FBK模型在信贷客户的风险评估中表现最优。相较于Un-Ext-GDBT模型,该模型的AUC值提高了2%,ACC+值提高了2.5%。综上所述,本文提出的集成非均衡数据处理和特征选择的信贷风险评估模型,能够更加精准地实现信贷客户的风险评估。这不仅能帮助金融机构合理地规避风险,减少损失的发生,还能为实际的信贷风险管理提供有价值的指导。
【图文】:
客户的风险评估。然而,由于深度学习模型在信贷风险评估的过的解释性不强,较高的模型复杂度使其在风险评估的过程中需要实际的信贷业务中并不适用。因此,如何基于传统的人工智能方贷风险评估模型,并有效提升信贷风险评估的预测精度,是目前。研究内容和创新点在对信贷风险评估方法进行深入研究和分析后,针对现有信贷风不足,首先,从信贷数据海量、高维且类别分布不均衡的特点出衡信贷客户数据的处理方法,,以及面向信贷客户数据的特征选择方上,建立了两种基于集成学习的信贷风险评估模型,实现了信贷1 展示了基于非均衡数据处理和特征选择的信贷风险评估算法研
数类的信贷客户空间分布的样本,最终信贷风险评估的性能依然会受2)在对多数类的信贷客户样本进行欠采样处理时,虽然研究者们也提基于聚类的欠采样方法。但是,在欠采样的过程中,因为误删数据造成本信息过度丢失,或是由于原始信贷客户数据集自身分布的特点所造成稳定的情况仍然存在。种基于选择性混合采样的非均衡信贷数据处理方法对现有非均衡信贷数据处理方法中的诸多不足,本文提出了一种基于选的非均衡信贷数据处理方法(a processing method based on selectivng for imbalanced credit data, 简称Se_MS方法),旨在对原始信贷客户数类信贷客户样本和多数类信贷客户样本同时都进行采样处理,从而最大只对少数类的信贷客户样本进行过采样而造成的过拟合现象,以及只对客户样本进行欠采样而造成的信息丢失等问题。
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;F830.5
本文编号:2681535
【图文】:
客户的风险评估。然而,由于深度学习模型在信贷风险评估的过的解释性不强,较高的模型复杂度使其在风险评估的过程中需要实际的信贷业务中并不适用。因此,如何基于传统的人工智能方贷风险评估模型,并有效提升信贷风险评估的预测精度,是目前。研究内容和创新点在对信贷风险评估方法进行深入研究和分析后,针对现有信贷风不足,首先,从信贷数据海量、高维且类别分布不均衡的特点出衡信贷客户数据的处理方法,,以及面向信贷客户数据的特征选择方上,建立了两种基于集成学习的信贷风险评估模型,实现了信贷1 展示了基于非均衡数据处理和特征选择的信贷风险评估算法研
数类的信贷客户空间分布的样本,最终信贷风险评估的性能依然会受2)在对多数类的信贷客户样本进行欠采样处理时,虽然研究者们也提基于聚类的欠采样方法。但是,在欠采样的过程中,因为误删数据造成本信息过度丢失,或是由于原始信贷客户数据集自身分布的特点所造成稳定的情况仍然存在。种基于选择性混合采样的非均衡信贷数据处理方法对现有非均衡信贷数据处理方法中的诸多不足,本文提出了一种基于选的非均衡信贷数据处理方法(a processing method based on selectivng for imbalanced credit data, 简称Se_MS方法),旨在对原始信贷客户数类信贷客户样本和多数类信贷客户样本同时都进行采样处理,从而最大只对少数类的信贷客户样本进行过采样而造成的过拟合现象,以及只对客户样本进行欠采样而造成的信息丢失等问题。
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;F830.5
【参考文献】
相关期刊论文 前4条
1 林荫;;基于大数据分析的银行不良信贷风险模型[J];工程经济;2015年06期
2 陶新民;郝思媛;张冬雪;徐鹏;;不均衡数据分类算法的综述[J];重庆邮电大学学报(自然科学版);2013年01期
3 赵自翔;王广亮;李晓东;;基于支持向量机的不平衡数据分类的改进欠采样方法[J];中山大学学报(自然科学版);2012年06期
4 曾志强;吴群;廖备水;高济;;一种基于核SMOTE的非平衡数据集分类方法[J];电子学报;2009年11期
相关博士学位论文 前2条
1 陈昊洁;基于选择性集成算法的个人信用评分方法研究[D];哈尔滨工业大学;2016年
2 洪波;商业银行公司授信违约概率预测方法研究[D];合肥工业大学;2014年
相关硕士学位论文 前6条
1 郭秋俊;基于选择性集成算法的网贷个人信用评分模型研究[D];浙江工商大学;2018年
2 张弛;K银行信贷业务风险管理研究[D];安徽大学;2017年
3 杨炀;面向不均衡数据集中少数类样本细分的过采样算法的研究[D];重庆大学;2016年
4 刘静;基于代价敏感贝叶斯分类的个人信用风险评级[D];华南理工大学;2015年
5 任运生;BP神经网络技术在信用社客户分类中的应用研究[D];湖南大学;2014年
6 沈术;决策树算法在农村信用社农户信用评级中的应用[D];湖南大学;2013年
本文编号:2681535
本文链接:https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/2681535.html
最近更新
教材专著