基于超参数优化和集成学习的互联网信贷个人信用评估
发布时间:2021-12-18 15:21
针对互联网信贷行业的个人信用风险评估问题,文章提出了一种基于贝叶斯参数优化和XGBoost算法的信用评估方法。方法包括五个步骤:数据预处理、特征选择、超参数优化、模型训练、模型预测和评估。实验结果表明,本方法的预测效果优于对比算法(Logistic回归、支持向量机,随机森林、神经网络),同时贝叶斯参数优化方法优于网格搜索法和随机搜索法。因此本文提出的信用评估方法,可以更好区分违约用户,有助于更好地识别用户的违约风险。
【文章来源】:统计与决策. 2019,35(01)北大核心CSSCI
【文章页数】:5 页
【部分图文】:
模型训练模型预测模型评估图1模型流程图
左上角,模型分类的准确性就越高。AUC是ROC曲线下方的面积,AUC越大,代表模型分类性能越好。KS是信用风险评估领域常用的区分度评价指标。首先将数据样本按照预测违约概率由低到高进行排序,然后计算每一个违约率下的累积TPR值和累积FPR值,最后求这两个值的差值的最大值,即为KS指标。KS值越大代表模型对于违约客户和按时还款客户的区分能力越强。4结果分析4.1超参数优化结果为了对比不同超参数优化方式的效率,本文将迭代次数统一设置为50,不同的参数优化方法选择相同范围的参数空间。不同超参数优化方式对比如图2所示。图中显示了不同超参数优化方式模型结果的箱线图,横轴代表超参数选择过程中不同超参数优化方式,纵轴代表XG-Boost模型结果的AUC值。0.700.680.660.640.620.600.580.56网格搜索随机搜索贝叶斯优化L数据集图2不同超参数优化方式对比从图2中可以看出,随机搜索参数优化方式效果均优于网格搜索方法。同时贝叶斯优化参数优化方法的效果最好,优于其他方法,这跟以前一些研究的结论一致[3,5,6,10]。4.2模型评价结果表2给出了5种不同模型的模型结果表现。从表2中可以看出,XGBoost达到了最高的KS(0.301)和AUC(0.689),随机森林次之,SVM、NN和逻辑回归效果较差,XGBoost算法的KS指标和逻辑回归相比提升了29.74%,AUC指标和逻辑回归相比提升了10.95%。结果说明XGBoost方法的性能不但优于常见的单一分类器,而且优于集成学习分类器(RF)。同时从下页图3,可以看到,XGBoost的ROC曲线始终处于最左上方,这表明XGBoost具有最好的客户违约预测能力。表2模型结果模型LRSVMNNRFXGBoost指标KS0.2320.2670.2410.2790.301AUC0.6210.6720.6520.678
统计与决策2019年第1期·总第517期性,从而可以对影响模型效果的关键变量进行分析。训练完毕后输出模型特征的重要度分数,分数越高说明特征越重要。特征重要度如图4所示,图中纵坐标表示具体的特征,横坐标表示特征重要度分数,在图中显示了重要度前10的特征,这样提出的个人信用评估方法就具有了一定的可解释性,在进行信用评估时,方便决策者更好地理解信用评分模型,从而进行决策。图4特征重要度5结论本文针对互联网信贷行业的个人信用评估问题,提出了一种基于贝叶斯参数优化和XGBoost算法的信用评估方法。XGBoost包含多种超参数,这些超参数对算法效果影响很大,贝叶斯优化是在函数方程未知的情况下根据已有的采样点预估函数最大值的一个算法,和传统的网格搜索和随机搜索相比,贝叶斯优化可以利用利用先验知识来选择下一组超参数,因此贝叶斯超参数优化精度更高且更加高效,并采用贝叶斯超参数优化来调参。本文提出的基于贝叶斯参数优化和XGBoost的信用评估方法包括5个步骤:数据预处理、特征选择、超参数优化、模型训练、模型预测和评估,在对数据进行预处理后,采用递归特征消除(RFE)来进行特征选择,然后使用贝叶斯参数优化来调参,最后使用XGBoost算法来训练模型并进行预测。在互联网借贷平台真实数据集上进行了实验,实验结果表明,本文提出模型的预测效果优于对比算法(Logistic回归、支持向量机,随机森林、神经网络),同时贝叶斯参数优化方法优于网格搜索法和随机搜索法,最后证明了本文提出的方法也具有一定可解释性。因此本文提出的基于贝叶斯参数优化和XGBoost的信用评估方法,可以更好地区分违约用户,有助于互联网行业的信用评估工作,有助于更好地识别用户的违约风险。参考文献:[1]王?
【参考文献】:
期刊论文
[1]数据挖掘模型在小企业主信用评分领域的应用[J]. 王磊,范超,解明明. 统计研究. 2014(10)
[2]基于改进支持向量机的消费信贷中个人信用评估模型[J]. 王润华. 统计与决策. 2010(11)
本文编号:3542665
【文章来源】:统计与决策. 2019,35(01)北大核心CSSCI
【文章页数】:5 页
【部分图文】:
模型训练模型预测模型评估图1模型流程图
左上角,模型分类的准确性就越高。AUC是ROC曲线下方的面积,AUC越大,代表模型分类性能越好。KS是信用风险评估领域常用的区分度评价指标。首先将数据样本按照预测违约概率由低到高进行排序,然后计算每一个违约率下的累积TPR值和累积FPR值,最后求这两个值的差值的最大值,即为KS指标。KS值越大代表模型对于违约客户和按时还款客户的区分能力越强。4结果分析4.1超参数优化结果为了对比不同超参数优化方式的效率,本文将迭代次数统一设置为50,不同的参数优化方法选择相同范围的参数空间。不同超参数优化方式对比如图2所示。图中显示了不同超参数优化方式模型结果的箱线图,横轴代表超参数选择过程中不同超参数优化方式,纵轴代表XG-Boost模型结果的AUC值。0.700.680.660.640.620.600.580.56网格搜索随机搜索贝叶斯优化L数据集图2不同超参数优化方式对比从图2中可以看出,随机搜索参数优化方式效果均优于网格搜索方法。同时贝叶斯优化参数优化方法的效果最好,优于其他方法,这跟以前一些研究的结论一致[3,5,6,10]。4.2模型评价结果表2给出了5种不同模型的模型结果表现。从表2中可以看出,XGBoost达到了最高的KS(0.301)和AUC(0.689),随机森林次之,SVM、NN和逻辑回归效果较差,XGBoost算法的KS指标和逻辑回归相比提升了29.74%,AUC指标和逻辑回归相比提升了10.95%。结果说明XGBoost方法的性能不但优于常见的单一分类器,而且优于集成学习分类器(RF)。同时从下页图3,可以看到,XGBoost的ROC曲线始终处于最左上方,这表明XGBoost具有最好的客户违约预测能力。表2模型结果模型LRSVMNNRFXGBoost指标KS0.2320.2670.2410.2790.301AUC0.6210.6720.6520.678
统计与决策2019年第1期·总第517期性,从而可以对影响模型效果的关键变量进行分析。训练完毕后输出模型特征的重要度分数,分数越高说明特征越重要。特征重要度如图4所示,图中纵坐标表示具体的特征,横坐标表示特征重要度分数,在图中显示了重要度前10的特征,这样提出的个人信用评估方法就具有了一定的可解释性,在进行信用评估时,方便决策者更好地理解信用评分模型,从而进行决策。图4特征重要度5结论本文针对互联网信贷行业的个人信用评估问题,提出了一种基于贝叶斯参数优化和XGBoost算法的信用评估方法。XGBoost包含多种超参数,这些超参数对算法效果影响很大,贝叶斯优化是在函数方程未知的情况下根据已有的采样点预估函数最大值的一个算法,和传统的网格搜索和随机搜索相比,贝叶斯优化可以利用利用先验知识来选择下一组超参数,因此贝叶斯超参数优化精度更高且更加高效,并采用贝叶斯超参数优化来调参。本文提出的基于贝叶斯参数优化和XGBoost的信用评估方法包括5个步骤:数据预处理、特征选择、超参数优化、模型训练、模型预测和评估,在对数据进行预处理后,采用递归特征消除(RFE)来进行特征选择,然后使用贝叶斯参数优化来调参,最后使用XGBoost算法来训练模型并进行预测。在互联网借贷平台真实数据集上进行了实验,实验结果表明,本文提出模型的预测效果优于对比算法(Logistic回归、支持向量机,随机森林、神经网络),同时贝叶斯参数优化方法优于网格搜索法和随机搜索法,最后证明了本文提出的方法也具有一定可解释性。因此本文提出的基于贝叶斯参数优化和XGBoost的信用评估方法,可以更好地区分违约用户,有助于互联网行业的信用评估工作,有助于更好地识别用户的违约风险。参考文献:[1]王?
【参考文献】:
期刊论文
[1]数据挖掘模型在小企业主信用评分领域的应用[J]. 王磊,范超,解明明. 统计研究. 2014(10)
[2]基于改进支持向量机的消费信贷中个人信用评估模型[J]. 王润华. 统计与决策. 2010(11)
本文编号:3542665
本文链接:https://www.wllwen.com/jingjilunwen/zbyz/3542665.html