大数据征信算法的可解释性研究
发布时间:2021-01-18 14:14
针对征信领域广泛使用深度学习等黑盒大数据信用评估技术所带来的模型透明度低、可解释性差等问题,研究提出了一种基于倾向评分的信用评估模型解释方法,利用该通用框架可以对大数据征信的黑盒模型进行解释性分析,从而满足金融领域的KYC和KYB要求,增加机器学习、深度学习等技术在征信领域的适用性。
【文章来源】:征信. 2020,38(05)北大核心
【文章页数】:8 页
【部分图文】:
算法伪代码
首先对数据集作数据预处理、缺失值填充和异常点删除。为了筛选出对提升模型预测效果较强的属性,分别对每个属性进行WOE(Weight Of Evidence)编码并计算其对应的IV(Information Value)值,计算结果如图2所示。一般认为IV值小于0.1时,该属性预测能力较弱,因此将需要探究的属性限定在IV值大于0.1的变量:可用额度、年龄、逾期30~59天笔数、逾期60~89天笔数、逾期90天笔数。预处理完成后,进行模型输入。该实验选择对四种模型进行归因分析:logistic回归、决策树、随机森林、BP神经网络,即预测模型F的选择限定为以上四种;倾向评分模型R在本实验中设置为logistic回归。将数据集、属性集及选定的预测模型F、倾向评分模型R输入算法,并对数据集进行min-max标准化。
对数据集利用选定的四种预测模型:logistic回归、决策树、随机森林、BP神经网络进行预测建模,利用模型预测每个用户可能成为坏用户的概率,得出的四种模型预测效果对比如图3所示。可以看到可解释性较强的两个模型预测效果较差:logistic回归AUC=0.8126,预测效果最差;决策树模型AUC=0.8416,较之有所提升。可解释性较差的黑盒模型预测效果更好:随机森林模型AUC=0.8587;BP神经网络模型AUC=0.8620,预测效果最佳。随着模型效果的提升,可解释性在下降。
【参考文献】:
期刊论文
[1]信用评分模型比较综述——基于传统方法与数据挖掘的对比[J]. 何珊,刘振东,马小林. 征信. 2019(02)
[2]深度学习的可解释性[J]. 吴飞,廖彬兵,韩亚洪. 航空兵器. 2019(01)
[3]因果推断的统计方法[J]. 苗旺,刘春辰,耿直. 中国科学:数学. 2018(12)
[4]基于卷积神经网络的互联网金融信用风险预测研究[J]. 王重仁,韩冬梅. 微型机与应用. 2017(24)
[5]大数据时代个人信用评分的新趋势[J]. 张晶. 征信. 2017(12)
[6]基于有序logistic模型的互联网金融客户违约风险研究[J]. 熊正德,刘臻煊,熊一鹏. 系统工程. 2017(08)
[7]基于支持向量机的中小企业技术信贷违约预测[J]. 张杰,赵峰. 统计与决策. 2013(20)
[8]大数据的风险和现存问题[J]. 刘德寰,李雪莲. 广告大观(理论版). 2013(03)
[9]基于BP神经网络的信用卡违约风险预测[J]. 范巍强,刘暾东. 电脑知识与技术. 2011(10)
本文编号:2985091
【文章来源】:征信. 2020,38(05)北大核心
【文章页数】:8 页
【部分图文】:
算法伪代码
首先对数据集作数据预处理、缺失值填充和异常点删除。为了筛选出对提升模型预测效果较强的属性,分别对每个属性进行WOE(Weight Of Evidence)编码并计算其对应的IV(Information Value)值,计算结果如图2所示。一般认为IV值小于0.1时,该属性预测能力较弱,因此将需要探究的属性限定在IV值大于0.1的变量:可用额度、年龄、逾期30~59天笔数、逾期60~89天笔数、逾期90天笔数。预处理完成后,进行模型输入。该实验选择对四种模型进行归因分析:logistic回归、决策树、随机森林、BP神经网络,即预测模型F的选择限定为以上四种;倾向评分模型R在本实验中设置为logistic回归。将数据集、属性集及选定的预测模型F、倾向评分模型R输入算法,并对数据集进行min-max标准化。
对数据集利用选定的四种预测模型:logistic回归、决策树、随机森林、BP神经网络进行预测建模,利用模型预测每个用户可能成为坏用户的概率,得出的四种模型预测效果对比如图3所示。可以看到可解释性较强的两个模型预测效果较差:logistic回归AUC=0.8126,预测效果最差;决策树模型AUC=0.8416,较之有所提升。可解释性较差的黑盒模型预测效果更好:随机森林模型AUC=0.8587;BP神经网络模型AUC=0.8620,预测效果最佳。随着模型效果的提升,可解释性在下降。
【参考文献】:
期刊论文
[1]信用评分模型比较综述——基于传统方法与数据挖掘的对比[J]. 何珊,刘振东,马小林. 征信. 2019(02)
[2]深度学习的可解释性[J]. 吴飞,廖彬兵,韩亚洪. 航空兵器. 2019(01)
[3]因果推断的统计方法[J]. 苗旺,刘春辰,耿直. 中国科学:数学. 2018(12)
[4]基于卷积神经网络的互联网金融信用风险预测研究[J]. 王重仁,韩冬梅. 微型机与应用. 2017(24)
[5]大数据时代个人信用评分的新趋势[J]. 张晶. 征信. 2017(12)
[6]基于有序logistic模型的互联网金融客户违约风险研究[J]. 熊正德,刘臻煊,熊一鹏. 系统工程. 2017(08)
[7]基于支持向量机的中小企业技术信贷违约预测[J]. 张杰,赵峰. 统计与决策. 2013(20)
[8]大数据的风险和现存问题[J]. 刘德寰,李雪莲. 广告大观(理论版). 2013(03)
[9]基于BP神经网络的信用卡违约风险预测[J]. 范巍强,刘暾东. 电脑知识与技术. 2011(10)
本文编号:2985091
本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/2985091.html