基于极端随机树与Logistic回归算法的网贷平台个人信用评估模型的比较研究
发布时间:2021-01-21 15:56
近年来,随着互联网技术的迅猛发展,各种网络金融衍生品也层出不穷,P2P网贷作为互联网金融的重要组成形式,更是发展不容小觑,P2P虽然给我们带来便捷的同时也伴随着相应的风险。由于我国的监管法律法规制度与配套社会信用机制尚未完善,由此出现了大量的违法违规以及信用风险事件,例如近几年频繁发生的P2P“暴雷”事件,我国金融监管部门在这样的情况下也在不断出台相关政策以整治。P2P平台在如此背景下更加需要借助科技的力量,聚焦于个人信用风险的评估,降低P2P企业和出借人风险。基于以上背景再加上我实习期间的个人经历,发现国内目前主要使用Lo-gistic回归算法构建个人信用风险评估模型,而少有基于极端随机树构造个人信用评估模型。于是,本文将进行极端随机树和Logistic回归算法在网贷平台中构建个人信用评估模型的比较。本文主要从以下方面进行研究:首先,通过介绍P2P国内外的发展历程,分析国内外对于评估指标以及个人信用风险评估模型的研究,引出本文的研究内容与目的,以及在实际中应用的意义。并介绍相关的Logistic回归算法、极端随机树算法等模型理论,为实证研究作铺垫。然后,通过数据获取,数据清洗,指标特...
【文章来源】: 韦良芳 山东大学
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图3.1:?sigmoid函数图像??
?山东大学硕士学位论文???Tfalftingset??folds?test?fold??;.......厂.?..J?i??I**?iteration?1|||?。??r?ltefati〇r)?||S||[?|?^?切??……………?,孩嫌—g垮????????IVUmitkm?\-?[?£"w??图3.2:?10折交叉验证步骤图解??3.6.1混淆矩阵??混淆矩阵是用来对分类问题的预测结果的总结,使用计数值汇总正确和不正??确预测的数量,并按照每个类进行细分。它将数据分为四类,分别为:真正例??(TP)、假反例(FN)、假正例(FP)、真反例(TN)。而混淆矩阵就是由这四个??部分所组成,如表3.1所示。??表3.1:混淆矩阵??真实情况预测结果??正例?反例??正例?TP?(真正例)FN?(假反例)??反例?FP?(假正例)TN?(真反例)??由此推出TPR?(真正例率)也就是真实正例被预测为正例的比例。FPR.(假正??例率)即真实反例被预测为正例的比例。其计算方法分别如公式3.21与公式3.22所??不。??TP??TPR=?— ̄—?3.21)??TP?+?FN?K?'??FP??FPR=?^?咖?(3.22)??FP+TN?y?'??-20?-??
?山东大学硕士学位论文???地理位置类特征:用户申请贷款所在位置经纬度球面距离均值、用户申请贷??款所在位置经纬度球面距离方差、用户申请贷款所在位置商圈个数、最常用信??息点、最常用商圈、出现过的省个数等??信用卡流水类特征:近6个月信用卡交易笔数、近6个月有信用卡交易月份??数、是否网购用户、是否商旅用户、消费总额等。??信用卡账单类特征:是否绑定信用卡、信用卡张数、信用卡最高等级、绑卡??总信用额度、绑卡消费额度占比等。??部分数据分布如图4.1所示。??瞢户嬝想状现分夜?窗产工作午鷗分布??麵?f^??S^DO?U???HH??imi?—?3〇Q〇?h?m??ZMf?:ra—?sm?丨画圓―??eitHw?m?e?禾育?惠拜?14苹?>io年?kj年以上昏12月?減努?mB??age?score??48,0?-?—?w???—?■?—■??>????.?".'.^?霞?g〇0?????^7-5?????!??£?■■卜丄??織?挪?^????????????????2&jD?|??—?????^??ZH&?:?〇?*??客产性_分布?容产有逾期记承分布??f??图4.1:部分数据分布图??以上六图从左到右,从上到下,以此表示为客户婚姻状况分布图(a)、客户??工作年限分布图(b)、客户年龄分布图(C)、客户的第三方信用评分分布图(d)、??-24-??
【参考文献】:
期刊论文
[1]P2P网络借贷借款人违约风险影响因素研究[J]. 李杰,刘露,Chao-Hsien Chu. 商业研究. 2018(09)
[2]动态异质集成信用评分模型在P2P网络借贷中的应用[J]. 刘传哲,马达亮,夏雨霏. 金融发展研究. 2018(09)
[3]银行个人客户信用评分模型研究——基于决策树算法[J]. 王雅静. 现代商贸工业. 2015(19)
[4]P2P网络借贷违约风险的影响因素研究[J]. 冯新月. 中国商贸. 2014(11)
[5]商业银行个人信贷信用评分模型的构建与应用[J]. 刘莉亚. 财经研究. 2007(02)
本文编号:2991457
【文章来源】: 韦良芳 山东大学
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图3.1:?sigmoid函数图像??
?山东大学硕士学位论文???Tfalftingset??folds?test?fold??;.......厂.?..J?i??I**?iteration?1|||?。??r?ltefati〇r)?||S||[?|?^?切??……………?,孩嫌—g垮????????IVUmitkm?\-?[?£"w??图3.2:?10折交叉验证步骤图解??3.6.1混淆矩阵??混淆矩阵是用来对分类问题的预测结果的总结,使用计数值汇总正确和不正??确预测的数量,并按照每个类进行细分。它将数据分为四类,分别为:真正例??(TP)、假反例(FN)、假正例(FP)、真反例(TN)。而混淆矩阵就是由这四个??部分所组成,如表3.1所示。??表3.1:混淆矩阵??真实情况预测结果??正例?反例??正例?TP?(真正例)FN?(假反例)??反例?FP?(假正例)TN?(真反例)??由此推出TPR?(真正例率)也就是真实正例被预测为正例的比例。FPR.(假正??例率)即真实反例被预测为正例的比例。其计算方法分别如公式3.21与公式3.22所??不。??TP??TPR=?— ̄—?3.21)??TP?+?FN?K?'??FP??FPR=?^?咖?(3.22)??FP+TN?y?'??-20?-??
?山东大学硕士学位论文???地理位置类特征:用户申请贷款所在位置经纬度球面距离均值、用户申请贷??款所在位置经纬度球面距离方差、用户申请贷款所在位置商圈个数、最常用信??息点、最常用商圈、出现过的省个数等??信用卡流水类特征:近6个月信用卡交易笔数、近6个月有信用卡交易月份??数、是否网购用户、是否商旅用户、消费总额等。??信用卡账单类特征:是否绑定信用卡、信用卡张数、信用卡最高等级、绑卡??总信用额度、绑卡消费额度占比等。??部分数据分布如图4.1所示。??瞢户嬝想状现分夜?窗产工作午鷗分布??麵?f^??S^DO?U???HH??imi?—?3〇Q〇?h?m??ZMf?:ra—?sm?丨画圓―??eitHw?m?e?禾育?惠拜?14苹?>io年?kj年以上昏12月?減努?mB??age?score??48,0?-?—?w???—?■?—■??>????.?".'.^?霞?g〇0?????^7-5?????!??£?■■卜丄??織?挪?^????????????????2&jD?|??—?????^??ZH&?:?〇?*??客产性_分布?容产有逾期记承分布??f??图4.1:部分数据分布图??以上六图从左到右,从上到下,以此表示为客户婚姻状况分布图(a)、客户??工作年限分布图(b)、客户年龄分布图(C)、客户的第三方信用评分分布图(d)、??-24-??
【参考文献】:
期刊论文
[1]P2P网络借贷借款人违约风险影响因素研究[J]. 李杰,刘露,Chao-Hsien Chu. 商业研究. 2018(09)
[2]动态异质集成信用评分模型在P2P网络借贷中的应用[J]. 刘传哲,马达亮,夏雨霏. 金融发展研究. 2018(09)
[3]银行个人客户信用评分模型研究——基于决策树算法[J]. 王雅静. 现代商贸工业. 2015(19)
[4]P2P网络借贷违约风险的影响因素研究[J]. 冯新月. 中国商贸. 2014(11)
[5]商业银行个人信贷信用评分模型的构建与应用[J]. 刘莉亚. 财经研究. 2007(02)
本文编号:2991457
本文链接:https://www.wllwen.com/guanlilunwen/bankxd/2991457.html