P2P网络借贷个人信用风险评估模型研究
发布时间:2021-02-08 09:41
P2P网络借贷出现于21世纪初,是在金融行业和互联网技术逐渐成熟的社会背景下发展而来的。它是民间普惠金融和互联网金融的重要组成部分,是小额信贷领域的一种延续和创新,对传统信贷业务结构构成了补充,自出现以来在全球范围内迅速发展。然而我国的P2P网络借贷起步较晚,信用体系的不完善加之相关法律法规的缺失使得该行业存在严重的资金安全隐患。随着大数据时代的到来,从海量数据中提取有用信息,构建有效、可靠的信用风险评估模型对违约情况实现准确预测,提高P2P平台及投资者的风险监控和识别能力,这对促进该行业的健康、稳定发展具有重要的现实意义。虽然在P2P网络借贷信用风险评估方面已有较多的研究成果,但大多数研究都是针对单一模型,并且随着不断地改良,单一模型性能提升的空间已经非常有限。近年来,组合模型因具有更优异的预测效果而备受推崇,但这方面的相关研究还较少。于是,本文分别采用传统的统计学方法Logistic回归和新兴的机器学习中随机森林的方法建立了单一模型,并尝试将单一模型进行组合,本文所用的方法和得出的模型完善了这方面的研究。本文选用美国的Lending Club这一 P2P平台的借贷数据作为实证数据集...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【图文】:
图2_2行业成交量变化趋势??9??
,所以可以有效??避免过拟合。??调练样本集??/??/?bootstrap?抽样?Z??????1?????—iZZ?—[“?口:1.——?;?;??f?渊练集2?II?调练集k??S?公?為?Sb??_^?决策树!?决策树2?决策数Jc??1?1?"j??决策树1分炎1?决策树2分类'?决策树k分类??成囤归结果?成罔归结果? ̄?或回扫结果??\:^?一,一??/ ̄sa*5a?5i??7??/?结*或?灼结果?丨!??图3-1随机森林的构建过程??随机森林模型利用Bootstrap法抽取样本时,原始数据中约有36.8%的样本??不会出现在Bootstrap样本中,这些数据成为袋外数据,可用来估计模型的泛化??误差。每棵决策树都有一个OOB误差估计,取森林中所有决策树OOB估计的??平均值就是随机森林的泛化误差估计。Breiman证明,OOB估计是无偏估计,与??交叉验证相比,OOB估计不仅高效,且两者非常接近。??3.6模型评价??本文选用由混淆矩阵得出的相关指标以及ROC曲线、KS曲线对模型进行??评价,首先引入混淆矩阵的概念。??3.6.1混淆矩阵??以二分类模型为例,表3-2的混淆矩阵呈现了分类结果。TP(Tme?Positive)??称为真正例数,是实际类别为1,预测类别也为1的样本数;TN(True?Negative)??称为真负例数,是实际类别为0,预测类别也为0的样本数;FN(False?Negative)??称为假负例数,是实际类别为1,预测类别为0的样本数;FP(FaIse?Positive)称??为假正例数,是实际类别为0,预测类别
baLgt?0?0.156?0.237?-0.379?-0.131?0.100?0.145?0.163??percentjc_gt_75?-0.137?0.315?0.132?-0.265?-0.112?-0.163??tot_HLcred_lim?0.286?0.167?0.284?-0.184?0.147?0.103??totaljjcjinit?0.342?-0.154?0.155?-0.123?-0.181?-0.177?-0.309?-0.147??图4-3?Comp.卜Comp.?11的意义??对这11个主成分加上4.1.5中的5个虚拟变量gradel、grade2、homel、??home2、term进行基于逐步回归的逻辑回归,模型并未进一步剔除变量,且除??Comp.8外,其余变量均在1%的显著性水平下显著。回归结果如图4-4:??coefficients:??Estimate?std.?Error?z?value?Pr(>|z|)??(intercept)?-0.135534?0.048595?-2.789?0.00529?**??term?0.384042?0.033600?11.430?<?2e-16?***??homel?-0.145761?0.048639?-2.997?0.00273?**??home2?0.139721?0.045997?3.038?0.00238?**??gradel?-0.307728?0.044810?-6.867?6.54e-12?***??g「ade2?0.298434?0.037815?7.892?2.97e-15?***??Com
【参考文献】:
期刊论文
[1]基于机器学习模型的P2P网贷平台风险预警研究[J]. 严武,冯凌秉,蒋志慧,孔雯. 金融与经济. 2019(09)
[2]基于偏最小二乘回归的P2P网络借贷平台信用风险评估探究[J]. 陈为民,龙小凡,杨密,袁旭宏. 湖南人文科技学院学报. 2019(05)
[3]P2P网络借贷平台信用风险识别研究[J]. 仝凌云,曹泽阳,安利平,梁强强. 金融理论与实践. 2019(10)
[4]互联网金融P2P贷款违约风险评估、贷款期限和风险溢价[J]. 王浩名,马树才. 财经论丛. 2019(07)
[5]基于机器学习的P2P违约预测算法比较——以“人人贷”为例[J]. 李汛,龙真,付怀宇,刘品璐. 统计与管理. 2019(06)
[6]基于多分类器动态集成的P2P违约风险评估[J]. 胡忠义,王超群,陈远,吴江,鲍玉昆. 管理学报. 2019(06)
[7]文本信息在P2P借贷平台违约评价中的作用——基于Multinomial Lasso-logistic模型[J]. 宓超,刘佳佳. 数学的实践与认识. 2019(05)
[8]基于非均衡模糊近似支持向量机的P2P网贷借款人信用风险评估及应用[J]. 张卫国,卢媛媛,刘勇军. 系统工程理论与实践. 2018(10)
[9]基于SVM-Logistic组合模型的P2P借款者信用风险评估——以微贷网为例[J]. 都红雯,卢孝伟. 生产力研究. 2018(10)
[10]基于LightGBM算法的P2P项目信用评级模型的设计及应用[J]. 马晓君,沙靖岚,牛雪琪. 数量经济技术经济研究. 2018(05)
硕士论文
[1]基于多个分类模型的P2P借款人信贷风险评估研究[D]. 王敏佳.浙江工商大学 2018
[2]随机森林在P2P网贷借款信用风险评估中的应用[D]. 徐婷婷.山东大学 2017
本文编号:3023722
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【图文】:
图2_2行业成交量变化趋势??9??
,所以可以有效??避免过拟合。??调练样本集??/??/?bootstrap?抽样?Z??????1?????—iZZ?—[“?口:1.——?;?;??f?渊练集2?II?调练集k??S?公?為?Sb??_^?决策树!?决策树2?决策数Jc??1?1?"j??决策树1分炎1?决策树2分类'?决策树k分类??成囤归结果?成罔归结果? ̄?或回扫结果??\:^?一,一??/ ̄sa*5a?5i??7??/?结*或?灼结果?丨!??图3-1随机森林的构建过程??随机森林模型利用Bootstrap法抽取样本时,原始数据中约有36.8%的样本??不会出现在Bootstrap样本中,这些数据成为袋外数据,可用来估计模型的泛化??误差。每棵决策树都有一个OOB误差估计,取森林中所有决策树OOB估计的??平均值就是随机森林的泛化误差估计。Breiman证明,OOB估计是无偏估计,与??交叉验证相比,OOB估计不仅高效,且两者非常接近。??3.6模型评价??本文选用由混淆矩阵得出的相关指标以及ROC曲线、KS曲线对模型进行??评价,首先引入混淆矩阵的概念。??3.6.1混淆矩阵??以二分类模型为例,表3-2的混淆矩阵呈现了分类结果。TP(Tme?Positive)??称为真正例数,是实际类别为1,预测类别也为1的样本数;TN(True?Negative)??称为真负例数,是实际类别为0,预测类别也为0的样本数;FN(False?Negative)??称为假负例数,是实际类别为1,预测类别为0的样本数;FP(FaIse?Positive)称??为假正例数,是实际类别为0,预测类别
baLgt?0?0.156?0.237?-0.379?-0.131?0.100?0.145?0.163??percentjc_gt_75?-0.137?0.315?0.132?-0.265?-0.112?-0.163??tot_HLcred_lim?0.286?0.167?0.284?-0.184?0.147?0.103??totaljjcjinit?0.342?-0.154?0.155?-0.123?-0.181?-0.177?-0.309?-0.147??图4-3?Comp.卜Comp.?11的意义??对这11个主成分加上4.1.5中的5个虚拟变量gradel、grade2、homel、??home2、term进行基于逐步回归的逻辑回归,模型并未进一步剔除变量,且除??Comp.8外,其余变量均在1%的显著性水平下显著。回归结果如图4-4:??coefficients:??Estimate?std.?Error?z?value?Pr(>|z|)??(intercept)?-0.135534?0.048595?-2.789?0.00529?**??term?0.384042?0.033600?11.430?<?2e-16?***??homel?-0.145761?0.048639?-2.997?0.00273?**??home2?0.139721?0.045997?3.038?0.00238?**??gradel?-0.307728?0.044810?-6.867?6.54e-12?***??g「ade2?0.298434?0.037815?7.892?2.97e-15?***??Com
【参考文献】:
期刊论文
[1]基于机器学习模型的P2P网贷平台风险预警研究[J]. 严武,冯凌秉,蒋志慧,孔雯. 金融与经济. 2019(09)
[2]基于偏最小二乘回归的P2P网络借贷平台信用风险评估探究[J]. 陈为民,龙小凡,杨密,袁旭宏. 湖南人文科技学院学报. 2019(05)
[3]P2P网络借贷平台信用风险识别研究[J]. 仝凌云,曹泽阳,安利平,梁强强. 金融理论与实践. 2019(10)
[4]互联网金融P2P贷款违约风险评估、贷款期限和风险溢价[J]. 王浩名,马树才. 财经论丛. 2019(07)
[5]基于机器学习的P2P违约预测算法比较——以“人人贷”为例[J]. 李汛,龙真,付怀宇,刘品璐. 统计与管理. 2019(06)
[6]基于多分类器动态集成的P2P违约风险评估[J]. 胡忠义,王超群,陈远,吴江,鲍玉昆. 管理学报. 2019(06)
[7]文本信息在P2P借贷平台违约评价中的作用——基于Multinomial Lasso-logistic模型[J]. 宓超,刘佳佳. 数学的实践与认识. 2019(05)
[8]基于非均衡模糊近似支持向量机的P2P网贷借款人信用风险评估及应用[J]. 张卫国,卢媛媛,刘勇军. 系统工程理论与实践. 2018(10)
[9]基于SVM-Logistic组合模型的P2P借款者信用风险评估——以微贷网为例[J]. 都红雯,卢孝伟. 生产力研究. 2018(10)
[10]基于LightGBM算法的P2P项目信用评级模型的设计及应用[J]. 马晓君,沙靖岚,牛雪琪. 数量经济技术经济研究. 2018(05)
硕士论文
[1]基于多个分类模型的P2P借款人信贷风险评估研究[D]. 王敏佳.浙江工商大学 2018
[2]随机森林在P2P网贷借款信用风险评估中的应用[D]. 徐婷婷.山东大学 2017
本文编号:3023722
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3023722.html