当前位置:主页 > 经济论文 > 投融资论文 >

随机森林在P2P网贷借款信用风险评估中的应用

发布时间:2018-02-26 23:23

  本文关键词: P2P网络借贷 信用评估 随机森林 特征选择 出处:《山东大学》2017年硕士论文 论文类型:学位论文


【摘要】:随着互联网金融逐步发展,P2P网络借贷作为一种创新的互联网金融模式在当下变得炙手可热。近年来,凭借着高收益、便捷等理财优势,各类P2P网络借贷平台得到了爆发式增长。然而,我国P2P网络借贷因其较短的发展时间、落后的风险分析技术、以及尚不健全的法律法规体系等使得投资者面临着严重的资金安全隐患问题。信用风险已成为P2P网络借贷行业的首要发展瓶颈,如何为P2P网络借贷者建立一套良好的风险评估模型,显得非常迫切与必要。但是学术界对此还缺少深入的研究,风险评估依然处于传统个人借贷风险评估方法的简单模仿阶段。本文我们选择一种组合分类器模型——随机森林(Random Forest),该算法能够较好的容忍噪声,不容易产生过度拟合,且有着较高的稳定性,相比于传统的单分类器模型,能够更好的处理信贷风险评估问题。文中对随机森林算法的相关理论进行了详细介绍,并在此基础上通过引入代价敏感学习法提出了加权随机森林算法(WRF),进而提高错判代价较高的类别的准确率,增强模型的实用性。在实证阶段,我们首先对数据进行了预处理,主要包括剔除离群值点,补齐缺失值,归一化以及相关性检验;接着,采用五重交叉数据利用RF算法进行特征指标的选择,为实证部分打下了坚实的基础;然后,利用Lending Club开放数据集,以及German、Austria公开银行信贷数据集,建立了以随机森林为基础的个人信用评估模型,并与Logistic回归,KNN,SVM,ANN等传统信用风险评估方法进行对比。通过实验我们知道:不论是P2P信贷数据还是传统银行信贷数据RF模型总体分类效果最佳,这说明RF算法更加适用于构建信用评估模型。最后,我们采用SMOTE算法针对P2P不平衡数据进行了处理,使得分类结果更加具有现实参考意义。
[Abstract]:With the gradual development of Internet finance, P2P network lending, as an innovative Internet finance model, has become a hot issue. In recent years, with the advantages of high profit, convenience and other financial advantages, All kinds of P2P network lending platforms have been exploding. However, due to their short development time and backward risk analysis technology, P2P network lending in China, As well as the imperfect system of laws and regulations, investors are faced with a serious problem of capital security risks. Credit risk has become the primary bottleneck in the development of P2P network lending industry. How to establish a good risk assessment model for P2P network borrowers is very urgent and necessary. The risk assessment is still in the simple imitation stage of the traditional personal loan risk assessment method. In this paper, we choose a combined classifier model, Random Forest Random Forestwood, which can tolerate noise well and is not easy to overfit. Compared with the traditional single classifier model, it can deal with the credit risk assessment problem better. In this paper, the related theories of stochastic forest algorithm are introduced in detail. On the basis of this, a weighted stochastic forest algorithm is proposed by introducing the cost sensitive learning method, which can improve the accuracy of the category with high cost and enhance the practicability of the model. In the empirical stage, we preprocess the data firstly. It mainly includes eliminating outliers, compensating missing values, normalizing and correlation testing. Then, we use five cross data to select feature indicators using RF algorithm, which lays a solid foundation for the empirical part. Using the Lending Club open data set and the open bank credit data set of Germani Austria, a personal credit assessment model based on random forest is established. And compared with the traditional credit risk assessment methods such as Logistic regression KNN / SVMANN and so on. Through the experiment, we know that both P2P credit data and traditional bank credit data RF model overall classification effect is the best. This shows that RF algorithm is more suitable for building credit evaluation model. Finally, we use SMOTE algorithm to deal with P2P unbalanced data, which makes the classification results more practical reference significance.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:F832.4;F724.6

【相似文献】

相关期刊论文 前5条

1 曹正凤;谢邦昌;纪宏;;一种随机森林的混合算法[J];统计与决策;2014年04期

2 孟杰;;随机森林模型在财务失败预警中的应用[J];统计与决策;2014年04期

3 李升;宋舜宏;;网络入侵检测中属性分组的随机森林算法[J];计算机安全;2009年11期

4 刘微;罗林开;王华珍;;基于随机森林的基金重仓股预测[J];福州大学学报(自然科学版);2008年S1期

5 钱争鸣;李海波;于艳萍;;个人住房按揭贷款违约风险研究[J];经济研究;2010年S1期

相关会议论文 前7条

1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年

6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年

7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

相关博士学位论文 前6条

1 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年

2 薛小明;基于时频分析与特征约简的水电机组故障诊断方法研究[D];华中科技大学;2016年

3 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年

4 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年

5 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年

6 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

相关硕士学位论文 前10条

1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年

2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年

3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年

4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年

5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年

6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年

7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年

8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年

9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年

10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年



本文编号:1540136

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/1540136.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d5aab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com