基于随机森林的P2P网络借贷成功率重要影响因素研究
发布时间:2017-04-11 18:06
本文关键词:基于随机森林的P2P网络借贷成功率重要影响因素研究,由笔耕文化传播整理发布。
【摘要】:传统金融体系改革和发展的速度相对滞后,以及不论是商业银行还是证券公司等传统金融机构“高大上”的姿态,都使得一方面资金的供给者很难找到适合的投资产品,进行有效的资产配置;另一方面大量的资金需求者,比如中小微企业、普通居民,仍然难以满足其日常的资金需求。在当前资本需求和供给出现结构性失衡的背景下,以p2p网络借贷为典型模式的互联网金融“横空出世”,成为了传统金融的搅局者。P2P网络借贷是基于互联网金融中介业务的一种创新模式,平台的主要作用是为借贷双方提供信息、信息价值认定和其他促成交易完成的服务,不介入到借贷关系中。全世界首家p2p网络借贷平台——ZOPA于2005年在伦敦成立,由此掀开了网络借贷行业的帷幕。中国的p2p网络借贷行业也于2007年扬帆起航,“拍拍贷”是中国成立最早的网络借贷平台。2010年以后,国内的p2p平台开始遍布祖国大江南北,业务量迅速扩大。2013年至2014年,p2p网络借贷行业在伴随着“跑路”、“兑付困难”、“诈骗”等事件中成交量依然一路高歌猛进。2015年国家出台了《关于促进互联网金融健康发展的指导意见》让一直处于三无地带的p2p网络借贷行业逐渐的规范化、理性化。P2P网络借贷具有诸多优点,首先进入行业要求低,能够充分体现普惠金融这一理念。它的客户群体主要是针对中小微企业主、普通的工薪阶层、创业者等草根阶级。在我国,小微企业数量庞大,国家工商总局2014年发布的《全国小微企业发展报告》显示,截至2013年底,小微企业数量达1169.87万户,占企业总数的76.57%。如果再加上普通的工薪阶层,那么行业将会服务于一个数量庞大的客户群体。其次,较强的灵活性和较高的效率。主要体现在借款额度、借款期限、借款的审核、还款方式上。借贷过程大致概括为:借款申请者需要向平台提交申请材料,之后平台会把审核合格的借款标的发布到网站上,投资者可以根据自身的偏好自主进行投资,借款者按时还本付息即可。P2P网络借贷平台上的标的大多是“金额小”、“期限短”、“需求急”。通过这一新型借贷形式淡化繁琐的层层审批,只要通过资质审核,就能简单、便捷获得借款。根据“网贷之家”发布的数据显示,截止2015年年底,我国共有3844家平台,有1350万投资人参与到网络借贷行业,全年行业成交额为10021亿。这一数据足以可见p2p行业火热的程度。今后,有关部门如果能够制定行之有效的法律和行业规章,肃清行业乱象,就能使行业朝着正确的方向发展下去,真正的体现行业的价值。P2P网络借贷也引起了学术界的广泛关注,国内的学术研究主要是采用定性分析的方法,集中研究它的起源和发展,平台的运营模式,目前行业存在的问题等等,但是对影响p2p网络借贷成功率的因素进行实证分析的文献相对比较少。为什么要研究p2p网络借贷成功率的影响因素?结合本文收集的“人人贷”借贷平台上2015年第一季度所有交易数据显示,网络借贷成功率只有3.9%。这意味着绝大多数的借款人的融资需求是得不到满足的,网络借贷极低的成功率必然会严重制约平台的发展。总结国内外对影响p2p网络借贷成功率因素的文献时发现,学者们在进行实证分析时,几乎都采用了传统统计学模型,由于传统的计量方法对数据满足一定的假设或是要求,一旦不能很好地满足前提假设或者要求,就会导致模型的结果失真、预测精度差。因此,本文首次将在其他领域广泛应用的机器学习方法—随机森林运用到了研究p2p网络借贷成功率影响因素分析中。随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林是一种非常成熟的算法,被广泛运用到各个领域,比如生物学、地质学、基金收益率预测等,但是尚未被运用到研究p2p网络借贷。随机森林具有诸多的优点,比如预测精确度比线性和广义线性模型高,同时计算量没有神经网络那么庞大,不需要考虑Logistic模型中要求的自变量的共线性问题,对数据缺失有很强的容忍度等。随机森林具有的这些优点非常适合用来处理本文的数据。因此,本文以“人人贷”2015年第一季度平台上所有的交易为原始数据,采用随机森林法从33个变量之中挑选出若干重要的变量建立预测模型,并将该模型与其他方法(决策树法、神经网络、支持向量机、贝叶斯算法、Logistic)建立的模型进行对比。得出的结论是,第一,随机森林算法的准确率比决策树、支持向量机、贝叶斯、1ogistic回归和神经网络高。第二,采用随机森林启发式算法得出了借款人的历史借贷成功率、未还清的借款数量、收入认证、信用认证分别是影响借贷成功率第一、第二、第三、第四重要的因素。并且利用这10个变量(历史借贷成功率、未还清借款数量、收入认证、工作认证、信用认证、信用等级、身份认证、预期金额、贷款金额和借款成本)建立的随机森林模型预测准确率最高。文章所建立的基于非参数随机森林的借贷成功率评估模型可以灵敏的选出成功率比较高的订单,提高了投资者选择的有效性,并且该模型避免了复杂的计算过程,适用于网络借贷平台上的海量且不断增加的订单。同时首次将随机森林方法应用到我国网络借贷成功率评估模型上,该模型的成功建立,充实了网络借贷行为理论的研究,更为将来网络金融的进一步实际应用奠定了重要实证基础。通过本文的研究,希望能为解决P2P借贷成功率低的问题献上绵薄之力,也希望有关的监管政策能够尽快落实,推动行业健康有序的发展!
【关键词】:随机森林 smote算法 P2P网络 历史借贷成功率
【学位授予单位】:西南财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F724.6;F832.4
【目录】:
- 摘要4-7
- abstract7-11
- 1. 引言11-15
- 1.1 研究意义和背景11-12
- 1.2 研究方法12-13
- 1.3 研究内容13
- 1.4 研究目标13-14
- 1.5 研究框架图14-15
- 2. 文献综述15-28
- 2.1 p2p网络借贷起源以及特点15-16
- 2.2 P2P网络借贷平台的运行机制16-23
- 2.2.1 国外P2P网络借贷平台主要运行机制17-18
- 2.2.2 中国P2P网络借贷平台主要运行机制18-23
- 2.3 影响p2p网络借贷各项因素23-25
- 2.3.1 国外对影响p2p网络借贷各项因素研究23-24
- 2.3.2 国内对影响p2p网络借贷因素研究24-25
- 2.4 关于p2p网络借贷其他研究25-26
- 2.5 随机森林法在我国的运用26
- 2.6 文献评述26-28
- 3. p2p网络借贷平台发展现状28-32
- 3.1 p2p网络借贷平台数量28-30
- 3.2 p2p网络借贷平台成交额30-31
- 3.3 p2p网络借贷平台参与人数31-32
- 4. 随机森林理论32-37
- 4.1 Bootstrap方法概述32-33
- 4.2 随机森林算法原理33-34
- 4.3 随机森林变量重要性评分34-36
- 4.4 随机森林法的优点36-37
- 5. 模型构建与实证分析37-55
- 5.1 网络借贷成功率评估模型37-40
- 5.1.1 Logistic回归模型37
- 5.1.2 基于随机森林的网络借贷成功率评估模型37-39
- 5.1.3 各个模型评价标准39-40
- 5.2 变量描述和模型构建40-45
- 5.2.1 变量的选择40-41
- 5.2.2 变量说明与数据处理41-44
- 5.2.3 特征描述44-45
- 5.3 实证分析45-49
- 5.3.1 指标体系的确定45-47
- 5.3.2 模型结果与解释47-48
- 5.3.3 稳健性检验48-49
- 5.4 结论49-55
- 5.4.1 全文的总结49-50
- 5.4.2 本文的创新与不足50
- 5.4.3 政策建议50-55
- 参考文献55-58
- 后记58-59
- 致谢59-60
【参考文献】
中国期刊全文数据库 前10条
1 丁杰;马柱;;我国P2P网络贷款的模式异化及其风险管控[J];新金融;2015年09期
2 林鑫;;P2P网络借贷缓解中小企业融资难问题的探讨[J];中国市场;2015年30期
3 郭海凤;陈霄;;P2P网贷平台综合竞争力评价研究[J];金融论坛;2015年02期
4 范云成;;P2P网络贷款的风险分析——基于有利网平台案例[J];当代经济;2014年23期
5 方匡南;吴见彬;谢邦昌;;基于随机森林的保险客户利润贡献度研究[J];数理统计与管理;2014年06期
6 李亭;田原;邬伦;刘亮;;基于随机森林方法的滑坡灾害危险性区划[J];地理与地理信息科学;2014年06期
7 董倩;孙娜娜;李伟;;基于网络搜索数据的房地产价格预测[J];统计研究;2014年10期
8 李悦雷;郭阳;张维;;中国P2P小额贷款市场借贷成功率影响因素分析[J];金融研究;2013年07期
9 陈冬宇;;基于社会认知理论的P2P网络放贷交易信任研究[J];南开管理评论;2014年03期
10 中国人民银行开封市中心支行课题组;赵继鸿;;基于服务主体的互联网金融运营风险比较及监管思考[J];征信;2013年12期
本文关键词:基于随机森林的P2P网络借贷成功率重要影响因素研究,,由笔耕文化传播整理发布。
本文编号:299644
本文链接:https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/299644.html