基于并行随机森林的在线贷款逾期预测研究
本文关键词:基于并行随机森林的在线贷款逾期预测研究
【摘要】:随着互联网金融在中国的高速发展,其业务之一的在线贷款已经开始被大众接受和使用。由于在线贷款的手续与传统银行贷款手续不同,因此如何计算贷款者在贷款前的信用及风险是该业务开展的核心问题。同时,该核心问题还包括在贷款后实时跟踪贷款人的经济情况变化,预测其是否会按时还款等问题。针对在线贷款业务数据量大,模型更新迭代频繁的特点,本文基于随机森林的可并行性和Spark的并行计算平台设计并实现了并行随机森林,从而减少了整个模型训练和预测的时间。针对在线贷款还款数据的非平衡性(即大多数的数据是正常,而少数是逾期),本文提出了基于改进综合采样的方法重构平衡数据。此外,本文根据随机森林算法的不足,提出了一种加权随机森林算法,此算法在构造随机森林的每棵决策树时利用预测OOB数据的F1值来评估该决策树的性能,从而给每棵树相应的权重来对最后投票进行加权。综上所述,本文根据对在线贷款逾期业务需求和数据的特点提出了一种基于Spark的并行加权随机森林算法。通过实验表明,本文提出的对数据进行重构平衡的方法以及对算法进行的加权改进能有效提高预测的精准度,同时减少平局现象的发生。此外,该算法在F1值上比常见分类算法如SVM、逻辑回归、C4.5、传统随机森林表现更优,并具有良好并行效率和不错的加速比性能。
【关键词】:随机森林 并行 加权 非平衡 逾期预测
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F724.6;F832.4;TP338.6
【目录】:
- 摘要5-6
- Abstract6-9
- 第一章 绪论9-17
- 1.1 选题背景和意义9-10
- 1.2 国内外相关研究10-16
- 1.2.1 贷款违约预测研究现状10-14
- 1.2.2 Spark研究现状14-15
- 1.2.3 随机森林研究现状15-16
- 1.3 本文的工作和组织结构16-17
- 第二章 本文相关理论知识17-26
- 2.1 数据挖掘及常见分类算法简介17-20
- 2.1.1 数据挖掘概念17
- 2.1.2 数据挖掘过程17-18
- 2.1.3 分类算法概述18-20
- 2.2 非平衡数据分类20-22
- 2.2.1 非平衡数据分类问题的本质21
- 2.2.2 常见非平衡分类解决方案21-22
- 2.3 随机森林的算法原理介绍22-23
- 2.4 Spark并行计算框架23-26
- 2.4.1 Spark体系框架24
- 2.4.2 Spark RDD及程序流程24-26
- 第三章 加权并行随机森林算法的分析与设计26-38
- 3.1 加权随机森林26-29
- 3.1.1 传统随机森林的不足之处26-27
- 3.1.2 本文提出的加权随机森林的算法介绍27-29
- 3.2 基于Spark的并行随机森林的设计29-38
- 3.2.1 并行性研究29-30
- 3.2.2 本文采取的并行优化策略30-31
- 3.2.3 并行随机森林算法流程及描述31-38
- 第四章 实验结果与分析38-51
- 4.1 实验环境38
- 4.2 数据集说明38-40
- 4.3 评估方法和评估标准40-41
- 4.4 实验结果与分析41-50
- 4.4.1 参数设置41-42
- 4.4.2 模型调优42-44
- 4.4.3 决策树的权重44-46
- 4.4.4 并行优化效果比较46
- 4.4.5 数据综合采样方法比较46-47
- 4.4.6 模型比较47-48
- 4.4.7 算法并行性能测试48-49
- 4.4.8 模型应用效果分析49-50
- 4.5 小结50-51
- 第五章 总结与展望51-53
- 5.1 总结51
- 5.2 下一步工作展望51-53
- 参考文献53-58
- 致谢58-59
- 答辩委员签名的答辩决议书59
【相似文献】
中国期刊全文数据库 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
3 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
4 杨毕玉;核电站松动件检测分析研究[D];浙江大学;2016年
5 王宇恒;推荐系统中随机森林算法的优化与应用[D];浙江大学;2016年
6 张玉桃;旅客社会网络中的家庭出行预测及其行为特征分析[D];北京交通大学;2016年
7 张兴;基于Spark大数据平台的火电厂节能分析[D];太原理工大学;2016年
8 蔡晓路;基于随机森林的类风湿关节炎证型判别模型研究[D];北京中医药大学;2016年
9 杨丽;音频场景分析与识别方法研究[D];南京大学;2013年
10 朱琪;基于最大平衡度与最大共识的改进随机森林算法研究[D];吉林大学;2016年
,本文编号:579789
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/579789.html