基于Spark框架的用于金融信贷风险控制的加权随机森林算法

发布时间：2020-12-26 09:37

　　为解决互联网时代线上贷款业务量庞大带来的困扰,优化快速迭代的数据模型,从线上贷款业务的特点出发,以Spark分布式计算引擎为核心设计并实现了能够并行处理非平衡数据的加权随机森林算法.该算法从特征切分点抽样统计、特征分箱、逐层训练三个角度对加权随机森林算法进行并行化优化.该算法有效提高了随机森林算法的分类准确率,同时有效降低了决策过程中出现的平局现象.对非平衡数据,该文章通过SMOTE算法对数据进行重构,较好的保留了原有数据集信息.实验表明,该算法能够有效提高放贷效率性与及时性,极大的提高了生产力.

【文章来源】：小型微型计算机系统. 2020年02期北大核心

【文章页数】：6 页

【部分图文】：

随机森林并行化建模

过程图,过程,森林,权重

权重的计算是通过out-of-bag的F1值进行衡量．得到所有k棵树的out-of-bag的F1值之后，利用公式(2)进行赋权———计算出每棵树对应的权重weigth(i)，把这些决策树组合起来便是加权随机森林．图3为加权过程的流程图．3.3 加权随机森林的投票并行化

流程图,森林,并行化,流程图

在单机模式的传统随机森林算法中，对于构建好的模型需要用新的样本进行测试并通过投票获取最后的类别．但是这个过程是串行运行的，需要随机森林中的每一棵树依次进行投票和统计．针对该情况，在面对数量较多的决策树时，对整个随机森林模型的投票过程进行了并行化．图4是对加权随机森林并行化投票的流程图．传统随机森林的投票过程由于一些劣质树的干扰导致最后的分类结果不好，所以为优化这一现象，本文使用out-ofbag数据的正确率作为权重依据的投票策略来代替单纯依赖相同权重的决策树投票．

【参考文献】：
期刊论文
[1]基于XGBoost算法的用户行为预测与风险分析[J]. 邱耀,杨国为.  工业控制计算机. 2018(09)
[2]基于Spark框架的FP-Growth大数据频繁项集挖掘算法[J]. 邵梁,何星舟,尚俊娜.  计算机应用研究. 2018(10)
[3]基于不平衡样本的互联网个人信用评估研究[J]. 李毅,姜天英,刘亚茹.  统计与信息论坛. 2017(02)
[4]基于Spark的并行SVM算法研究[J]. 刘泽燊,潘志松.  计算机科学. 2016(05)

硕士论文
[1]基于分布式平台Spark和YARN的数据挖掘算法的并行化研究[D]. 梁彦.中山大学 2014

本文编号：2939447

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/2939447.html

上一篇：政府融资平台贷款对商业银行绩效的影响
下一篇：创投机构响应政策还是迎合政策？——基于政府引导基金激励下的投资视角

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|