基于Spark框架的用于金融信贷风险控制的加权随机森林算法
发布时间:2020-12-26 09:37
为解决互联网时代线上贷款业务量庞大带来的困扰,优化快速迭代的数据模型,从线上贷款业务的特点出发,以Spark分布式计算引擎为核心设计并实现了能够并行处理非平衡数据的加权随机森林算法.该算法从特征切分点抽样统计、特征分箱、逐层训练三个角度对加权随机森林算法进行并行化优化.该算法有效提高了随机森林算法的分类准确率,同时有效降低了决策过程中出现的平局现象.对非平衡数据,该文章通过SMOTE算法对数据进行重构,较好的保留了原有数据集信息.实验表明,该算法能够有效提高放贷效率性与及时性,极大的提高了生产力.
【文章来源】:小型微型计算机系统. 2020年02期 北大核心
【文章页数】:6 页
【部分图文】:
随机森林并行化建模
权重的计算是通过out-of-bag的F1值进行衡量.得到所有k棵树的out-of-bag的F1值之后,利用公式(2)进行赋权———计算出每棵树对应的权重weigth(i),把这些决策树组合起来便是加权随机森林.图3为加权过程的流程图.3.3 加权随机森林的投票并行化
在单机模式的传统随机森林算法中,对于构建好的模型需要用新的样本进行测试并通过投票获取最后的类别.但是这个过程是串行运行的,需要随机森林中的每一棵树依次进行投票和统计.针对该情况,在面对数量较多的决策树时,对整个随机森林模型的投票过程进行了并行化.图4是对加权随机森林并行化投票的流程图.传统随机森林的投票过程由于一些劣质树的干扰导致最后的分类结果不好,所以为优化这一现象,本文使用out-ofbag数据的正确率作为权重依据的投票策略来代替单纯依赖相同权重的决策树投票.
【参考文献】:
期刊论文
[1]基于XGBoost算法的用户行为预测与风险分析[J]. 邱耀,杨国为. 工业控制计算机. 2018(09)
[2]基于Spark框架的FP-Growth大数据频繁项集挖掘算法[J]. 邵梁,何星舟,尚俊娜. 计算机应用研究. 2018(10)
[3]基于不平衡样本的互联网个人信用评估研究[J]. 李毅,姜天英,刘亚茹. 统计与信息论坛. 2017(02)
[4]基于Spark的并行SVM算法研究[J]. 刘泽燊,潘志松. 计算机科学. 2016(05)
硕士论文
[1]基于分布式平台Spark和YARN的数据挖掘算法的并行化研究[D]. 梁彦.中山大学 2014
本文编号:2939447
【文章来源】:小型微型计算机系统. 2020年02期 北大核心
【文章页数】:6 页
【部分图文】:
随机森林并行化建模
权重的计算是通过out-of-bag的F1值进行衡量.得到所有k棵树的out-of-bag的F1值之后,利用公式(2)进行赋权———计算出每棵树对应的权重weigth(i),把这些决策树组合起来便是加权随机森林.图3为加权过程的流程图.3.3 加权随机森林的投票并行化
在单机模式的传统随机森林算法中,对于构建好的模型需要用新的样本进行测试并通过投票获取最后的类别.但是这个过程是串行运行的,需要随机森林中的每一棵树依次进行投票和统计.针对该情况,在面对数量较多的决策树时,对整个随机森林模型的投票过程进行了并行化.图4是对加权随机森林并行化投票的流程图.传统随机森林的投票过程由于一些劣质树的干扰导致最后的分类结果不好,所以为优化这一现象,本文使用out-ofbag数据的正确率作为权重依据的投票策略来代替单纯依赖相同权重的决策树投票.
【参考文献】:
期刊论文
[1]基于XGBoost算法的用户行为预测与风险分析[J]. 邱耀,杨国为. 工业控制计算机. 2018(09)
[2]基于Spark框架的FP-Growth大数据频繁项集挖掘算法[J]. 邵梁,何星舟,尚俊娜. 计算机应用研究. 2018(10)
[3]基于不平衡样本的互联网个人信用评估研究[J]. 李毅,姜天英,刘亚茹. 统计与信息论坛. 2017(02)
[4]基于Spark的并行SVM算法研究[J]. 刘泽燊,潘志松. 计算机科学. 2016(05)
硕士论文
[1]基于分布式平台Spark和YARN的数据挖掘算法的并行化研究[D]. 梁彦.中山大学 2014
本文编号:2939447
本文链接:https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/2939447.html