当前位置:主页 > 管理论文 > 货币论文 >

基于多模型组合的个人信用评估研究

发布时间:2021-01-14 05:35
  随着互联网金融行业的崛起,中国居民的信用消费快速发展,个人信贷总额逐年增长,截至到2019年末,个人信贷的不良贷款余额高达2.41万亿元,为了保证经济健康发展,及时降低信贷风险,做好个人信用评估尤为关键。在实际应用中不断提高评估模型准确率是个人信用评估的主要研究方向。忽视了数据特征重要程度的差异性会在一定程度上会降低模型的准确性;此外,还需要兼顾模型的可解释性,使资金方和客户能够理解信贷决策规则。深度神经网络的分类准确性高,但是受限于模型的可解释性,在个人信用评估领域的实际应用中寥若晨星。深度森林算法的准确性和深度神经网络不分轩轾,并且可解释性更佳,多模型组合方法可以使模型之间优势互补。因此本文以多模型组合方法为基础,选择具有代表性的深度森林、LightGBM、和SVM模型进行组合,构建个人信用评估模型,本文的主要工作如下:(1)改进分类算法。在特征提取时按特征的重要程度进行分区,再按比例依次从不同的分区提取特征构造特征子空间。在深度森林中为决策树分配权重,提出改进的深度森林算法,提高分类准确率。(2)验证多模型组合方法。首先,考虑到模型数量增加,参数也随之增加,提出一种改进的网格搜索... 

【文章来源】:河北大学河北省

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

基于多模型组合的个人信用评估研究


循环神经网络的基本结构

过程图,粒度,过程,向量


第三章相关算法理论25图3-2多粒度扫描过程设输入序列形样本(因本文信用数据不是图像数据,故此处不介绍图片形式样本扫描方法)维度为d,滑动扫描步长为s,扫描窗口维度为k,则扫描后的特征数量为:(3.15)正是此处与卷积神经网络的多粒度卷积核类似,式中扫描窗口维度k可以设定不同取值以获得更多子类样本,实现多粒度扫描。级联林结构基础的重要思想之一是每个输入示例的每棵树生成的类分布。通过计算相关示例所属的叶节点上不同类别示例的百分比来计算分布。它通过平均同一森林中所有树的类分布平均来产生类向量。然后将类别向量与原始向量连接起来,以输入到级联的下一个级别。RF分类的结果是使用类别向量,是一种集成学习方法[45]。集成学习算法使用原始训练数据集训练第一级学习器。然后它会生成一个用于训练第二级学习器(元学习器)的新数据集,以使第一级学习器的输出被视为第二级学习器的输入特征,而原始标签仍被视为新训练数据的标签。实际上,可以将深度森林中的类向量视为元学习器。与集成算法相比,DF在下一级级联时将原始向量和类向量(元学习器)连接起来同时使用。这意味着每个级联级别后,特征向量都会放大。Zhou和Feng[44]提出的级联架构如图3-3所示。从图中可以看出,级联的每个级层都由两对不同的RF组成,RF与原始输入产生相互连接的三维类向量。应该注意的是,可以对森林的这种结构进行修改,以针对特定应用改进DF。在最后一级之后,我们获得了输入特征向量的特征表示,可以对其进行分类以获得最终预测。

级联图,森林,级联,叶子


河北大学硕士学位论文26图3-3深度森林级联结构3.2LightGBM模型LightGBM(LightGradientBoostingMachine)是微软亚洲研究院2017年1月在GitHub上公布的一个开源、快速、高效的基于决策树算法的提升(GBDT、GBRT、GBM和MART)框架[46]。在各种应用场景和各大竞赛中,XGBoost已经被证明是一种非常高效热门的分类算法,但LightGBM是一种更加准确高效的新算法,它在保证准确率的前提下,内存占用下降了大约3倍,速度比XGBoost提升了近10倍。通过在组合模型中引进这种快速准确高效的算法以期获得更好的个人信用评估模型。LightGBM是基于Histogram的决策树算法,采用最优的按叶子分裂的学习方法(Leaf-wiseLearning),然而其它的提升算法分裂树通常不采用这种方法,而是采用按层分裂的学习方法(Level-wiseLearning)。(1)Level-wiseLearning处理一次数据的同时可以分裂同一层的叶子,因此可以实现多线程优化,并且能较好的控制模型的复杂程度,不容易过拟合现象。但实际上因为很多叶子的分裂增益较低,没必要进行搜索和分裂,而Level-wise又不加区别的分裂同一层的叶子,这就增加了很多没必要的计算成本。(2)Leaf-wiseLearning是每次从当前所有叶子中,找到其中分裂增益最大的一个进行分裂,然后重复这样的步骤。因此,在分裂次数相同的情况下,Leaf-wise可以降低更多的误差,是一种更为高效的策略。但同样有一个明显的缺点:它生成的决策树可能会深度过大,产生过拟合现象。因此LightGBM在Leaf-wise之上增加了一个最大深度限制,在保证高效率的同时防止过拟合,使算法更加快速有效,因此会有更高的精度,同时支持并行化学习也会占用更小的运行内存。而其他的任何已存在的提升算法都很难做

【参考文献】:
期刊论文
[1]消费金融公司的大数据风控研究[J]. 李瑶函.  科技经济市场. 2018(08)
[2]基于集成学习的标题分类算法研究[J]. 高元,刘柏嵩.  计算机应用研究. 2017(04)
[3]基于信息增益和Bagging集成学习算法的个人信用评估模型研究[J]. 曹杰,邵笑笑.  数学的实践与认识. 2016(08)
[4]个人信用评估GA-SVM模型的构建与应用[J]. 姜明辉,袁绪川.  合肥工业大学学报(自然科学版). 2008(02)

博士论文
[1]个人信用评分组合模型研究与应用[D]. 向晖.湖南大学 2011

硕士论文
[1]基于SVM和PSO的信用评级模型研究[D]. 曹秋燕.浙江工商大学 2013



本文编号:2976318

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/huobilw/2976318.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户847e0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com