银行客户流失预警及模型可解释性分析
发布时间:2024-03-19 05:26
目前,机器学习模型在多方面取得了很好的成果,为各行各业提供了解决问题的有效办法。在金融领域,机器学习因其优异表现已经得到众多学者的关注,但是对于结构过于复杂的模型,却很难解释模型决策背后的逻辑,仅能得到模型预测结果,使得模型成为黑盒模型,严重阻碍了机器学习在金融领域的应用。基于此背景下,本文以金融领域中的银行业务为例,建立银行客户流失预警模型,旨在有效识别银行潜在流失客户,并通过模型可解释性分析,挖掘出模型决策背后的有效信息,为防止客户流失提供数据参考与建议。首先根据原始数据特点进行数据清洗,主要包括缺失值处理以及重复样本处理。之后先通过特征粗筛去除只起到标记作用以及无统计意义的特征,再利用Lasso CV与皮尔逊相关系数法进行特征选择,进一步提升数据质量。同时银行数据还存在严重的不平衡性,使用BORDERLINE-SMOTE算法使得训练集平衡。接下来进行建模前的数据挖掘工作,包括可视化数据的分布情况、特征自身的规律、特征与研究目标的规律。在建模与模型解释方面分为两部分,第一部分首先建立了LR、随机森林、XGboost、light GBM,四种自身可解释的模型,对四种模型的结果利用AC...
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
本文编号:3932394
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图1-1技术路线图
华中农业大学2022届硕士研究生学位(毕业)论文81.5技术路线图1-1技术路线图Fig.1-1TechnologyRoadmap
图2-1决策树生成图
华中农业大学2022届硕士研究生学位(毕业)论文102.1.2决策树决策树是经典的分类算法,许多算法是基于决策树建立的,它表示特征与值的一种映射关系。如图2.1决策树生成图。图2-1决策树生成图Fig2-1ThedecisiontreegenerationgraphinFig树中....
图2-2随机森林模型
华中农业大学2022届硕士研究生学位(毕业)论文12多数。为什么希望基学习器之间要有差别呢,我们考虑一种极端的情况,如果现在多个基学习器是同一个,那么无论单个基学习器效果多么好,得到的结果也是与一个基学习器相同的,失去了集成的意义,因此我们要保证基学习器的多样性。集成学习可分为两....
图2-3按叶子生长的决策树
华中农业大学2022届硕士研究生学位(毕业)论文16图2-3按叶子生长的决策树Fig.2-3Decisiontreebyleaf(4)单边梯度采样算法lightGBM引入单边梯度采样算法,计算所有样本的梯度,利用梯度大的样本进行训练,从而使得在数据量减少的同时也尽可能地保证算法精....
本文编号:3932394
本文链接:https://www.wllwen.com/jingjifazhanlunwen/3932394.html