基于数据挖掘算法的信贷逾期行为预测
发布时间:2021-12-22 05:37
随着我国经济的发展和人民消费观念的转变,人民对于信贷业务的需求日益增加,银行的信贷业务逐渐发展起来,并为其带来了新的利润增长点。如果不能对客户的资质和还款能力进行有效的审查和评估,将导致银行承担较大的金融风险。因此,亟需高效准确的方法,有效识别未来可能发生逾期行为的客户,规避金融风险,并为银行信用体系建设以及对于客户的评估提供一些参考。本文主要以某贷款机构的历史贷款数据为例,建立信贷逾期行为的预测模型。首先将所得数据清洗和处理,然后通过WOE分箱和IV值选取包含信息量较大的特征,进行相关系数的计算,确定强相关的变量并去除,以免影响实验结果。由于信用行为预测的数据往往不平衡,需要进行欠采样或过采样来平衡数据。而贷款数据具有极度不平衡的特点,这将导致单一的分类器完全失效,集成模型得到的分类结果也不是特别理想。针对这类问题,本文采用随机欠采样与SMOTE过采样相结合的方法去平衡训练集,以避免仅仅使用欠采样造成数据过度损失或仅使用过采样引入太多噪声。在模型选择方面,采用Logistic回归、支持向量机以及基于决策树的集成算法随机森林和Light GBM,在平衡过的训练集上分别建模。最后在原测试...
【文章来源】:山西大学山西省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
单位阶跃函数和对数几率函数图像
基于数据挖掘算法的信贷逾期行为预测8为计算方便,通过对||||的变换,可以得到,对于正确分类的样本,应满足以下关系:1111TiiTiixbyxby,,(2.15)在支持向量机中,间隔应能反映样本点到超平面的距离以及分类的准确性,因此定义了函数间隔:"()Tyxb(2.16)根据函数间隔,"0则分类正确,否则分类错误。但函数间隔会受到||||的影响,所以又定义了几何间隔:"()||||||||Tyxb(2.17)支持向量机的目标函数是最大化几何间隔,而支持向量机主要关注距离超平面较近的点。其中,通过与超平面距离最近的点且与超平面平行的平面满足()1Tyxb,所以目标函数为最大化1||||,等价于最小化21||||2。图2.2支持向量与分离超平面于是,求解支持向量机转化为求解以下的凸二次优化问题:2argmin1||||,b2(2.18)..()11,2,.Tiistyxb,in(2.19)
第二章数据挖掘方法9该问题可以利用拉格朗日乘子法转化为对偶问题,根据最优化理论求解其对偶问题即可训练完成支持向量机。针对线性可分数据训练出来的支持向量机称为线性可分支持向量机。图2.3近似线性可分数据集在实际问题中,数据往往不是严格的线性可分,即无法找到一个超平面将数据严格的分开。若数据集近似线性可分,即存在部分样本点位于超平面和边界之间,不满足间隔1的条件,如图2.3所示。针对这一问题,引入松弛变量0,1,2,,iin,使得i1i。同时,目标函数也应增加正则化项。此时优化问题变为:211min||||2niiC(2.20)..()1,1,2,.Tiistyxbin(2.21)01,2,.i,in(2.22)若数据集完全不可分,此时无法用分离超平面将数据很好地分开,于是考虑用非线性变换,转化为线性问题求解。支持向量机通过采用不同的核函数,将数据映射到更高维空间,从而转化为线性可分问题求解。常用的核函数有:表2.1支持向量机常用核函数名称表达式参数线性核函数(,)Tijijxxxx多项式核函数(,)()Tdijijxxxxcd为多项式核函数的阶数
本文编号:3545854
【文章来源】:山西大学山西省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
单位阶跃函数和对数几率函数图像
基于数据挖掘算法的信贷逾期行为预测8为计算方便,通过对||||的变换,可以得到,对于正确分类的样本,应满足以下关系:1111TiiTiixbyxby,,(2.15)在支持向量机中,间隔应能反映样本点到超平面的距离以及分类的准确性,因此定义了函数间隔:"()Tyxb(2.16)根据函数间隔,"0则分类正确,否则分类错误。但函数间隔会受到||||的影响,所以又定义了几何间隔:"()||||||||Tyxb(2.17)支持向量机的目标函数是最大化几何间隔,而支持向量机主要关注距离超平面较近的点。其中,通过与超平面距离最近的点且与超平面平行的平面满足()1Tyxb,所以目标函数为最大化1||||,等价于最小化21||||2。图2.2支持向量与分离超平面于是,求解支持向量机转化为求解以下的凸二次优化问题:2argmin1||||,b2(2.18)..()11,2,.Tiistyxb,in(2.19)
第二章数据挖掘方法9该问题可以利用拉格朗日乘子法转化为对偶问题,根据最优化理论求解其对偶问题即可训练完成支持向量机。针对线性可分数据训练出来的支持向量机称为线性可分支持向量机。图2.3近似线性可分数据集在实际问题中,数据往往不是严格的线性可分,即无法找到一个超平面将数据严格的分开。若数据集近似线性可分,即存在部分样本点位于超平面和边界之间,不满足间隔1的条件,如图2.3所示。针对这一问题,引入松弛变量0,1,2,,iin,使得i1i。同时,目标函数也应增加正则化项。此时优化问题变为:211min||||2niiC(2.20)..()1,1,2,.Tiistyxbin(2.21)01,2,.i,in(2.22)若数据集完全不可分,此时无法用分离超平面将数据很好地分开,于是考虑用非线性变换,转化为线性问题求解。支持向量机通过采用不同的核函数,将数据映射到更高维空间,从而转化为线性可分问题求解。常用的核函数有:表2.1支持向量机常用核函数名称表达式参数线性核函数(,)Tijijxxxx多项式核函数(,)()Tdijijxxxxcd为多项式核函数的阶数
本文编号:3545854
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3545854.html