基于改进的SMOTE下Boosting算法在个人信用评估中的应用研究

发布时间：2021-07-11 15:18

　　随着我国信贷业务的逐年增加,金融机构和地方经济得以蓬勃发展,但也伴随着信用风险的不断增长。为了有效规避风险,减少客户误判导致的银行亏损,我们需要探讨更优的方法来对个人信用进行评估。本文选取Lending Club公司2018年的贷款数据作为原始数据,结合国内外文献和信用评估构建准则,建立指标体系并据此确定了50个变量。研究内容主要包括两方面:第一,针对指标体系中特征选取的问题,本文创新性的将主成分分析法和Relief F法相结合,用于个人信用评估的特征降维问题,既解决了变量的信息冗余,又考虑了每个特征对类标签的识别能力,有效提高模型的分类精度。运用PCA-Relief F法将变量维度降至20,在一定程度上降低了模型的复杂度。第二,针对信用评估数据的不平衡问题,本文创新性的对经典的SMOTE算法进行改进,提出新的过采样算法,本文称之为MS-SMOTE（Synthetic Minority Oversampling Technique in Multiple Situation）。该算法用核距离替代欧几里得距离,使线性插值更加合理,并根据少数类样本的分布情况,采用不同的插值规则,合成新的少...

【文章来源】：上海师范大学上海市

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

SMOTE算法合成样本示意图

基于改进的SMOTE下Boosting算法在个人信用评估中的应用研究

履约记录和违约记录的占比

分布情况,变量,分布情况,属性变量

上海师范大学硕士学位论文第5章实证分析31*xx（5-1）其中：μ为均值，σ为标准差。5.3特征的选择在对特征进行选择之前，我们需要对选取的50个变量的基本情况进行一些统计分析：（1）变量的分布情况：对50个解释变量中的进行描述性统计分析。在38个度量变量中，有25个变量是左偏的，2个变量是右偏的，由于主成分分析不要求变量必须服从正态分布，因此不需要对它们的分布进行变换，下图5-4展示了部分度量变量的分布情况。在12个属性变量中，类别的频率分布也呈现出不均衡的特点，下图5-5展示了部分属性变量的频率分布情况。图5-4度量变量的分布情况展示

【参考文献】：
期刊论文
[1]基于机器学习方法的智能机器人探究[J]. 李昊朋.  通讯世界. 2019(04)
[2]基于随机森林的个人信用评估模型研究及实证分析[J]. 萧超武,蔡文学,黄晓宇,陈康.  管理现代化. 2014(06)
[3]个人信用评估组合模型的构建——基于决策树—神经网络的研究[J]. 杨胜刚,朱琦,成程.  金融论坛. 2013(02)
[4]基于SVM的银行个人贷款信用评估模型研究[J]. 汤浩龙,和炳全,周薇.  西部经济管理论坛. 2012(01)
[5]小额贷款信用风险评估研究述评[J]. 申韬.  金融理论与实践. 2012(01)
[6]C5.0分类算法及在银行个人信用评级中的应用[J]. 庞素琳,巩吉璋.  系统工程理论与实践. 2009(12)
[7]行为评分模型在个人信用评估应用中的实证研究[J]. 莫茜,高峰,董纪昌.  国际金融研究. 2008(07)
[8]美国FICO评分系统述评[J]. 姜琳.  商业研究. 2006(20)
[9]个人信用卡信用风险评价体系与模型研究[J]. 迟国泰,许文,孙秀峰.  同济大学学报(自然科学版). 2006(04)
[10]商业银行个人信用风险等级评估与预测[J]. 胡望斌,朱东华,汪雪锋.  商业时代. 2005(09)

博士论文
[1]基于社会资本的中小企业信用评价[D]. 殷琦.哈尔滨工业大学 2011

本文编号：3278345

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/huobilw/3278345.html

上一篇：我国货币政策对制造业的非对称性影响
下一篇：中国国有股份制商业银行价值评估体系研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|