当前位置:主页 > 管理论文 > 货币论文 >

基于改进的SMOTE下Boosting算法在个人信用评估中的应用研究

发布时间:2021-07-11 15:18
  随着我国信贷业务的逐年增加,金融机构和地方经济得以蓬勃发展,但也伴随着信用风险的不断增长。为了有效规避风险,减少客户误判导致的银行亏损,我们需要探讨更优的方法来对个人信用进行评估。本文选取Lending Club公司2018年的贷款数据作为原始数据,结合国内外文献和信用评估构建准则,建立指标体系并据此确定了50个变量。研究内容主要包括两方面:第一,针对指标体系中特征选取的问题,本文创新性的将主成分分析法和Relief F法相结合,用于个人信用评估的特征降维问题,既解决了变量的信息冗余,又考虑了每个特征对类标签的识别能力,有效提高模型的分类精度。运用PCA-Relief F法将变量维度降至20,在一定程度上降低了模型的复杂度。第二,针对信用评估数据的不平衡问题,本文创新性的对经典的SMOTE算法进行改进,提出新的过采样算法,本文称之为MS-SMOTE(Synthetic Minority Oversampling Technique in Multiple Situation)。该算法用核距离替代欧几里得距离,使线性插值更加合理,并根据少数类样本的分布情况,采用不同的插值规则,合成新的少... 

【文章来源】:上海师范大学上海市

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于改进的SMOTE下Boosting算法在个人信用评估中的应用研究


SMOTE算法合成样本示意图

基于改进的SMOTE下Boosting算法在个人信用评估中的应用研究


履约记录和违约记录的占比

分布情况,变量,分布情况,属性变量


上海师范大学硕士学位论文第5章实证分析31*xx(5-1)其中:μ为均值,σ为标准差。5.3特征的选择在对特征进行选择之前,我们需要对选取的50个变量的基本情况进行一些统计分析:(1)变量的分布情况:对50个解释变量中的进行描述性统计分析。在38个度量变量中,有25个变量是左偏的,2个变量是右偏的,由于主成分分析不要求变量必须服从正态分布,因此不需要对它们的分布进行变换,下图5-4展示了部分度量变量的分布情况。在12个属性变量中,类别的频率分布也呈现出不均衡的特点,下图5-5展示了部分属性变量的频率分布情况。图5-4度量变量的分布情况展示

【参考文献】:
期刊论文
[1]基于机器学习方法的智能机器人探究[J]. 李昊朋.  通讯世界. 2019(04)
[2]基于随机森林的个人信用评估模型研究及实证分析[J]. 萧超武,蔡文学,黄晓宇,陈康.  管理现代化. 2014(06)
[3]个人信用评估组合模型的构建——基于决策树—神经网络的研究[J]. 杨胜刚,朱琦,成程.  金融论坛. 2013(02)
[4]基于SVM的银行个人贷款信用评估模型研究[J]. 汤浩龙,和炳全,周薇.  西部经济管理论坛. 2012(01)
[5]小额贷款信用风险评估研究述评[J]. 申韬.  金融理论与实践. 2012(01)
[6]C5.0分类算法及在银行个人信用评级中的应用[J]. 庞素琳,巩吉璋.  系统工程理论与实践. 2009(12)
[7]行为评分模型在个人信用评估应用中的实证研究[J]. 莫茜,高峰,董纪昌.  国际金融研究. 2008(07)
[8]美国FICO评分系统述评[J]. 姜琳.  商业研究. 2006(20)
[9]个人信用卡信用风险评价体系与模型研究[J]. 迟国泰,许文,孙秀峰.  同济大学学报(自然科学版). 2006(04)
[10]商业银行个人信用风险等级评估与预测[J]. 胡望斌,朱东华,汪雪锋.  商业时代. 2005(09)

博士论文
[1]基于社会资本的中小企业信用评价[D]. 殷琦.哈尔滨工业大学 2011



本文编号:3278345

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/huobilw/3278345.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0175f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com