当前位置:主页 > 管理论文 > 货币论文 >

基于混合集成算法的信用风险评估

发布时间:2021-12-16 09:07
  信用贷款作为当前被大众接受最广的一种贷款模式,其发展规模不仅决定了金融机构的资金发展水平,同时也为客户生产生活提供了巨大的便利。信用贷款作为常用贷款模式,客户征信好坏显然已经成为金融机构判断是否为其发放贷款的核心标准。如何通过算法构建高效、准确的评估模型来判断客户违约的可能性是亟待解决和优化的问题。本文对于个人信用评估模型的构建主要从信用数据不平衡和集成模型构建两方面作改进和优化。并通过公开的UCI信用数据集进行算法和模型的性能验证,为金融机构风险防控水平的发展献上绵薄之力。首先对于数据处理方面,金融机构获取的客户信息数据是多样的,也是不平衡的。针对数据不平衡的问题,本文在传统不平衡数据处理方法SMOTE算法的基础上,提出了改进的阈值合成少类过采样(Ts-SMOTE)算法,通过距离阈值选择合适的少类近邻样本或多类近邻样本进行新样本的合成。实验中,将该方法用于单个Xgboost预测模型的构建上,实验结果表明,本文所提算法相较传统SMOTE算法获得了更高的G-mean值、F-value值,验证了本文所提算法对不平衡数据处理的有效性。其次对于模型构建方面,本文选择了以Xgboost作为基模型... 

【文章来源】:兰州交通大学甘肃省

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

基于混合集成算法的信用风险评估


ROC曲线图

马氏距离,异常点,欧氏距离,异常值


兰州交通大学工程硕士学位论文-12-量纲后的样本分布图,很明显,通过马氏距离计算的样本距离相较于欧式距离,更符合现实数据分布。图2.1马氏距离和欧氏距离异常点检测图(2)基于箱型图的异常值检验通过绘制一组数据的箱型图,可以直观地观察数据的多组特征分布。以图2.2为例,每一列数据值的四分位距决定了箱子大小,即QQIQR13,其中Q3为属性值75%分位数,Q1为25%分位数。在图2.2中,箱子的蓝色上边为Q3,蓝色下边为Q1,绿色中间线为中位数Q2,及50%分位数。若属性值*5.13IQRQ(上限值)或属性值*5.11IQRQ(下限值),则该属性值即为异常值,图2.2中圆圈即代表异常值。若属性最大值为Max,最小值为Min,则异常值判定如下,若*5.13IQRQMax,Max=触须点;若*5.13IQRQMax,Max=异常值;若*5.11IQRQMin,Min=触须值;若*5.11IQRQMin,Min=异常值;

异常点


基于混合集成算法的信用风险评估-13-图2.2基于箱型图的异常点检测图2.1.3数据标准化及归一化通常真实的信用数据集中的每个特征变量之间存在着很大的差异,比如数量级等。较大的数量级会使得模型更偏向于对其的学习和分类。所以我们需要对数据进行无量纲化处理,以消除其差异性,从而提高分类器的学习性能和预测精度[49]。标准化是通过求z-score值,将特征值的量纲进行统一。公式如式2.2所示:SXxx"(X为样本均值,S为样本方差)(2.2)归一化是将每个特征变量都转化为单位向量,即将特征的取值范围缩放到[0,1]范围内。公式如式2.3所示:MinMaxMinxx"(Min为样本最小值,Max为样本最大值)(2.3)2.2特征属性分类面对待处理的一批数据,我们可以对数据的属性特征进行分类。比如可以将数据按照属性特征分为排序特征、离散特征、计数特征、类别特征、交叉特征。接下来对这些特征的处理方式作详细说明。排序特征是通过对数值型属性特征按从小到大的顺序进行排序,从而得到排序特征。排序特征对数据异常值鲁棒性较好,可以有效降低过拟合。离散特征的划分有两种办法:一是通过划分值域来取得离散值,二是通过等量划分样本数量获得离散值。我们可以对数值型数据运用等量划分的方式得到离散值,即将每

【参考文献】:
期刊论文
[1]信用评分模型比较综述——基于传统方法与数据挖掘的对比[J]. 何珊,刘振东,马小林.  征信. 2019(02)
[2]基于NKSMOTE算法的非平衡数据集分类方法[J]. 王莉,陈红梅.  计算机科学. 2018(09)
[3]基于XGBOOST的用户信用评分建模[J]. 韩修龙.  电脑知识与技术. 2018(05)
[4]基于GBDT的线上交易欺诈侦测研究[J]. 赵金涛,邱雪涛,何东杰.  微型电脑应用. 2017(10)
[5]云计算下分布式数据安全读取算法研究[J]. 涂俊英,熊曾刚.  微电子学与计算机. 2017(10)
[6]新兴技术企业信用风险的成因与特征[J]. 周一懋,张强.  价值工程. 2017(25)
[7]基于主成分分析的成分数据缺失值插补法[J]. 张晓琴,王敏.  应用概率统计. 2016(01)
[8]ROC曲线分析在医学影像学诊断中的价值[J]. 冯广龙,姜慧杰.  中华医学杂志. 2015 (03)
[9]基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J]. 霍玉丹,谷琼,蔡之华,袁磊.  计算机应用. 2015(01)
[10]个人信用评级模型的指标选择方法[J]. 史小康,马学俊.  统计与决策. 2014(23)

博士论文
[1]基于邻近重采样和分类器排序的信用卡欺诈检测中不平衡数据研究[D]. MAIRA ANIS.电子科技大学 2018
[2]基于大数据的个人信用风险评估模型研究[D]. 张万军.对外经济贸易大学 2016
[3]面向高维小样本数据的分类特征选择算法研究[D]. 张靖.合肥工业大学 2014
[4]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
[5]基于支持向量机的人脸特征选择及识别研究[D]. 李伟红.重庆大学 2006
[6]基于支持向量机的消费信贷中个人信用评估方法研究[D]. 沈翠华.中国农业大学 2005

硕士论文
[1]基于XGBoost的还款概率预测模型分析与优化[D]. 王嘉豪.西安电子科技大学 2019
[2]基于混合模型的非均衡数据分类研究[D]. 李智林.南京邮电大学 2018
[3]深度增强学习在不平衡分类上的研究[D]. 戚潇明.华南理工大学 2018
[4]高维小样本数据的互信息特征选择方法研究[D]. 张凯.山西大学 2017
[5]Logistic回归及其相关方法在个人信用评分中的应用[D]. 张婷婷.太原理工大学 2017
[6]银行信用评级中的不平衡分类问题研究[D]. 陈力.广东工业大学 2017
[7]基于支持向量机的互联网金融个人信用评估方法研究[D]. 连程.浙江财经大学 2017
[8]基于数据挖掘的个人信用风险评估单一模型与集成模型的研究[D]. 陈慧.广西大学 2016
[9]决策树算法在P2P网贷借款信用风险评估中的应用研究[D]. 刘艺.湖南大学 2016
[10]面向失衡数据集的集成学习分类方法及其应用研究[D]. 黄久玲.哈尔滨理工大学 2015



本文编号:3537872

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/huobilw/3537872.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7a8f8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com