基于过采样方法的信用卡用户违约预测分析
发布时间:2021-08-13 16:37
随着信用卡业务在全球范围内的迅速普及,信用风险也急剧扩张。大量信用卡用户违约行为的出现,给银行等金融机构带来了较大的损失。因此,对信用卡用户的信用风险进行预警,提前识别违约用户就变得尤为重要。它能够为银行等金融机构提供决策依据,帮助其制定合理的放贷策略,降低自身风险,促进自身健康发展。一般来说,信用卡数据集中各类别的分布是极度不平衡的,未违约人数占比较大,违约人数占比较小,传统的人工信用风险评估模型已不适用。本文将利用数据挖掘技术和机器学习方法,从数据和模型两个方面对信用卡数据集进行探索分析。本文使用的数据集来自Kaggle官网,为国外某银行2015年到2017年两年间信用卡用户的历史消费及违约记录,该样本集中的类别分布极度不均衡。首先,本文将分别采用SMOTE算法和ADASYN算法对数据集进行过采样处理,使得处理后数据集中的类别相对平衡,这样做的优点是不会损失样本中多数类的信息。然后基于过采样后的数据,分别建立逻辑回归、随机森林、神经网络、XGBoost预测模型,通过对各个模型的评价指标的对比,找到最优的预测模型,使得其能够最大限度的识别违约用户。最后通过对各个模型结果的分析,找到影...
【文章来源】:东北师范大学吉林省 211工程院校 教育部直属院校
【文章页数】:40 页
【学位级别】:硕士
【部分图文】:
Logistic函数图像
(2)异常值处理:对数据集进行异常值检测,这些异常值可能是在实际调查过程中录入的,表这些异常值的存在会对模型结果造成一定的影响于这些异常值个数相对较少,故直接删除。(3)数据标准化:由表 3 可知,各个特征的纲也不相同,为了使得模型参数更具有可比性,行标准化处理从而消除量纲对模型结果的影响。3.2 描述性分析在正式建模前,需要对数据集有较深的了解对各个特征进行简单的分析。图 2 至图 13 为各个n2yrs”的箱线图和直方图。
箱线图
【参考文献】:
期刊论文
[1]基于网络用户评论的评分预测模型研究[J]. 张红丽,刘济郢,杨斯楠,徐健. 数据分析与知识发现. 2017(08)
[2]基于ADASYN与AdaBoostSVM相结合的不平衡分类算法[J]. 柳培忠,洪铭,黄德天,骆炎民,王守觉. 北京工业大学学报. 2017(03)
[3]面向不均衡数据集中少数类细分的过采样算法[J]. 古平,杨炀. 计算机工程. 2017(02)
[4]一种代价敏感随机森林算法[J]. 尹华,胡玉平. 武汉大学学报(工学版). 2014(05)
[5]不平衡数据分类的混合算法[J]. 韩敏,朱新荣. 控制理论与应用. 2011(10)
[6]基于数据挖掘方法对商业银行信用卡违约预测模型的研究[J]. 涂伟华,王索漫. 中国证券期货. 2011(09)
[7]信贷信息不对称下的信用卡信用风险研究[J]. 方匡南,吴见彬,朱建平,谢邦昌. 经济研究. 2010(S1)
[8]不平衡分类问题研究综述[J]. 叶志飞,文益民,吕宝粮. 智能系统学报. 2009(02)
[9]不平衡数据分类方法综述[J]. 杨明,尹军梅,吉根林. 南京师范大学学报(工程技术版). 2008(04)
[10]一个基于神经网络——Logistic回归的混合两阶段个人信用评分模型研究[J]. 石庆焱. 统计研究. 2005(05)
博士论文
[1]不均衡数据分类方法的研究[D]. 曹鹏.东北大学 2014
硕士论文
[1]信用卡违约影响因素研究[D]. 马志昂.山东财经大学 2017
[2]随机森林在P2P网贷借款信用风险评估中的应用[D]. 徐婷婷.山东大学 2017
[3]银行信用评级中的不平衡分类问题研究[D]. 陈力.广东工业大学 2017
[4]基于少数类样本重组的不平衡数据分类研究[D]. 李轩.湖南大学 2016
[5]基于优化的xgboost-LMT模型的供应商信用评价研究[D]. 樊鹏.广东工业大学 2016
[6]基于深度学习技术的信用卡交易欺诈侦测研究[D]. 丁卫星.上海交通大学 2015
[7]基于Logistic回归模型的P2P网贷平台借款人信用风险评估[D]. 王梦佳.北京外国语大学 2015
[8]不平衡数据集分类算法的研究[D]. 孟军.南京理工大学 2014
[9]基于集成学习的不平衡数据分类[D]. 宋海燕.西安电子科技大学 2014
[10]不平衡数据集分类问题研究[D]. 孙晓燕.山东师范大学 2012
本文编号:3340775
【文章来源】:东北师范大学吉林省 211工程院校 教育部直属院校
【文章页数】:40 页
【学位级别】:硕士
【部分图文】:
Logistic函数图像
(2)异常值处理:对数据集进行异常值检测,这些异常值可能是在实际调查过程中录入的,表这些异常值的存在会对模型结果造成一定的影响于这些异常值个数相对较少,故直接删除。(3)数据标准化:由表 3 可知,各个特征的纲也不相同,为了使得模型参数更具有可比性,行标准化处理从而消除量纲对模型结果的影响。3.2 描述性分析在正式建模前,需要对数据集有较深的了解对各个特征进行简单的分析。图 2 至图 13 为各个n2yrs”的箱线图和直方图。
箱线图
【参考文献】:
期刊论文
[1]基于网络用户评论的评分预测模型研究[J]. 张红丽,刘济郢,杨斯楠,徐健. 数据分析与知识发现. 2017(08)
[2]基于ADASYN与AdaBoostSVM相结合的不平衡分类算法[J]. 柳培忠,洪铭,黄德天,骆炎民,王守觉. 北京工业大学学报. 2017(03)
[3]面向不均衡数据集中少数类细分的过采样算法[J]. 古平,杨炀. 计算机工程. 2017(02)
[4]一种代价敏感随机森林算法[J]. 尹华,胡玉平. 武汉大学学报(工学版). 2014(05)
[5]不平衡数据分类的混合算法[J]. 韩敏,朱新荣. 控制理论与应用. 2011(10)
[6]基于数据挖掘方法对商业银行信用卡违约预测模型的研究[J]. 涂伟华,王索漫. 中国证券期货. 2011(09)
[7]信贷信息不对称下的信用卡信用风险研究[J]. 方匡南,吴见彬,朱建平,谢邦昌. 经济研究. 2010(S1)
[8]不平衡分类问题研究综述[J]. 叶志飞,文益民,吕宝粮. 智能系统学报. 2009(02)
[9]不平衡数据分类方法综述[J]. 杨明,尹军梅,吉根林. 南京师范大学学报(工程技术版). 2008(04)
[10]一个基于神经网络——Logistic回归的混合两阶段个人信用评分模型研究[J]. 石庆焱. 统计研究. 2005(05)
博士论文
[1]不均衡数据分类方法的研究[D]. 曹鹏.东北大学 2014
硕士论文
[1]信用卡违约影响因素研究[D]. 马志昂.山东财经大学 2017
[2]随机森林在P2P网贷借款信用风险评估中的应用[D]. 徐婷婷.山东大学 2017
[3]银行信用评级中的不平衡分类问题研究[D]. 陈力.广东工业大学 2017
[4]基于少数类样本重组的不平衡数据分类研究[D]. 李轩.湖南大学 2016
[5]基于优化的xgboost-LMT模型的供应商信用评价研究[D]. 樊鹏.广东工业大学 2016
[6]基于深度学习技术的信用卡交易欺诈侦测研究[D]. 丁卫星.上海交通大学 2015
[7]基于Logistic回归模型的P2P网贷平台借款人信用风险评估[D]. 王梦佳.北京外国语大学 2015
[8]不平衡数据集分类算法的研究[D]. 孟军.南京理工大学 2014
[9]基于集成学习的不平衡数据分类[D]. 宋海燕.西安电子科技大学 2014
[10]不平衡数据集分类问题研究[D]. 孙晓燕.山东师范大学 2012
本文编号:3340775
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3340775.html