基于非平衡数据集的贷款违规预测研究
发布时间:2021-05-11 09:43
互联网金融个人信用贷款方面,评估用户的信用良好度,并且分配合适的产品给用户,进行反欺诈,以及减少呆账的产生等问题都可以通过数据跟踪来进行处理。在商业分析中,收益和风险是成正比的,综合考虑盈利最大化来进行风险定价。通过规则和建模可以量化一个客户的信用好坏,然而在实际应用中,不仅面临着数据量大且维度高的现状,同样也面临着数据不平衡的现状,因为逾期客户数量相较非逾期客户数量总是少数的,那么在建模的过程中需要考虑到这些问题对模型可信度的影响。很多传统算法会偏向于多数类,例如最近邻算法KNN,在最后决策的时候是以少数服从多数的策略,存在误判,致使样本量本来就少的类别被正确识别出来的概率变得更低。这类非平衡数据预测使用模型精确度Accuracy来衡量模型好坏也就不适用了。其次,从互联网上获得的用户消费信息、运营商信息、多平台上的借贷信息等数据的维度众多,高维度的数据预测中做好特征选择也很重要。本文针对互联网金融数据的非平衡和维度高这两个方面进行处理,重点研究了从数据层面和算法层面对非平衡数据集的处理方式,使用Python基于Kaggle竞赛平台GiveMeSomeCredit竞赛的数据集(非平衡的...
【文章来源】:长江大学湖北省
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 引言
1.2 研究目的与意义
1.3 研究技术路线
第2章 课题研究关键技术
2.1 互联网金融及信用风险预测
2.2 非平衡数据集
2.3 机器学习算法的应用
2.4 信用评级模型的指标选择
2.5 本章小结
第3章 非平衡数据集处理
3.1 非平衡数据集分类的难点
3.2 非平衡数据集分类研究
3.3 本章小结
第4章 数据预处理和模型构建及优化
4.1 逾期预测模型框架
4.2 数据预处理
4.3 特征选择
4.4 特征衍生
4.5 实验过程
4.6 实验结果分析
4.7 本章小结
第5章 总结与展望
致谢
参考文献
个人简介
【参考文献】:
期刊论文
[1]面向高维数据的个人信贷风险评估方法[J]. 廖文雄,曾碧,梁天恺,徐雅芸,赵俊峰. 计算机工程与应用. 2020(04)
[2]基于LightGBM算法的P2P项目信用评级模型的设计及应用[J]. 马晓君,沙靖岚,牛雪琪. 数量经济技术经济研究. 2018(05)
[3]互联网金融的竞争优势分析[J]. 贾吉明. 现代经济信息. 2018(04)
[4]基于差异度的不均衡电信客户数据分类方法[J]. 王林,郭娜娜. 计算机应用. 2017(04)
[5]基于GBDT与Logistic回归融合的个人信贷风险评估模型及实证分析[J]. 蔡文学,罗永豪,张冠湘,钟慧玲. 管理现代化. 2017(02)
[6]大数据时代的互联网金融创新及传统银行转型[J]. 薛炜星. 现代营销(下旬刊). 2016(07)
[7]改进随机森林算法在电信业客户流失预测中的应用[J]. 丁君美,刘贵全,李慧. 模式识别与人工智能. 2015(11)
[8]基于FICO信用评分模型的电商小贷信用评价分析研究[J]. 陈彩霞,石春,程明雄. 现代商业. 2015(26)
[9]FICO:一位踌躇满志的“厨子”[J]. 黄鑫宇. 首席财务官. 2015(16)
[10]互联网金融的法律规制——基于信息工具的视角[J]. 杨东. 中国社会科学. 2015(04)
博士论文
[1]我国小微企业贷款信用风险评估模型研究[D]. 张润驰.南京大学 2018
[2]不均衡数据分类方法的研究[D]. 曹鹏.东北大学 2014
[3]面向非均衡数据集的机器学习及在地学数据处理中的应用[D]. 谷琼.中国地质大学 2009
硕士论文
[1]Spark平台下的基于随机森林算法的用户贷款风险预测研究[D]. 周杰.东北师范大学 2018
[2]面向高维不平衡数据的特征选择算法研究[D]. 王国权.哈尔滨工业大学 2017
[3]基于机器学习算法的信用风险预测模型研究[D]. 甘鹭.北京交通大学 2017
[4]基于混合采样的非平衡数据集分类研究[D]. 欧阳源遊.重庆大学 2014
本文编号:3181189
【文章来源】:长江大学湖北省
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 引言
1.2 研究目的与意义
1.3 研究技术路线
第2章 课题研究关键技术
2.1 互联网金融及信用风险预测
2.2 非平衡数据集
2.3 机器学习算法的应用
2.4 信用评级模型的指标选择
2.5 本章小结
第3章 非平衡数据集处理
3.1 非平衡数据集分类的难点
3.2 非平衡数据集分类研究
3.3 本章小结
第4章 数据预处理和模型构建及优化
4.1 逾期预测模型框架
4.2 数据预处理
4.3 特征选择
4.4 特征衍生
4.5 实验过程
4.6 实验结果分析
4.7 本章小结
第5章 总结与展望
致谢
参考文献
个人简介
【参考文献】:
期刊论文
[1]面向高维数据的个人信贷风险评估方法[J]. 廖文雄,曾碧,梁天恺,徐雅芸,赵俊峰. 计算机工程与应用. 2020(04)
[2]基于LightGBM算法的P2P项目信用评级模型的设计及应用[J]. 马晓君,沙靖岚,牛雪琪. 数量经济技术经济研究. 2018(05)
[3]互联网金融的竞争优势分析[J]. 贾吉明. 现代经济信息. 2018(04)
[4]基于差异度的不均衡电信客户数据分类方法[J]. 王林,郭娜娜. 计算机应用. 2017(04)
[5]基于GBDT与Logistic回归融合的个人信贷风险评估模型及实证分析[J]. 蔡文学,罗永豪,张冠湘,钟慧玲. 管理现代化. 2017(02)
[6]大数据时代的互联网金融创新及传统银行转型[J]. 薛炜星. 现代营销(下旬刊). 2016(07)
[7]改进随机森林算法在电信业客户流失预测中的应用[J]. 丁君美,刘贵全,李慧. 模式识别与人工智能. 2015(11)
[8]基于FICO信用评分模型的电商小贷信用评价分析研究[J]. 陈彩霞,石春,程明雄. 现代商业. 2015(26)
[9]FICO:一位踌躇满志的“厨子”[J]. 黄鑫宇. 首席财务官. 2015(16)
[10]互联网金融的法律规制——基于信息工具的视角[J]. 杨东. 中国社会科学. 2015(04)
博士论文
[1]我国小微企业贷款信用风险评估模型研究[D]. 张润驰.南京大学 2018
[2]不均衡数据分类方法的研究[D]. 曹鹏.东北大学 2014
[3]面向非均衡数据集的机器学习及在地学数据处理中的应用[D]. 谷琼.中国地质大学 2009
硕士论文
[1]Spark平台下的基于随机森林算法的用户贷款风险预测研究[D]. 周杰.东北师范大学 2018
[2]面向高维不平衡数据的特征选择算法研究[D]. 王国权.哈尔滨工业大学 2017
[3]基于机器学习算法的信用风险预测模型研究[D]. 甘鹭.北京交通大学 2017
[4]基于混合采样的非平衡数据集分类研究[D]. 欧阳源遊.重庆大学 2014
本文编号:3181189
本文链接:https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/3181189.html
最近更新
教材专著