基于不平衡三分类LGBM模型的贷后风险预警研究
发布时间:2023-03-20 00:27
近年来大数据与互联网金融得到了迅速发展,P2P行业作为互联网金融的重要组成部分,拥有着比传统银行信贷业务更加便捷的优势,应用数据挖掘技术防范金融风险是当前的一个重要课题。本文以贷后风险预警为研究背景,将借款人按还款情况细分为履约者、关注者、违约者三类。在数据处理中调用feature selector特征选择库对数据清洗,并使用Xgboost(XGB)和RandomForest(RF)算法进行特征选择,得到还款进度、贷款成本、偿债能力、外部授信这4个方面是影响还款情况的重要因素。贷款利率是信贷中的关键要素,文中用含有哑变量的回归模型探究得到借款人的信用等级是影响贷款利率高低最显著的因素。在预警模型中用交叉验证、学习曲线分析、统计检验三种方法比较了6种单模型和5种基于决策树的集成模型,发现集成模型相比单模型的分类性能具有明显优势且LightGBM(LGBM)模型的性能最优。为了解决不平衡数据对模型结果的影响,文中从数据扰动、参数扰动、特征扰动三个方面进行优化LGBM模型,最终得到该模型在F1macro得分和违约者的Recall这两个评价准则下相比其它模型都有改善,特别...
【文章页数】:40 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 研究背景及研究意义
1.2 研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 研究内容和章节安排
第二章 基本算法与评估指标
2.1 feature selector工具
2.2 机器学习算法介绍
2.2.1 CART算法
2.2.2 RF算法
2.2.3 GBDT算法
2.2.4 XGB算法
2.2.5 LGBM算法
2.3 模型评估
2.3.1 性能度量
2.3.2 比较检验
第三章 数据处理
3.1 状态变量处理
3.2 特征变量处理
3.2.1 缺失值和唯一值处理
3.2.2 数据过滤与衍生
3.2.3 数据编码与填充
3.2.4 相关性分析降维与标准化处理
3.3 特征选择
第四章 信贷基本要素分析
4.1 贷款基本要素
4.1.1 贷款金额
4.1.2 贷款利率
4.1.3 贷款期限
4.1.4 信用等级
4.1.5 贷款用途
4.2 探究影响利率的因素
第五章 贷后预警建模分析
5.1 单模型建模分析
5.2 基于决策树的集成算法建模分析
5.2.1 交叉验证分析
5.2.2 学习曲线分析
5.2.3 分类器统计检验
5.2.4 预测
5.3 优化后的LGBM模型建模分析
5.3.1 产生训练集子集
5.3.2 超参数调整
5.3.3 实验结果
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
本文编号:3766305
【文章页数】:40 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 研究背景及研究意义
1.2 研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 研究内容和章节安排
第二章 基本算法与评估指标
2.1 feature selector工具
2.2 机器学习算法介绍
2.2.1 CART算法
2.2.2 RF算法
2.2.3 GBDT算法
2.2.4 XGB算法
2.2.5 LGBM算法
2.3 模型评估
2.3.1 性能度量
2.3.2 比较检验
第三章 数据处理
3.1 状态变量处理
3.2 特征变量处理
3.2.1 缺失值和唯一值处理
3.2.2 数据过滤与衍生
3.2.3 数据编码与填充
3.2.4 相关性分析降维与标准化处理
3.3 特征选择
第四章 信贷基本要素分析
4.1 贷款基本要素
4.1.1 贷款金额
4.1.2 贷款利率
4.1.3 贷款期限
4.1.4 信用等级
4.1.5 贷款用途
4.2 探究影响利率的因素
第五章 贷后预警建模分析
5.1 单模型建模分析
5.2 基于决策树的集成算法建模分析
5.2.1 交叉验证分析
5.2.2 学习曲线分析
5.2.3 分类器统计检验
5.2.4 预测
5.3 优化后的LGBM模型建模分析
5.3.1 产生训练集子集
5.3.2 超参数调整
5.3.3 实验结果
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
本文编号:3766305
本文链接:https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/3766305.html