基于XGBoost的互联网小贷贷后风险评级
发布时间:2021-03-11 07:28
随着国民消费观念的转变和互联网金融技术的进步,互联网小额贷款行业得到了快速发展。提供网络小贷的公司数量、客户规模和贷款额度都出现了显著增长。然而,在行业不断向前发展的同时,逾期未偿还金额也在大幅度提高。为了保证行业健康、稳定和持续的发展,提高信贷的风险管理水平成为互联网小额信用贷款的核心内容。基于以上背景,本文以LendingClub的借贷数据为研究对象,基于XGBoost算法从实践的角度建立贷后风险评级模型,对影响客户违约概率的风险因素进行研究和分析。首先,基于业务知识,本文对国内互联网小额贷款的发展历程和现状进行了分析,包括小额贷款方式的变更和国内对于互联网小额贷款的监管政策,并通过分析指出构建合理、高效的信用风险评估模型的重要性。其次,本文基于机器学习中的XGBoost算法,构建一种贷后风险评级模型。使用泰勒函数二阶展开来近似损失函数,以提高模型训练的计算速度;采用L2正则化来减小模型复杂度;使用贪心算法来衡量分裂条件和树的后剪枝;采用稀疏感知算法自动学习缺失数据的分裂方向,有效地保持了数据的分布特征;使用分布式加权直方图算法寻找分裂节点。然后,针对贷后风险模型的开发流程,本文以...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 研究意义
1.3 本文主要研究内容
2 贷后风险评级模型开发流程
2.1 引言
2.2 业务定义
2.3 数据收集与数据清洗
2.4 变量筛选
2.5 模型检验
2.6 本章小结
3 贷后风险评级模型
3.1 引言
3.2 XGBoost模型
3.2.1 模型的建立
3.2.2 模型的训练
3.3 模型的评估
3.3.1 准确率、精确率和F1
3.3.2 kappa系数
3.3.3 ROC曲线
3.4 本章小结
4 实验与结果分析
4.1 引言
4.2 建立样本数据及预处理
4.2.1 业务定义与数据收集
4.2.2 变量解释
4.2.3 缺失值、异常值处理
4.2.4 不平衡样本的处理
4.3 特征变量筛选
4.3.1 特征相关性研究
4.3.2 特征重要性研究
4.4 实验结果分析
4.4.1 参数设置
4.4.2 训练结果与分析
4.5 本章小结
结论
参考文献
附录A
致谢
【参考文献】:
期刊论文
[1]银监会印发《网络借贷信息中介机构业务活动信息披露指引的通知》[J]. 本刊编辑部. 金融科技时代. 2017(09)
[2]金融科技的未来与责任[J]. 王广宇,何俊妮. 南方金融. 2017(03)
[3]小额贷款公司运营现状及问题[J]. 徐瑜青,杨露静,周吉帅. 农村经济. 2010(01)
[4]基于神经网络和决策树相结合的信用风险评估模型研究[J]. 赵静娴,杜子平. 北京理工大学学报(社会科学版). 2009(01)
[5]智能性交易欺诈风险评分模型的开发与应用[J]. 陈建. 中国信用卡. 2006(06)
[6]Logit模型在商业银行信用风险评估中的应用研究[J]. 李萌. 管理科学. 2005(02)
[7]模式识别中基于Boosting的特征筛选[J]. 张国英,沙芸,刘玉树. 北京理工大学学报. 2004(07)
[8]基于分类回归树(CART)方法的统计解析模型的应用与研究[J]. 张立彬,张其前,胥芳,杜奖胜. 浙江工业大学学报. 2002(04)
[9]典型判别分析在企业信用风险评估中的应用[J]. 施锡铨,邹新月. 财经研究. 2001(10)
[10]信用风险评估方法发展趋势[J]. 张玲,张佳林. 预测. 2000(04)
硕士论文
[1]商业银行信用卡违约概率评估的实证研究[D]. 盛洁.厦门大学 2014
[2]基于数据挖掘技术的信用卡申请评分模型研究[D]. 陈浩.湖南大学 2007
本文编号:3076102
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 研究意义
1.3 本文主要研究内容
2 贷后风险评级模型开发流程
2.1 引言
2.2 业务定义
2.3 数据收集与数据清洗
2.4 变量筛选
2.5 模型检验
2.6 本章小结
3 贷后风险评级模型
3.1 引言
3.2 XGBoost模型
3.2.1 模型的建立
3.2.2 模型的训练
3.3 模型的评估
3.3.1 准确率、精确率和F1
3.3.2 kappa系数
3.3.3 ROC曲线
3.4 本章小结
4 实验与结果分析
4.1 引言
4.2 建立样本数据及预处理
4.2.1 业务定义与数据收集
4.2.2 变量解释
4.2.3 缺失值、异常值处理
4.2.4 不平衡样本的处理
4.3 特征变量筛选
4.3.1 特征相关性研究
4.3.2 特征重要性研究
4.4 实验结果分析
4.4.1 参数设置
4.4.2 训练结果与分析
4.5 本章小结
结论
参考文献
附录A
致谢
【参考文献】:
期刊论文
[1]银监会印发《网络借贷信息中介机构业务活动信息披露指引的通知》[J]. 本刊编辑部. 金融科技时代. 2017(09)
[2]金融科技的未来与责任[J]. 王广宇,何俊妮. 南方金融. 2017(03)
[3]小额贷款公司运营现状及问题[J]. 徐瑜青,杨露静,周吉帅. 农村经济. 2010(01)
[4]基于神经网络和决策树相结合的信用风险评估模型研究[J]. 赵静娴,杜子平. 北京理工大学学报(社会科学版). 2009(01)
[5]智能性交易欺诈风险评分模型的开发与应用[J]. 陈建. 中国信用卡. 2006(06)
[6]Logit模型在商业银行信用风险评估中的应用研究[J]. 李萌. 管理科学. 2005(02)
[7]模式识别中基于Boosting的特征筛选[J]. 张国英,沙芸,刘玉树. 北京理工大学学报. 2004(07)
[8]基于分类回归树(CART)方法的统计解析模型的应用与研究[J]. 张立彬,张其前,胥芳,杜奖胜. 浙江工业大学学报. 2002(04)
[9]典型判别分析在企业信用风险评估中的应用[J]. 施锡铨,邹新月. 财经研究. 2001(10)
[10]信用风险评估方法发展趋势[J]. 张玲,张佳林. 预测. 2000(04)
硕士论文
[1]商业银行信用卡违约概率评估的实证研究[D]. 盛洁.厦门大学 2014
[2]基于数据挖掘技术的信用卡申请评分模型研究[D]. 陈浩.湖南大学 2007
本文编号:3076102
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/3076102.html