基于XGBoost的互联网金融贷前逾期识别与模型表达
发布时间:2021-12-09 18:31
本文主要基于XGBoost(eXtreme Gradient Boosting极限梯度提升)模型,研究在互联网金融场景中对有贷前逾期风险的用户进行识别的问题,并通过强大的SHAP(SHAPley夏普利)解释框架对模型进行可视化表达。为了研究这一问题,本文选取了融360企业提供的公开数据集,在万级数据量以及匿名变量的场景中,实现对变量的清洗、模型的构造、比较、可视化,以此说明XGBoost模型的高精度以及在贷前逾期场景中可解释性。本文一方面综合考虑各种变量的性质,对匿名变量的缺失值进行有规律地插补,以实现对变量的清洗,避免“垃圾进、垃圾出”(Garbage In Garbage Out)的情况发生。另一方面,通过控制训练集和测试集的一致性,构造了逻辑回归(LR)、随机森林(RF)、梯度提升决策树(GBDT)三个模型,将这三个经典模型作为基线模型,通过精度对比说明XGBoost模型的优良性。为了让模型评估指标更贴合实际场景,本文选取了三大类七个指标综合地评判各个模型的识别效果。评价指标中包括模型的排序能力、对正样本的识别能力等,并构造了预期收益这一指标替代常规的准确率指标。进一步地,为了提...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
本文研究方案
图 2-1 随机森林决策树生成过程中选择 Gini 系数最小作为分裂点示意图在构建每棵决策树时训练集使用了不同的随机且有放回的抽样策略,所以对于每棵树而言,大约有 1/3 的训练样本没有参与该树的生成,这些样本被称为袋外估计样本(oob 样本)。该采样特点为模型进行 oob 估计提供了内部便利:模型只要计算每个样本在作为 oob 样本时的分类情况,并以简单多数投票作为该样本的分类结果,最后计算误分个数占样本总数的比率,即能得到随机森林的 oob 误分率。随机森林模型的 oob 误分率受到两个因素的影响,即模型中任意两棵树的相关性和每棵树的分类能力。任意两棵树的相关性越大则 oob 误分率越大,每棵树的分类能力越强,整个模型的 oob 误分率越低。一旦减小每次建模时的特征选择个数,就能降低树之间的相关性并提升模型的分类能力。以往研究发现,最佳参数建议为 = √变量个数,以本文研究的这一场景而言,在 6369 维变量之中以每次√ ≈ 个变量。之后的建模过程中本文也会参考这一参数进行随机森林模型的建立。
.1 GBDT 模型的应用模型一直以来都会极大依赖于业务人员对业务特征的理解和加工,而这一依赖于业务人员对该领域的先验知识沉淀、或者通过反复实验获得的有与特征的组合,也就是线性模型中的交叉项。但这样地探索性过程会耗费力与时间成本,造成了人们熟知的机器学习项目中有多少人工的投入,就能的现象。而由于这一过程是探索性的,并不能保证所有的投入会获得相,甚至耗费了大量的时间也无法获得相应的产出,甚至不一定能够提升模。于是学界希望将这一排列组合式的探索过程通过算法自动化地去完成有效地寻找到由模型提升价值地特征组合。2014 年 Facebook 公司利用决叉方式来实现寻找有效的特征组合,并进一步地将所有基模型的结果用的方式映射,最终以提升模型效果(见图 2-3)。在这一过程中,GBDT 构树,各个子树的结果通过逻辑回归的方式分配权重,而不是简单的线性相两层映射的方式,获得更丰富的映射关系。
【参考文献】:
期刊论文
[1]基于XGBoost算法的用户评分预测模型及应用[J]. 杨贵军,徐雪,赵富强. 数据分析与知识发现. 2019(01)
[2]基于聚类和XGboost算法的心脏病预测[J]. 刘宇,乔木. 计算机系统应用. 2019(01)
[3]基于XGBoost的糖尿病风险预测[J]. 苏天培. 科技视界. 2019(02)
[4]基于XGBoost方法的葡萄酒品质预测[J]. 孙逸菲,袁德成,王建龙,白杨. 沈阳化工大学学报. 2018(04)
[5]基于XGBoost特征选择的幕课翘课指数建立及应用[J]. 宋国琴,刘斌. 电子科技大学学报. 2018(06)
[6]基于XGBoost算法的用户行为预测与风险分析[J]. 邱耀,杨国为. 工业控制计算机. 2018(09)
[7]基于二次组合的特征工程与XGBoost模型的用户行为预测[J]. 杨立洪,白肇强. 科学技术与工程. 2018(14)
[8]软信息与小微企业信用风险识别[J]. 苏静. 征信. 2017(10)
[9]XGBoost算法在电子商务商品推荐中的应用[J]. 张昊,纪宏超,张红宇. 物联网技术. 2017(02)
[10]基于随机森林的P2P网络借贷成功率预测研究[J]. 周玉琴,张晓玫,罗璇. 东北农业大学学报(社会科学版). 2016(06)
博士论文
[1]我国P2P网络借贷个人信用风险管理研究[D]. 夏雨霏.中国矿业大学 2018
硕士论文
[1]基于Xgboost的互联网消费金融信用风控策略研究[D]. 杜盼.湘潭大学 2018
[2]基于大数据的P2P金融风险控制系统的设计与实现[D]. 高昊阳.北京交通大学 2018
[3]基于XGBoost模型的短期股票预测[D]. 伯毅.哈尔滨工业大学 2018
[4]个人信用风险评估的一种基于XGBoost的集成学习方法[D]. 李晓刚.中国科学技术大学 2018
[5]基于LightGBM与XGBoost算法的P2P网络借贷违约预测模型的比较研究[D]. 沙靖岚.东北财经大学 2017
[6]我国P2P网络借贷逾期率影响因素实证研究[D]. 余鲲.广西师范大学 2017
[7]基于P2P网贷平台的借款成功率以及还款逾期率影响因素研究[D]. 成冰倩.上海师范大学 2017
[8]基于用户行为数据的P2P网贷违约预测[D]. 王静月.上海师范大学 2017
[9]基于优化的xgboost模型的商业银行电话营销效果分析[D]. 徐彬心.兰州大学 2017
[10]基于Xgboost方法的实体零售业销售额预测研究[D]. 叶倩怡.南昌大学 2016
本文编号:3531107
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
本文研究方案
图 2-1 随机森林决策树生成过程中选择 Gini 系数最小作为分裂点示意图在构建每棵决策树时训练集使用了不同的随机且有放回的抽样策略,所以对于每棵树而言,大约有 1/3 的训练样本没有参与该树的生成,这些样本被称为袋外估计样本(oob 样本)。该采样特点为模型进行 oob 估计提供了内部便利:模型只要计算每个样本在作为 oob 样本时的分类情况,并以简单多数投票作为该样本的分类结果,最后计算误分个数占样本总数的比率,即能得到随机森林的 oob 误分率。随机森林模型的 oob 误分率受到两个因素的影响,即模型中任意两棵树的相关性和每棵树的分类能力。任意两棵树的相关性越大则 oob 误分率越大,每棵树的分类能力越强,整个模型的 oob 误分率越低。一旦减小每次建模时的特征选择个数,就能降低树之间的相关性并提升模型的分类能力。以往研究发现,最佳参数建议为 = √变量个数,以本文研究的这一场景而言,在 6369 维变量之中以每次√ ≈ 个变量。之后的建模过程中本文也会参考这一参数进行随机森林模型的建立。
.1 GBDT 模型的应用模型一直以来都会极大依赖于业务人员对业务特征的理解和加工,而这一依赖于业务人员对该领域的先验知识沉淀、或者通过反复实验获得的有与特征的组合,也就是线性模型中的交叉项。但这样地探索性过程会耗费力与时间成本,造成了人们熟知的机器学习项目中有多少人工的投入,就能的现象。而由于这一过程是探索性的,并不能保证所有的投入会获得相,甚至耗费了大量的时间也无法获得相应的产出,甚至不一定能够提升模。于是学界希望将这一排列组合式的探索过程通过算法自动化地去完成有效地寻找到由模型提升价值地特征组合。2014 年 Facebook 公司利用决叉方式来实现寻找有效的特征组合,并进一步地将所有基模型的结果用的方式映射,最终以提升模型效果(见图 2-3)。在这一过程中,GBDT 构树,各个子树的结果通过逻辑回归的方式分配权重,而不是简单的线性相两层映射的方式,获得更丰富的映射关系。
【参考文献】:
期刊论文
[1]基于XGBoost算法的用户评分预测模型及应用[J]. 杨贵军,徐雪,赵富强. 数据分析与知识发现. 2019(01)
[2]基于聚类和XGboost算法的心脏病预测[J]. 刘宇,乔木. 计算机系统应用. 2019(01)
[3]基于XGBoost的糖尿病风险预测[J]. 苏天培. 科技视界. 2019(02)
[4]基于XGBoost方法的葡萄酒品质预测[J]. 孙逸菲,袁德成,王建龙,白杨. 沈阳化工大学学报. 2018(04)
[5]基于XGBoost特征选择的幕课翘课指数建立及应用[J]. 宋国琴,刘斌. 电子科技大学学报. 2018(06)
[6]基于XGBoost算法的用户行为预测与风险分析[J]. 邱耀,杨国为. 工业控制计算机. 2018(09)
[7]基于二次组合的特征工程与XGBoost模型的用户行为预测[J]. 杨立洪,白肇强. 科学技术与工程. 2018(14)
[8]软信息与小微企业信用风险识别[J]. 苏静. 征信. 2017(10)
[9]XGBoost算法在电子商务商品推荐中的应用[J]. 张昊,纪宏超,张红宇. 物联网技术. 2017(02)
[10]基于随机森林的P2P网络借贷成功率预测研究[J]. 周玉琴,张晓玫,罗璇. 东北农业大学学报(社会科学版). 2016(06)
博士论文
[1]我国P2P网络借贷个人信用风险管理研究[D]. 夏雨霏.中国矿业大学 2018
硕士论文
[1]基于Xgboost的互联网消费金融信用风控策略研究[D]. 杜盼.湘潭大学 2018
[2]基于大数据的P2P金融风险控制系统的设计与实现[D]. 高昊阳.北京交通大学 2018
[3]基于XGBoost模型的短期股票预测[D]. 伯毅.哈尔滨工业大学 2018
[4]个人信用风险评估的一种基于XGBoost的集成学习方法[D]. 李晓刚.中国科学技术大学 2018
[5]基于LightGBM与XGBoost算法的P2P网络借贷违约预测模型的比较研究[D]. 沙靖岚.东北财经大学 2017
[6]我国P2P网络借贷逾期率影响因素实证研究[D]. 余鲲.广西师范大学 2017
[7]基于P2P网贷平台的借款成功率以及还款逾期率影响因素研究[D]. 成冰倩.上海师范大学 2017
[8]基于用户行为数据的P2P网贷违约预测[D]. 王静月.上海师范大学 2017
[9]基于优化的xgboost模型的商业银行电话营销效果分析[D]. 徐彬心.兰州大学 2017
[10]基于Xgboost方法的实体零售业销售额预测研究[D]. 叶倩怡.南昌大学 2016
本文编号:3531107
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/3531107.html