当前位置:主页 > 经济论文 > 国际贸易论文 >

基于复合CatBoost模型的P2P网贷违约分类预测

发布时间:2020-07-15 07:42
【摘要】:P2P网贷作为互联网金融领域的代表发展非常迅速,与此同时,众多风险也随之暴露,其中最主要的是信用风险(借款方违约风险)。因此,对借款方是否违约进行分类预测以及研究影响借款方违约的因素具有一定现实意义。本文选择我国上线较早且具有代表性的P2P网贷平台-人人贷作为研究对象,选择其2016年和2017年的有效历史交易数据构建二分类预测模型进行实证研究。首先,本文基于五个方面构建了19个特征,然后应用随机森林进行特征选择,依据每个特征的平均得分选择了前15个较重要的特征参与建模;其次,将不同的非均衡数据集处理方法(欠采样、过采样、欠采样过采样组合)与机器学习算法(SVM、RF、AdaBoost、XGBoost、LightGBM、CatBoost)相结合建立网贷违约分类预测模型;最后,通过对AUC值等衡量分类模型性能的指标进行对比分析,结果显示:复合CatBoost模型中的SMOTETomek-CatBoost模型相较于其它模型(SVM和复合SVM模型、RF和复合RF模型、AdaBoost和复合AdaBoost模型、XGBoost和复合XGBoost模型、LightGBM和复合LightGBM模型)具有更好的分类预测性能。通过对复合XGBoost、复合LightGBM和复合CatBoost模型的特征重要性评分结果分析,得到了7个影响借款方违约的主要因素。
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F832.4;F724.6
【图文】:

示意图,核函数,示意图,算法


本文选取 ENN 算法、RENN 算法、NCR 算法、Borrline2-SMOTE 算法、ADASYN 算法、SMOTE+TomN 算法对数据集进行均衡处理。量机(SVM)机是由 Cortes 和 Vapnik[32]于 1995 年提出,不仅可问题的研究,SVM 作为经典算法已被应用在很多空气质量预测、电力预测等,其作为分类模型的主一个使得正反两类样本之间间隔最大的分类超平面鲁棒的。若样本在当前特征空间中是线性可分的,分类超平面;若样本属于线性不可分情况,则引入射到其可以实现线性可分的高维空间(如图 2-1 所以在低维进行计算克服计算量大的难题,也可以使的效果。

示意图,集成学习,示意图,学习器


学硕士学位论文 基于复合 CatBoost 模型的 P2P 网贷违约分类预moid 核: ( ,) tanh( )jTijik xxxx,tanh 是双曲正切函数, 0, 使用 SVM 进行二分类预测时,选择的是比较常用的高斯核。森林(RF)森林原理法是通过学习多个基础模型来完成学习任务,每个经过训练的基础习器,然后将多个基学习器的结果整合后输出,输出的结果作为最(如图 2-2 所示)。集成学习可以分为两种类型:同质集成和异质成是每个基学习器使用的是同种学习算法,异质集成是允许基学习学习算法,比如所有基础模型中,有的学习算法是决策树,有的是随机森林是基于并行集成算法的典型代表-Bagging 的扩展变体,是决策树,是同质集成类型。

曲线,查准率,查全率,逃犯


图 2-3 PR 曲线示意图横轴为查全率,纵轴为查准率。如果一个模型个模型的 PR 曲线,则前者的性能要比后者好;,那么将无法直接判断两个模型的优劣,因为 P此可依据具体的业务目标计算 F , F 为查准率域学习目标不同,比如,电子商务平台需要对他们就更看重查准率;而对于抓捕逃犯来说,看重查全率。因此,我们在实际业务中需要根供了这样的机会,可以通过调节 值来实现,,查全率有较大影响;当 小于 1 时,查准率 AUCceiver Operating Characteristic)曲线被经常应常,()(1)22PRPRF

【相似文献】

相关期刊论文 前10条

1 宋维康;徐冰;;煤与瓦斯突出分类预测方法分析[J];煤;2016年04期

2 李倩倩;姜景;李瑛;刘怡君;;我国政务微博转发规模分类预测[J];情报杂志;2018年01期

3 路小娟;朱正平;;太阳能光伏发电量分类预测研究[J];自动化与仪器仪表;2016年01期

4 陆桂明;张源;周志敏;;基于机器学习的贫困生分类预测研究[J];计算机应用与软件;2019年01期

5 张学扶;曾攀;金敏;;相关性和相似度联合的癌症分类预测[J];计算机科学;2019年07期

6 屈玉涛;邓万宇;;基于matlab的svm分类预测实现[J];信息通信;2017年03期

7 王与;刘洋;;分类技术在高校教学管理中的应用[J];滁州学院学报;2011年05期

8 莫世华,俞敏;霍乱发病地区分类预测方法研究[J];浙江预防医学;1999年10期

9 马寅午,周晓阳,尚金成,张勇传,顾宁昌,刘丹雅,谭培伦;防洪系统洪水分类预测优化调度方法[J];水利学报;1997年04期

10 陈晖;胡泽根;李云鹏;葛丽珍;李彦来;;自组织神经网络技术在新油田快速评价中的应用[J];重庆科技学院学报(自然科学版);2017年02期

相关会议论文 前3条

1 沈杰;李卫华;唐峗;;一种基于化合物子结构模式识别的分类预测方法[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年

2 孙蕾;罗建书;;基于分类预测的高光谱遥感图像无损压缩[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

3 罗三华;黄建华;邱建丁;;小波支持向量机在蛋白质二级结构分类预测中应用[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年

相关博士学位论文 前4条

1 刘惠;蛋白质序列数据的分类预测研究[D];上海交通大学;2007年

2 王立鹏;特征提取及分类算法在膜蛋白分类预测问题中的应用[D];兰州理工大学;2010年

3 廖志芳;大肠早癌辅助诊断数据挖掘方法研究[D];中南大学;2008年

4 王彤;高维生物数据的分类与预测研究[D];上海交通大学;2009年

相关硕士学位论文 前10条

1 邵亚洁;基于复合CatBoost模型的P2P网贷违约分类预测[D];兰州大学;2019年

2 王会娜;基于特征提取的肝癌患者乙肝病毒再激活的分类预测[D];齐鲁工业大学;2018年

3 王晓明;基于分类预测技术的软件成本估算方法的研究与应用[D];国防科学技术大学;2010年

4 安俊峰;游戏评价数据的分类预测研究[D];东华大学;2014年

5 张吉宽;蛋白质热稳定性分类预测系统的设计与实现[D];辽宁大学;2016年

6 陶雨雨;决策树及神经网络算法在股票分类预测中的应用[D];杭州电子科技大学;2014年

7 石雪娜;基于压缩感知的蛋白质功能分类预测[D];北京交通大学;2014年

8 杨晓鹏;大数据环境下隐私保护的预测服务机制研究[D];西安电子科技大学;2017年

9 肖芳;工业产品运输需求分类预测理论研究[D];长安大学;2011年

10 于成群;基于集成学习的数据库营销研究[D];重庆大学;2016年



本文编号:2756195

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2756195.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1f6a1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com