基于机器学习的P2P个人网贷信用评估方法研究

发布时间：2022-12-11 00:40

　　本文采用某信贷公司的真实数据,该数据一共有31个变量,其中客户类型是因变量,其余变量是自变量,对该数据建立了Logistic回归模型、随机森林模型、支持向量机模型,分析对比了这三个模型识别坏客户的能力,并基于Logistic回归模型对SMOTE算法进行了改进,最后通过10折交叉验证的方法对模型进行验证。由于本文采用的数据中好客户有6664个,坏客户有330个,数据是不平衡数据,因此本文引入专门处理不平衡数据的算法——SMOTE算法,对原始数据中的少数类样本（坏客户）进行欠采样,多数类样本（好客户）进行过采样得到新数据,在原始数据集和新数据集两个数据集上分别分析对比上述三个模型的识别坏客户的能力。10折交叉验证的结果表明:（1）在原始数据集上,随机森林模型的误差率最小为0.042,随机森林和支持向量机的真负率最大,都达到了1.000,Logistic回归的真正率最大为0.56,这表明在识别坏客户方面,Logistic回归比其他两个模型有更好的识别能力;（2）在新数据集上,随机森林在误差率、真正率、真负率这三个指标上都达到最优,分别是0.057、0.870、0.987。这表明经过SMOTE...

【文章页数】：48 页

【学位级别】：硕士

【文章目录】：
中文摘要
英文摘要
1 绪论
    1.1 课题意义
    1.2 国内外研究现状
        1.2.1 国外研究综述
        1.2.2 国内研究综述
2 数据处理
    2.1 数据说明与探索
    2.2 缺失值处理
    2.3 异常值处理
    2.4 数据规范化处理
    2.5 不平衡数据的处理
        2.5.1 SMOTE算法简介
        2.5.2 SMOTE算法的实施
3 基于机器学习的信用评估模型的建立
    3.1 模型的评价标准——AUC值
    3.2 构建Logistic回归模型
        3.2.1 Logistic回归模型简介
        3.2.2 基于IV值的变量选择
        3.2.3 Logistic回归模型的建立
    3.3 构建随机森林模型
        3.3.1 随机森林模型简介
        3.3.2 随机森林模型的建立
    3.4 构建支持向量机模型
        3.4.1 支持向量机原理简介
        3.4.2 支持向量机模型的建立
4 模型的验证
    4.1 k折交叉验证简介
    4.2 验证结果对比分析与小结
5 基于Logistic回归模型的SMOTE算法的改进
    5.1 SMOTE算法的不足
    5.2 改进思路
    5.3 改进实施
    5.4 交叉验证
6 总结
致谢
参考文献

【参考文献】：
期刊论文
[1]基于互联网行为信息的P2P个人信用评价模型[J]. 邓逸,徐晓敏.  北京信息科技大学学报(自然科学版). 2017(02)
[2]大数据背景下网络借贷的信用风险评估——以人人贷为例[J]. 柳向东,李凤.  统计与信息论坛. 2016(05)
[3]P2P网贷个人信用评估国内外研究综述[J]. 叶菁菁,吴斌,董敏.  商业经济研究. 2015(31)
[4]互联网金融数据抓取方法研究[J]. 兰秋军.  计算机工程与设计. 2011(05)
[5]我国个人信用评估体系研究综述[J]. 秦丽丽,杨晓红,刘昕晰,谢巧燕.  区域金融研究. 2010(06)
[6]个人信用卡信用风险评价体系与模型研究[J]. 迟国泰,许文,孙秀峰.  同济大学学报(自然科学版). 2006(04)
[7]多种个人信用评分模型在中国应用的比较研究[J]. 石庆焱,靳云汇.  统计研究. 2004(06)

本文编号：3717819

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/3717819.html

上一篇：信贷约束条件下贸易中介对中国企业出口的影响研究
下一篇：我国文创产品贸易现状、机遇和优化举措研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|