当前位置:主页 > 经济论文 > 银行论文 >

数据挖掘技术在征信数据中的应用研究

发布时间:2020-12-25 20:21
  征信机构的用户征信数据具有巨大的商业价值,如何利用该数据帮助征信机构判断是否与用户进行信贷业务,是一个值得研究的问题。在研究这个问题的过程中,常见的方法是利用相关技术对已有的征信数据进行研究挖掘,找出其中的规律以便对未知用户进行信用评分的预测,最终依据此评分判断是否对其进行信贷业务。本文围绕这个问题展开研究,包括对数据挖掘方法的改进以及对实际征信数据分类问题的应用等,主要工作如下:1.考虑实际征信数据中用户评级分类问题,在进行缺失值补充等预处理后,针对将用户分为可贷款用户和不可贷款用户的实际情况,将上述问题转化为一类二分类问题,使用XGBoost算法建立用户违约预测模型。仿真结果表明,与传统的Logistic回归和GBDT算法等方法相比,XGBoost算法具有更优的分类效果,其AUC值分别提升了5.24%和6.06%。2.将对用户信用评级的分类问题转化为一类多分类问题,即将用户信用由好到坏分为1至4级,对于预处理后的征信数据,建立支持向量机集成模型,计算样本点到超平面的距离,降低了主观因素可能产生的影响,并列出信用评级排名前十的用户以供研究参考。3.对Boruta特征选择算法提出改进,... 

【文章来源】:南京邮电大学江苏省

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

数据挖掘技术在征信数据中的应用研究


图2.1支持向量示意图

示意图,示意图,支持向量,分类超平面


超平面距离最近的样本点,即 ( ) 1i i 在1: 1TH x b上;对 = 1iy 的负例点,和2H 上的点就是支持向量。图 2.1 支持向量示意图优分类超平面的重要参数,也是判断分类正确平面的距离,如下图所示:

曲线,学习领域,真实类,学习器


位硕士研究生学位论文 第二章真实类别与学习器预测类别的组合划分为真正例(true真负例(truenegative)、假负例(falsenegative)四种情形,本数。分类结果的混淆矩阵如表所示,其中 TP FP TNC即“受试者工作特征”曲线,在机器学习领域被广泛引用,图,如图所示:

【参考文献】:
期刊论文
[1]基于拉普拉斯评分的多标记特征选择算法[J]. 胡敏杰,林耀进,王晨曦,唐莉,郑荔平.  计算机应用. 2018(11)
[2]基于Boruta-PSO-SVM的股票收益率研究[J]. 郭海山,高波涌,陆慧娟.  传感器与微系统. 2018(03)
[3]基于SVM的驾驶行为健康度评估模型[J]. 白东,钱松荣.  微型电脑应用. 2017(12)
[4]基于新型不纯度度量的代价敏感随机森林分类器[J]. 师彦文,王宏杰.  计算机科学. 2017(S2)
[5]数据缺失及其处理方法综述[J]. 晔沙.  电子测试. 2017(18)
[6]个人信用评分模型比较数据挖掘分析[J]. 李卯.  时代金融. 2017(06)
[7]基于优化CBR的个人信用评分研究[J]. 姜明辉,许佩,韩旖桐,覃志.  中国软科学. 2014(12)
[8]基于支持向量机的回归预测综述[J]. 李永娜.  信息通信. 2014(11)
[9]数据挖掘模型在小企业主信用评分领域的应用[J]. 王磊,范超,解明明.  统计研究. 2014(10)
[10]高维数据回归分析中基于LASSO的自变量选择[J]. 张秀秀,王慧,田双双,乔楠,闫丽娜,王彤.  中国卫生统计. 2013(06)

博士论文
[1]个人信用评分组合模型研究与应用[D]. 向晖.湖南大学 2011
[2]信用评分理论与应用研究[D]. 刘弢.湖南大学 2010

硕士论文
[1]基于优化的xgboost-LMT模型的供应商信用评价研究[D]. 樊鹏.广东工业大学 2016



本文编号:2938329

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/2938329.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d8883***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com