当前位置:主页 > 经济论文 > 银行论文 >

银行信用评级中的不平衡分类问题研究

发布时间:2018-08-06 19:13
【摘要】:信用评级是一项银行信用风险管理的重要内容,是一种银行评价客户信誉状况、归还贷款能力和未来前景的方法,是一个通过挖掘客户信息来指导业务的过程。在当前大数据时代的背景下,银行所能获得的客户信用数据越来越多,如何通过挖掘数据隐藏的信息从而判断客户信用等级是银行面临的至关重要的问题。在实际的银行信用数据集中,信用良好的客户往往比信用不良的客户多很多,这导致银行信用评级问题实质上是一种不平衡分类问题。在不平衡分类问题中,小类样本往往是关注的重点,如信用评级领域,银行更关注那些信用不良的客户。因此,如何有效地区分和识别小类样本是解决不平衡分类问题的关键。机器学习算法在处理不平衡分类问题时往往不能有效地识别小类样本,因此如何有效地解决不平衡分类问题是重点研究的工作。目前,不平衡分类问题主要从数据层面和算法层面进行研究。数据层面上主要采用重采样方法来平衡数据类别分布,如随机欠采样方法、ROSE方法、SMOTE方法等都是典型的重采样方法;算法层面上集成学习算法经常被用来解决不平衡分类问题。为了验证重采样方法和集成学习算法在处理不平衡分类问题时的有效性,本文采用四组分别来自于UCI数据库和KEEL数据库的不平衡率各不相同的数据集进行仿真实验,实验结果表明重采样方法和集成学习算法的确能够有效提升分类模型对小类样本的识别率。ROSE方法是一种人工合成数据的方法,将其权重系数进行改进之后与随机欠采样方法组合,得到随机混合采样(RHS,Random Hybrid Sampling)方法,之后采用经典的AdaBoost算法作为集成学习算法,这样就得到了RHSBoost(Random Hybrid Sampling Boosting)算法。该算法的基本思想是:首先通过随机欠采样方法来获得平衡的数据集,之后借助改进的ROSE方法来合成更多的人工数据,AdaBoost算法可以更改错误分类的小类样本权重,这样就可以达到增强分类器的目的。本文利用银行信用数据集进行实验,在采用决策树作为基分类算法的前提下,将RHSBoost算法与RUSBoost算法、SMOTEBoost算法、重采样方法和集成学习算法进行对比,证明了RHSBoost算法的可行性和优势。
[Abstract]:Credit rating is an important part of bank credit risk management. It is a method for banks to evaluate customers' credit status, repay loan ability and future prospects. It is a process of guiding business by mining customer information. Under the background of the current big data era, the bank can obtain more and more customer credit data. How to find out the customer credit grade by mining the hidden information is the most important problem that the bank faces. In the actual bank credit data set, the customers with good credit are often much more than those with bad credit, which leads to the problem of bank credit rating is essentially an unbalanced classification problem. In the problem of unbalanced classification, small samples are often the focus of attention, such as credit rating field, banks pay more attention to those customers with poor credit. Therefore, how to effectively distinguish and identify small samples is the key to solve the problem of unbalanced classification. Machine learning algorithms often can not effectively identify small class samples when dealing with unbalanced classification problems, so how to effectively solve the unbalanced classification problem is the focus of research work. At present, the unbalanced classification problem is mainly studied from the data level and the algorithm level. In data level, resampling method is mainly used to balance the distribution of data categories, such as random under-sampling method, rose method and SMOTE method, which are typical resampling methods, and ensemble learning algorithms are often used to solve the problem of unbalanced classification. In order to verify the validity of resampling method and ensemble learning algorithm in dealing with the problem of unbalanced classification, four groups of data sets with different unbalance rates from UCI database and KEEL database are used for simulation experiments. The experimental results show that the resampling method and the ensemble learning algorithm can effectively improve the recognition rate of the classification model for small class samples. Rose method is an artificial synthetic data method. After the weight coefficient is improved and combined with the random under-sampling method, the RHS random Hybrid Sampling) method is obtained, and then the classical AdaBoost algorithm is used as the ensemble learning algorithm, thus the RHSBoost (Random Hybrid Sampling Boosting) algorithm is obtained. The basic idea of the algorithm is: firstly, the balanced data set can be obtained by random under-sampling method, and then more artificial data can be synthesized by the improved ROSE method, and the weight of subclass samples can be changed by using the improved ROSE method. In this way, we can enhance the classifier. In this paper, the bank credit data set is used to experiment. On the premise of using the decision tree as the basic classification algorithm, the RHSBoost algorithm is compared with the RUSBoost algorithm, the resampling method and the ensemble learning algorithm. The feasibility and advantages of the RHSBoost algorithm are proved.
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;F830.4;TP181

【相似文献】

相关期刊论文 前10条

1 CF·赵宝良;浅说“BPH—DC”论[J];发明与革新;2001年04期

2 王胜祥;现实、实践与理论——兼谈图书馆高位理论[J];黑龙江图书馆;1990年02期

3 王健庭;火信号的采集与相关修正[J];数据采集与处理;1987年02期

4 陈国阶;我国东西部发展不平衡与西部开发[J];科技导报;1995年07期

5 王萌;施艳艳;王海明;沈明辉;;不平衡电网电压下双馈风力发电系统强励控制[J];测控技术;2014年07期

6 漫征;;克服地区落后论的错误思想[J];新闻战线;1960年11期

7 ;来稿选题建议[J];青年研究;1999年01期

8 沈睿;;区域发展不平衡——不同地域中小企业信息化建设差距较大[J];每周电脑报;2004年08期

9 张昕竹;用电信普遍服务政策改善经济发展不平衡[J];通信世界;2001年16期

10 周耘;;试论我国年鉴发展的不平衡性[J];图书馆学研究;1987年04期

相关会议论文 前5条

1 张雨石;唐丽敏;王庸凯;陈文科;;关于中日航线集装箱运量不平衡原因的分析[A];中国航海学会——2004年度学术交流会优秀论文集[C];2004年

2 廖芳宇;;基于LabVIEW的三相不平衡的测量[A];2011年云南电力技术论坛论文集(入选部分)[C];2011年

3 沙鹏程;;关于西部民营企业可持续发展的思考[A];第十四次全国回族学研讨会论文汇编[C];2003年

4 张敦伟;丁博;;配电网三相不平衡补偿的探讨[A];2007中国电机工程学会电力系统自动化专委会供用电管理自动化学科组(分专委会)二届三次会议论文集[C];2007年

5 王仲生;王翔;;转子不平衡自愈监控系统设计[A];第七届全国信息获取与处理学术会议论文集[C];2009年

相关重要报纸文章 前10条

1 本报记者 刘金松;教育最大的不公平是教育资源不平衡[N];经济观察报;2014年

2 程凯;解决不平衡还要靠市场[N];中华工商时报;2005年

3 本报见习记者 周宁;示范小城镇建设“四个不平衡”[N];经济信息时报;2013年

4 记者 张黎明;我市治堵工作进展不平衡[N];金华日报;2014年

5 本报记者 任s,

本文编号:2168719


资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/2168719.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户81d9f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com