一种基于Boosting算法的新模型在银行信用评级中的应用
本文关键词:一种基于Boosting算法的新模型在银行信用评级中的应用
【摘要】:银行拥有大量的信用贷款数据,大数据时代运用信用评分模型去准确地判断申请人的信用风险是未来发展的趋势。在实际的信用评分数据库中,信用好的申请者通常都比信用不好的申请者多很多,从而导致了数据集的不平衡,而机器学习在不平衡数据集上的训练往往对小类的识别率比较低,错误地给予信用不好的申请者贷款会给银行带来巨大的商业危害,因此提高分类器对小类的识别至关重要。本文提出了一种基于混合重抽样和Boosting算法的新模型HSBoosto第一阶段,对不平衡数据集进行混合重抽样处理,从而获得平衡的样本训练集;第二阶段,利用Boosting算法更改容易被错误分类的小类样本的权值,从而来提高分类器对小类样本的识别能力。本文利用UCI数据库的信用评分数据集,运用HSBoost算法做实证分析,用SVM、BP神经网络、DT作为基本分类器,对比已有的RUSBoost算法、SMOTEBoost算法、混合重抽样技术和两种基本重抽样技术,验证了HSBoost算法的有效性和可行性,提高了分类器对小类的识别率。同时利用非参数Wilcoxon配对符号秩检验,证明了HSBoost算法显著优于SMOTEBoost算法。
【关键词】:信用评级 不平衡数据 HSBoost算法
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;F830.5
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-10
- 1 引言10-15
- 1.1 研究背景和意义10-11
- 1.2 研究现状11-13
- 1.2.1 不平衡数据集分类困难的原因11-12
- 1.2.2 国内外研究状况12-13
- 1.3 创新点13
- 1.4 论文安排13-15
- 2 不平衡数据的分类方法15-29
- 2.1 基于数据层面15-16
- 2.1.1 欠抽样(under-sampling)15-16
- 2.1.2 过抽样(over-sampling)16
- 2.2 基于算法层面16-19
- 2.2.1 Boosting16-18
- 2.2.2 代价敏感法18-19
- 2.3 基于判别准则19-21
- 2.3.1 AUC20-21
- 2.4 分类器21-29
- 2.4.1 支持向量机21-24
- 2.4.2 BP神经网络24-26
- 2.4.3 决策树26-29
- 3 一种新的混合式集成算法29-33
- 3.1 抽样方法和集成算法的混合应用29-30
- 3.1.1 混合重抽样算法(Hybrid Sampling)29
- 3.1.2 SMOTEBoost算法29-30
- 3.1.3 RUSBoost算法30
- 3.2 一种新的混合式集成算法(HSBoost)30-33
- 4 HSBoost算法实证研究33-45
- 4.1 数据预处理33-34
- 4.2 模型构建及参数设置34-36
- 4.2.1 模型构建34-35
- 4.2.2 参数设置35-36
- 4.3 实证结果分析36-42
- 4.4 非参数检验42-45
- 5 结论和展望45-46
- 参考文献46-48
- 作者简历及攻读硕士学位期间取得的研究成果48-50
- 学位论文数据集50
【相似文献】
中国期刊全文数据库 前10条
1 涂承胜;刁力力;鲁明羽;陆玉昌;;Boosting家族Boost-by-majority系列代表算法[J];计算机科学;2003年04期
2 陈爱斌,夏利民;基于Boosting算法的入侵检测[J];计算机工程;2004年11期
3 朱文球,罗三定;基于级联式Boosting方法的人脸检测[J];计算机应用;2005年09期
4 唐轶;;多分类Boosting算法的一致性[J];计算机工程与应用;2006年18期
5 董乐红;耿国华;高原;;Boosting算法综述[J];计算机应用与软件;2006年08期
6 花小朋;王欢;兰少华;;Boosting算法在入侵检测中的应用[J];通信技术;2007年09期
7 章桦;;多示例人脸的Boosting检测[J];软件导刊;2008年05期
8 孙显;王宏琦;张正;;基于对象的Boosting方法自动提取高分辨率遥感图像中建筑物目标[J];电子与信息学报;2009年01期
9 ;Thickness Measurement of Insulation Coating by NIR Spectrometry Based on Boosting-KPLS[J];光谱学与光谱分析;2011年08期
10 于振洋;;基于Boosting的网络异常流量检测算法研究[J];淮阴工学院学报;2011年05期
中国重要会议论文全文数据库 前9条
1 翟素兰;罗斌;郭玉堂;;双向Boosting模糊聚类集成[A];第二十六届中国控制会议论文集[C];2007年
2 李秋洁;茅耀斌;王执铨;;一种基于boosting的不平衡数据分类算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
3 ;Boosting MBR Based kNN Search Over Multimedia Data by Approximate Pruning Metric[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
4 ;A Target Recognition and Segmentation Method Based On Boosting and PDE[A];第24届中国控制与决策会议论文集[C];2012年
5 李训青;黄磊;刘迎建;;基于Boosting集成的SMO增强型分类器设计[A];第八届全国汉字识别学术会议论文集[C];2002年
6 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 Günter Reiter;Stephen S.D.Cheng;;Boosting Mechanical Properties of Polymer Materials by building Nacre-like Hierarchy Micro-sheet Structure in Bulk Polymer[A];2009年全国高分子学术论文报告会论文摘要集(上册)[C];2009年
8 许青松;;QSAR建模的boosting方法[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
9 李月敏;陈杰;高文;尹宝才;;快速人脸检测技术综述[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
中国硕士学位论文全文数据库 前10条
1 严爱玉;基于Stockwell变换与Boosting算法的自动癫痫检测[D];山东大学;2015年
2 贾璋衡;基于随机森林和boosting思想的推荐算法的研究[D];广西师范大学;2015年
3 郭连坤;基于多核Boosting多特征组合高光谱分类技术研究[D];西安科技大学;2015年
4 翟璐;一种基于Boosting算法的新模型在银行信用评级中的应用[D];北京交通大学;2016年
5 曾庆尚;基于Boosting策略的启动子预测方法研究[D];烟台大学;2009年
6 姚睿;基于代价敏感Boosting算法的医学影像分析方法研究[D];上海交通大学;2011年
7 江鹏;基于Boosting的分布估计算法[D];上海交通大学;2009年
8 王笑坤;Boosting算法及其应用[D];西北大学;2007年
9 沈丁成;基于在线Boosting算法的目标跟踪研究[D];天津理工大学;2013年
10 丁红帅;基于Boosting的分布估计算法[D];上海交通大学;2010年
,本文编号:777170
本文链接:https://www.wllwen.com/guanlilunwen/bankxd/777170.html