决策树算法实现及其在信用风险控制中的应用
发布时间:2017-04-23 02:11
本文关键词:决策树算法实现及其在信用风险控制中的应用,由笔耕文化传播整理发布。
【摘要】:在本学位论文中,我们主要考虑决策树C4.5算法在信用风险控制方面的作用,并且为了减少预测误差,运用二项分布置信区间估计的方法改进了其悲观错误修剪算法。 为此,我们先简要介绍了信用风险及其常有用的控制方法;然后阐述了决策树的内容,并指出其在控制信用风险中的应用;从理论上介绍决策树C4.5算法模型,包括其生成的信息熵、信息增益理论,修剪时所用的悲观错误修剪法及运用贝叶斯原理及二项分布区间估计原理改进后的悲观错误修剪算法等;最后用恒丰银行制造业及房地产业数据运用Matlab软件编程实现算法,建立模型,以实例验证决策树算法在信用风险控制上的应用及其显著作用。 由实例应用可得,决策树模型对信用风险的识别能力较强从而能够较好的控制信用风险;所选取的作为判断分类条件的指标具有普遍性,具有较强的说服力。并且决策树C4.5模型具有以下优点: 1.能够生成易于理解的决策规则,易被人理解; 2.清晰呈现重要的决策属性指标,便于以后做出决策判断及积累数据; 3.计算量较小,大大提高了计算速度; 4.既能处理数据量较小的情况,又能处理数据量较大的情况; 5.可以同时处理连续的和离散的数据。这些优点使得我们能在有限的数据量下,方便快速准确的预测客户的信用风险,有助于银行信用风险管理人员及监管机构及时准确的掌握客户的信用风险状况,从而及时作出规避或降低信用风险的举措。 但是,决策树法稳健性较差,即虽然其对训练样本的分类效果很好,但将所建立的决策树用于对保留样本的分类时,其错误比率有较大幅度的上升。在实际中,新的贷款申请人所属的总体可能与建模总体有一定的差异,决策树法的这种不稳健性可能造成错误分类率高。因此,我们在运用决策树进行分类预测时,一定要注意被预测样本所属的总体是否与所用模型属于同一总体。为解决这一问题,我们可以分行业对数据进行建模,也可以通过聚类分析找出待预测样本所属的总体,然后进行预测。
【关键词】:决策树C4.5 信用风险 悲观错误修剪法 二项分布区间估计 算法实现
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:C934;TP18
【目录】:
- 中文摘要8-10
- ABSTRACT10-12
- 第一章 导论12-14
- §1.1 背景介绍12-13
- §1.2 研究思路13
- §1.3 创新点13-14
- 第二章 信用风险14-17
- §2.1 信用风险简介14-15
- §2 .2 信用风险控制15-17
- 第三章 决策树17-22
- §3.1 国内外研究现状18
- §3.2 决策树的建立18-22
- 第四章 C4.5决策树理论介绍22-34
- §4.1 信息熵22-25
- §4.2 信息增益率25-29
- §4.3 悲观错误修剪法29-34
- 第五章 算法实现及应用34-43
- §5.1 算法步骤34-37
- §5.2 Matlab程序说明37-39
- §5.3 应用39-43
- 第六章 结论43-46
- 附录46-54
- 参考文献54-57
- 致谢57-58
- 学位论文评阅及答辩情况表58
【参考文献】
中国期刊全文数据库 前7条
1 黄文;;决策树的经典算法:ID3与C4.5[J];四川文理学院学报;2007年05期
2 范洁,杨岳湘;决策树后剪枝算法的研究[J];湖南广播电视大学学报;2005年01期
3 田振清,周越;信息熵基本性质的研究[J];内蒙古师范大学学报(自然科学汉文版);2002年04期
4 刘小虎,李生;决策树的优化算法[J];软件学报;1998年10期
5 魏红宁;决策树剪枝方法的比较[J];西南交通大学学报;2005年01期
6 谭旭,王丽珍,卓明;利用决策树发掘分类规则的算法研究[J];云南大学学报(自然科学版);2000年06期
7 李鸿;;二项分布的参数估计问题研究[J];应用数学学报;2010年03期
本文关键词:决策树算法实现及其在信用风险控制中的应用,由笔耕文化传播整理发布。
,本文编号:321660
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/321660.html