一种改进的ID3算法及其在银行信用卡违约评估中的应用
发布时间:2021-06-25 12:02
数据挖掘是一种新型的数据分析技术.数据挖掘中的算法按照其应用不同可以分为监督学习:神经网络、支持向量机、决策树和回归等;无监督学习:聚类分析、关联规则分析;数据降维:主成分分析、因子分析等.常见的决策树算法包括:ID3算法、C4.5算法、CART算法,其中ID3算法作为最早的决策树算法,应用最为广泛.本文针对决策树中ID3算法进行深入研究,解决了该算法中存在的多值偏向、信息熵中对数运算较为复杂的问题.针对ID3算法存在的多值偏向问题,本文提出了一种修改信息增益函数的ID3算法,将属性与类别之间的相关系数、属性值的个数引入到信息增益函数中.改进的ID3算法减小了属性值较多且与类别相关性不大属性的信息增益值,解决了多值偏向问题;针对信息熵中复杂的对数运算,本文利用泰勒公式简化了信息熵公式,将信息熵公式中的对数运算转换为非对数运算;通过UCI上四个经典的数据集,数值检验了改进后的ID3算法的确提高了分类精确度,简化的信息熵公式降低了时间复杂度.最后,本文将改进的ID3算法应用于银行信用卡违约评估中,对其数据集中的诸如缺少属性值、属性值离散化和属性选择等问题提出了具体的解决方案.相比之下,改进...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
决策树
图 3-1 两种算法精度从图 3-1 中可以看出,对于这四个数据集,改进的 ID3 算法形成的决策树的度在 75.4%~94.1%之间波动,而传统的 ID3 算法的精确度大约在 72.3%~86右,改进后的 ID3 在分类精度上有约 6.1%的小幅度增加.由于改进的 ID3 在生策树时使用相关系数和属性值的数量,因此有效地平衡了传统算法多值偏向性足.可以得出结论,新算法在多值偏向问题上有明显的改善.其次本文对比了简化公式前后的建树所需要的时间,使用的数据集也是上数据集,具体时间如表 3-3 所示表 3-3 建树所需时间数据集名称建决策树所需要的时间(ms)ID3 算法 简化后的 ID3 算法 时间差Iris 0.0812 0.057 0.0242Breast-Cancer 0.093 0.091 0.002Balance-Scale 4.9 4.5 0.4Car 50.3 37.3 13
算法运行时间对比
【参考文献】:
期刊论文
[1]基于相关系数的ID3优化算法[J]. 吴思博,陈志刚,黄瑞. 计算机工程与科学. 2016(11)
[2]基于相关系数的决策树优化算法[J]. 董跃华,刘力. 计算机工程与科学. 2015(09)
[3]论数据挖掘的发展前景及潜在价值[J]. 罗艳,何建东,李久丹. 大众科技. 2012(04)
[4]基于用户兴趣度和MID3决策树改进方法[J]. 王永梅,胡学钢. 计算机工程与应用. 2011(27)
[5]一种基于修正信息增益的ID3算法[J]. 张春丽,张磊. 计算机工程与科学. 2008(11)
[6]一种基于灰色关联度的决策树改进算法[J]. 叶明全,胡学钢. 计算机工程与应用. 2007(32)
[7]基于关联度函数的决策树分类算法[J]. 韩松来,张辉,周华平. 计算机应用. 2005(11)
[8]决策树分类技术研究[J]. 栾丽华,吉根林. 计算机工程. 2004(09)
[9]用遗传算法构造二元决策树[J]. 吴菲,黄梯云. 计算机研究与发展. 1999(11)
[10]决策树的优化算法[J]. 刘小虎,李生. 软件学报. 1998(10)
博士论文
[1]基于关联规则与决策树的预测方法研究及其应用[D]. 伊卫国.大连海事大学 2012
硕士论文
[1]改进决策树算法在肿瘤数据中的应用[D]. 刘子钰.东北师范大学 2015
[2]基于排序熵的有序决策树高效算法研究[D]. 陈建凯.河北大学 2014
[3]基于Weka平台的决策树算法研究与实现[D]. 吴烨.西安电子科技大学 2014
[4]基于蚁群优化的决策树算法研究与应用[D]. 张忠坤.北京邮电大学 2014
本文编号:3249175
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
决策树
图 3-1 两种算法精度从图 3-1 中可以看出,对于这四个数据集,改进的 ID3 算法形成的决策树的度在 75.4%~94.1%之间波动,而传统的 ID3 算法的精确度大约在 72.3%~86右,改进后的 ID3 在分类精度上有约 6.1%的小幅度增加.由于改进的 ID3 在生策树时使用相关系数和属性值的数量,因此有效地平衡了传统算法多值偏向性足.可以得出结论,新算法在多值偏向问题上有明显的改善.其次本文对比了简化公式前后的建树所需要的时间,使用的数据集也是上数据集,具体时间如表 3-3 所示表 3-3 建树所需时间数据集名称建决策树所需要的时间(ms)ID3 算法 简化后的 ID3 算法 时间差Iris 0.0812 0.057 0.0242Breast-Cancer 0.093 0.091 0.002Balance-Scale 4.9 4.5 0.4Car 50.3 37.3 13
算法运行时间对比
【参考文献】:
期刊论文
[1]基于相关系数的ID3优化算法[J]. 吴思博,陈志刚,黄瑞. 计算机工程与科学. 2016(11)
[2]基于相关系数的决策树优化算法[J]. 董跃华,刘力. 计算机工程与科学. 2015(09)
[3]论数据挖掘的发展前景及潜在价值[J]. 罗艳,何建东,李久丹. 大众科技. 2012(04)
[4]基于用户兴趣度和MID3决策树改进方法[J]. 王永梅,胡学钢. 计算机工程与应用. 2011(27)
[5]一种基于修正信息增益的ID3算法[J]. 张春丽,张磊. 计算机工程与科学. 2008(11)
[6]一种基于灰色关联度的决策树改进算法[J]. 叶明全,胡学钢. 计算机工程与应用. 2007(32)
[7]基于关联度函数的决策树分类算法[J]. 韩松来,张辉,周华平. 计算机应用. 2005(11)
[8]决策树分类技术研究[J]. 栾丽华,吉根林. 计算机工程. 2004(09)
[9]用遗传算法构造二元决策树[J]. 吴菲,黄梯云. 计算机研究与发展. 1999(11)
[10]决策树的优化算法[J]. 刘小虎,李生. 软件学报. 1998(10)
博士论文
[1]基于关联规则与决策树的预测方法研究及其应用[D]. 伊卫国.大连海事大学 2012
硕士论文
[1]改进决策树算法在肿瘤数据中的应用[D]. 刘子钰.东北师范大学 2015
[2]基于排序熵的有序决策树高效算法研究[D]. 陈建凯.河北大学 2014
[3]基于Weka平台的决策树算法研究与实现[D]. 吴烨.西安电子科技大学 2014
[4]基于蚁群优化的决策树算法研究与应用[D]. 张忠坤.北京邮电大学 2014
本文编号:3249175
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/3249175.html