当前位置:主页 > 管理论文 > 客户关系论文 >

基于误判成本的决策树C5.0算法的优化分析

发布时间:2017-08-08 09:24

  本文关键词:基于误判成本的决策树C5.0算法的优化分析


  更多相关文章: 决策树 C5.0算法 误判成本 成本矩阵


【摘要】:在数据挖掘的分类应用中,决策树算法是最为广泛的一种分类算法,具有算法简单高效、分类精准度高的特点,但是在建立分类模型的过程中将所有的误判分类平等对待,导致不同成本值的错误分类没有在建模过程中区别对待,使得模型错误分类的总成本值较高。针对以上问题,本文引入了成本矩阵的概念,通过分析不同类型的误判成本值,组成相应的成本矩阵,并且在医院患者分类的数据挖掘过程中实现了C5.0算法的优化,从而建立误判成本较小的患者预测分类模型,通过实验也验证了成本矩阵可以有效的降低预测分类模型的误判成本。本文首先对决策树分类算法进行了分析,深入研究了基于成本矩阵的决策树C5.0算法优化及其在医院患者分类中的应用,并且根据医院患者分类的实际应用情况,对数据挖掘模型的成本矩阵、剪枝程度和Boosting算法进行了分析研究。在成本矩阵的优化分析中引入了高成本错误误判成本值COST(高)、一般成本错误误判成本值COST(中)、低成本错误误判成本值COST(低),并且分析了误判成本取值的判定条件,最终对比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度优化分析中分析了剪枝程度选取的两个参考值:决策树模型的复杂程度和分类准确率,通过实验对比分析两个参考值得到剪枝程度的最优值。在Boosting算法的优化分析中针对算法的迭代次数和过度拟合问题进行分析,通过测试样本的对比发现了过度拟合的问题,所以在本次建模中不能使用Boosting迭代算法。在此基础之上,对医院的住院客户进行数据取样、预处理和建模数据抽取,使用决策树C5.0算法建立了住院患者预测分类模型,并且用测试数据对模型进行测试分析。与此同时,将该模型应用于医院客户关系管理系统中的住院患者分类模块中,实现了医院CRM系统中的资料管理模块,能够对新入院的住院患者进行价值分类。本论文的创新点在于研究分析了全新的决策树C5.0算法,在预测分类中将误判成本考虑在内,给出了误判成本值的取值条件,建立了成本矩阵指导建模,并且实现了在模型整体错误率变化不大的情况下做到预测分类错误成本最小。在Boosting算法分析中发现了Boosting迭代算法会导致建模数据过度拟合的问题。本次建立的患者预测分类模型虽然具有风险度低、稳定性好等优点,但是模型在建模数据和测试数据中的分类错误率较高,分别是8.29%和8.17%,所以分类的精确度还可以进一步提高。
【关键词】:决策树 C5.0算法 误判成本 成本矩阵
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
【目录】:
  • 中文摘要8-10
  • ABSTRACT10-12
  • 第一章 绪论12-17
  • 1.1 选题背景和意义12-13
  • 1.2 国内外的发展现状13-14
  • 1.3 论文主要内容14-15
  • 1.4 论文组织结构15-17
  • 第二章 数据挖掘与决策树技术17-34
  • 2.1 数据挖掘技术概述17-23
  • 2.1.1 数据挖掘的基本概念17
  • 2.1.2 数据挖掘的研究内容17-18
  • 2.1.3 数据挖掘的常用技术18-20
  • 2.1.4 数据挖掘过程20-23
  • 2.2 决策树技术23-34
  • 2.2.1 决策树简介23-26
  • 2.2.2 决策树C5.0算法26-30
  • 2.2.3 决策树的剪枝30-34
  • 第三章 C5.0算法的优化分析34-60
  • 3.1 数据采集34-37
  • 3.1.1 数据源的选择34-37
  • 3.1.2 数据取样37
  • 3.2 数据预处理37-41
  • 3.2.1 处理数据噪声38-39
  • 3.2.2 处理冗余数据39
  • 3.2.3 数据变换39-41
  • 3.3 建模开发41-44
  • 3.4 决策树C5.0算法优化44-56
  • 3.4.1 成本矩阵的设定44-46
  • 3.4.2 选定剪枝程度46-47
  • 3.4.3 Boosting算法应用分析47-55
  • 3.4.4 模型分析55-56
  • 3.5 住院患者预测分类模型应用56-58
  • 3.6 住院患者划分模型的改进58
  • 3.7 决策树C5.0算法优化分析58-60
  • 结论60-61
  • 参考文献61-64
  • 攻读学位期间取得的研究成果64-65
  • 致谢65-66
  • 个人简况及联系方式66-67
  • 承诺书67-68

【参考文献】

中国期刊全文数据库 前1条

1 蹇明,黄定轩,武振业;无决策属性的多属性决策权重融合方法[J];西南交通大学学报;2005年02期

中国硕士学位论文全文数据库 前1条

1 胡自力;基于数理统计的锻模设计准则挖掘[D];湖南大学;2008年



本文编号:639266

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/kehuguanxiguanli/639266.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b317a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com