基于代价矩阵的C5.0优化算法及在医院客户关系管理中的应用
发布时间:2017-05-26 13:09
本文关键词:基于代价矩阵的C5.0优化算法及在医院客户关系管理中的应用,由笔耕文化传播整理发布。
【摘要】:客户关系管理作为一个全新的理念,在国内的电力、营销等行业都有了一定的应用发展,但在医疗行业的应用发展还是非常少的,随着医疗体制改革的深入发展,医疗行业的客户关系管理正在成为一个热门课题。在数据挖掘的分类应用中,决策树算法是最为广泛的一种分类算法,具有算法简单高效、分类精准度高的特点,所以本次医院患者分类优先选取了决策树的C5.0算法,并且针对患者分类模型引入了代价矩阵的实现了C5.0算法的优化,从而建立误判代价较小的患者分类模型。 本文首先对决策树分类算法进行了分析,深入研究了基于代价矩阵的决策树C5.0算法优化及其在医院患者分类中的应用,并且根据医院患者分类的实际应用情况,对数据挖掘模型的代价矩阵、剪枝程度和Boosting算法进行了分析研究。在代价矩阵的优化分析中引入了高代价错误误判代价值COST(高)、一般代价错误误判代价值COST(中)、低代价错误误判代价值COST(低),并且分析了误判代价取值的判定条件,最终对比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度优化分析中分析了剪枝程度选取的两个参考值:决策树模型的复杂程度和分类准确率,通过实验对比分析两个参考值得到剪枝程度的最优值。在Boosting算法的优化分析中针对算法的迭代次数和过度拟合问题进行分析,通过测试样本的对比发现了过度拟合的问题,所以在本次建模中不能使用Boosting迭代算法。在此基础之上,对医院的住院客户进行数据取样、预处理和建模数据抽取,使用决策树C5.0算法建立了住院患者分类模型,并且用测试数据对模型进行测试分析。与此同时,将该模型应用于医院客户关系管理系统中的住院患者分类模块中,实现了医院CRM系统中的资料管理模块,能够对新入院的住院患者进行价值分类。 本论文的创新点在于研究分析了全新的决策树C5.0算法,在预测分类中将误判代价考虑在内,给出了误判代价值的取值条件,建立了代价矩阵指导建模,并且实现了在模型整体错误率变化不大的情况下做到预测分类错误代价最小。在Boosting算法分析中发现了Boosting迭代算法会导致建模数据过度拟合的问题。 本次建立的患者分类模型虽然具有风险度低、稳定性好等优点,但是模型在建模数据和测试数据中的分类错误率较高,分别是8.29%和8.17%,所以分类的精确度还可以进一步提高。
【关键词】:决策树 客户关系管理 C5.0算法 误判成本 代价矩阵
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
【目录】:
- 摘要3-5
- Abstract5-9
- 第一章 绪论9-15
- 1.1 选题背景和意义9-10
- 1.2 课题的研究价值10
- 1.3 CRM在国内外的发展现状10-12
- 1.4 论文主要内容12-13
- 1.5 论文组织结构13-15
- 第二章 数据挖掘与决策树技术及在医院CRM中的发展应用15-43
- 2.1 数据挖掘技术概述15-25
- 2.1.1 数据挖掘的基本概念15-16
- 2.1.2 数据挖掘的研究内容16-18
- 2.1.3 数据挖掘的常用技术18-20
- 2.1.4 数据挖掘过程20-25
- 2.2 决策树技术25-35
- 2.2.1 决策树简介25-27
- 2.2.2 决策树C5.0算法27-31
- 2.2.3 决策树的剪枝31-35
- 2.3 决策树在医院CRM中的发展应用35-43
- 2.3.1 医院客户关系管理35-37
- 2.3.2 医院客户关系管理的意义37-38
- 2.3.3 决策树技术在医院CRM中的应用优势38-40
- 2.3.4 决策树技术在医院CRM中的应用方式40-43
- 第三章 C5.0算法在医院患者分类中的应用43-71
- 3.1 数据采集43-47
- 3.1.1 数据源的选择43-46
- 3.1.2 数据取样46-47
- 3.2 数据预处理47-51
- 3.2.1 处理数据噪声47-48
- 3.2.2 处理冗余数据48-49
- 3.2.3 数据变换49-51
- 3.3 建模开发51-54
- 3.4 模型优化54-66
- 3.4.1 代价矩阵的设定54-56
- 3.4.2 选定剪枝程度56-57
- 3.4.3 Boosting算法应用分析57-66
- 3.4.4 模型分析66
- 3.5 住院患者分类模型应用66-70
- 3.6 住院患者划分模型的改进70-71
- 结论71-73
- 参考文献73-76
- 致谢76-77
- 攻读学位期间发表的学术论文77
【参考文献】
中国期刊全文数据库 前10条
1 刘建华;从数据中挖掘知识[J];福建师范大学学报(自然科学版);2001年04期
2 栾丽华,吉根林;决策树分类技术研究[J];计算机工程;2004年09期
3 柳林;涂光平;杨峰;;基于决策树的数据挖掘方法在CRM中的应用研究[J];计算技术与自动化;2006年01期
4 韩慧,毛锋,王文渊;数据挖掘中决策树算法的最新进展[J];计算机应用研究;2004年12期
5 赵凯;;模糊决策树算法在邮件分类中的应用[J];科技通报;2012年06期
6 刘红岩,陈剑,陈国青;数据挖掘中的数据分类算法综述[J];清华大学学报(自然科学版);2002年06期
7 刘小虎,李生;决策树的优化算法[J];软件学报;1998年10期
8 杨明,张载鸿;决策树学习算法ID3的研究[J];微机发展;2002年05期
9 罗海蛟,刘显;数据挖掘中分类算法的研究及其应用[J];微机发展;2003年S2期
10 卢云燕;;数据挖掘技术[J];重庆教育学院学报;2006年03期
本文关键词:基于代价矩阵的C5.0优化算法及在医院客户关系管理中的应用,,由笔耕文化传播整理发布。
本文编号:396925
本文链接:https://www.wllwen.com/guanlilunwen/kehuguanxiguanli/396925.html