基于数据挖掘的分类预测模型研究
刘娟 福州大学
摘要:数据挖掘技术己经引起了信息产业界的广泛关注。分类预测是其中一个主要的研究方向,有着广泛的应用价值。对数据挖掘中的三种分类预测挖掘算法(C5.0、BP-人工神经网络和TAN贝叶斯网络)进行了研究和探讨,并通过一个实际例子对三种算法做了分析和比较,三种算法的精确度分别为87.26%、85.71%和88.7%。TAN贝叶斯网络的精确度和敏感性均最高,C5.0算法的特异性最好。
关键词:数据挖掘;分类预测;敏感性;特异性
1.引言
数据挖掘技术产生十几年来得到了较为广泛的应用,并取得了显著的经济及社会效益,但该技术在医学领域的应用目前处于起步阶段。电子病历(CPR)作为医院信息系统(HIS)的一个重要组成部分,它是将传统的纸质病历电子化,并超越纸质病历的管理模式, 提供查询、统计分析、信息交换等功能。随着电子病历数据库系统中病历数据量急剧增长,如何从海量的数据中发现有价值的信息或知识也已经成为目前电子病历系统研究的热点问题。因此积极探索数据挖掘技术在电子病历系统中的应用,具有重要的实用价值和广阔的发展前景。
本文采用分类算法,检测属性与胃癌早期预警相关的属性,构建较为适合的预测模型,探讨是否有助于提高胃癌早期预警或诊断的正确率及联合检测对胃癌辅助诊断的意义,以实现胃癌早期预警、诊断和分类的自动化,为高危人群的筛查和临床胃癌诊断提供有价值的参考资料。
2.方法
2.1 数据来源
本文的数据是通过在监控、流行病学和最终结果(SEER)网站上申请的1973-2009登记的确诊病例。SEER项目是美国国家癌症研究所监控研究项目的一部分,它将这些数据免费提供给以分析研究为目的的机构和实验室。
数据预处理几乎是数据挖掘过程中最重要的一步。SEER数据包含9个文本文件,每个文件代表某个具体解剖位点的癌症。
SEER的DIGOTHR.TXT包含308155条记录。由于本文只考虑胃癌的生存预测,因此需要对数据进行初步的筛选。由于较多属性适用范围是1988年以后,为了预测模型的准确性,选取1998-2002年的数据。
数据清理主要是清除掉与挖掘主题无关的属性和冗余属性、光滑噪声数据、填充空缺值和识别删除孤立点。本文原始数据中存在空缺值,数据格式不一致等现象,清除掉一些跟挖掘主题无关的属性,如“诊断年份”、“注册ID”等。
2.2.2数据集成
数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理,数据集成还可能产生数据重复等冗余问题。由于本文数据都来自SEER,数据集成这一部分的工作较少。
2.2.3数据变换
数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式。初始数据共有134个属性,本文属性选择的标准是信息增益率。
经过数据预处理以后得到的数据集包括9个变量(8个条件属性和1个决策属性)和1806条记录。决策变量是一个二元分类变量,0代表没有存活,1代表存活。预分类考虑三个变量: Survival Time Recode (STR), Vital Status Recode (VSR), and Cause of Death (COD),步骤如下:
1. 如果STR大于等于60个月并且VSR是1,则属于“survived”,标记为1
2. 如果STR小于60个月并且COD是21020,则属于“not survived”,标记为0
,。
2.3 运行环境
软硬件环境:AMD A6-3400M 1.40GHz 安装内存6.00GB 操作系统:Windows 7 旗舰版 建模环境:Clementine 12.0。
2.4 预测模型
本文使用了三种不容类型的分类模型:C5.0、BP人工神经网络和支持向量机。
2.5 评估模型精确度的方法
本文采用的模型评价参数是精确性、敏感性和特异性。
3.结果与分析
三种模型的精确性、敏感性和特异性结果如表1所示:
accuracy
sensitivity
specificity
C5.0
87.26
75.22
92.98
BP-人工神经网络
85.71
76.42
90.12
TAN贝叶斯网络
88.7
82.79
91.51
从上表可以看出,TAN贝叶斯网络的精确度最高,敏感性均最好,,C5.0算法的特异性最好,而BP-人工神经网络的精确度和特异性都是最差。整体而言,三种算法的特异性均比敏感性要好,这可能是由于样本数据分布不均匀导致的。
4.结论
本文运用实例对C5.0、BP-人工神经网络和TAN贝叶斯网络进行了比较研究,针对本文预测精度不高的不足,以后的工作将围绕一些新的并且更有前景的算法,如支持向量机和模糊集等,以进一步提高预测准确度。具体存活时间的预测也是今后的研究方向。
本文编号:16464
本文链接:https://www.wllwen.com/guanlilunwen/glzh/16464.html