当前位置:主页 > 理工论文 > 系统学论文 >

面向缺失数据的变精度粗糙集决策树分类算法研究

发布时间:2020-05-25 14:09
【摘要】:数据挖掘技术在各个领域的广泛应用加快了人们探索大量数据背后隐藏信息的步伐。人们希望借助数据挖掘的方法对严重威胁人类健康的冠心病进行有效的研究,而决策树分类算法作为数据挖掘技术中的数据分析方法,高精度的分类准确率、直观的决策结果、较高的泛化能力使它成为研究冠心病的较理想方法。但是,由于缺失值以及噪声数据的存在,我们得到的分析结果并不能用于实际中的冠心病诊治工作。因此,本文针对缺失数据处理和决策树分类对噪声数据敏感的不足,提出了相应的改进办法。本文的主要研究内容主要分以下几个方面: (1)冠心病数据自身的特点决定了它的属性值多为离散类型的,而现存的KNN填充算法只适用于处理连续型属性并且未充分考虑缺失事例之间的联系。因此,本文提出了一种既可以处理离散和连续类型属性又能充分利用其他所有事例对该缺失事例的影响程度进行有针对性的填充。该方法使用灰色系统中的灰色关联分析理论选取与需要填充的数据事例最相似的K的事例,根据这K个事例携带信息量的大小使用加权平均的方法对缺失的数据值进行填充。最后用标准UCI数据集的对比实验说明本文提出的填充算法优于其他的算法。 (2)几乎所有的数据集都存在或多或少的噪声数据,冠心病数据集中的噪声数据对决策树分类的结果影响较大。为此,本文提出了一种基于尺度函数的变精度粗糙集属性选择标准,该标准同时考虑属性的加权近似精度和属性值个数,提高了对噪声数据的抗干扰能力,减弱了属性选择时的偏向性,提高了分类精度。同时在树的预剪枝过程中引入抑制因子阈值、支持度和置信度,简化了树结构。通过标准UCI数据集的对比实验说明本文提出的改进算法优于其他的决策树算法。 (3)将本文提出的填充算法和决策树改进算法以决策树模块的形式嵌入冠心病中医辅助诊疗系统中,实现对冠心病数据集的中医诊断证型的分类。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.13;N941.5

【参考文献】

相关期刊论文 前10条

1 王大玲,于戈,鲍玉斌,王国仁;一种基于关联性度量的决策树分类方法[J];东北大学学报;2001年05期

2 毕建东,杨挂芳;基于熵的决策树分枝合并算法[J];哈尔滨工业大学学报;1997年02期

3 洪雪飞;徐维祥;;基于变精度粗糙集的决策树改进方法[J];计算机工程与应用;2009年13期

4 赵蕊;李宏;;一种多值属性和多类标数据的决策树算法[J];计算机工程;2007年13期

5 王熙照;杨晨晓;;分支合并对决策树归纳学习的影响[J];计算机学报;2007年08期

6 洪家荣,丁明峰,,李星原,王丽薇;一种新的决策树归纳学习算法[J];计算机学报;1995年06期

7 孙亚男;宁士勇;鲁明羽;陆玉昌;;贝叶斯分类算法在冠心病中医临床证型诊断中的应用[J];计算机应用研究;2006年11期

8 李宏;陈松乔;赵蕊;郭跃健;;一种多值属性多类标数据决策树算法[J];模式识别与人工智能;2007年06期

9 王双成,苑森淼;具有丢失数据的贝叶斯网络结构学习研究[J];软件学报;2004年07期

10 苗夺谦,王珏;基于粗糙集的多变量决策树构造方法[J];软件学报;1997年06期

相关博士学位论文 前1条

1 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年



本文编号:2680268

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/xtxlw/2680268.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户17718***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com