数据挖掘中分类分析的策略研究及其生物医学应用
发布时间:2018-02-16 23:51
本文关键词: 分类 蒙特卡罗模拟 判别分析 logistic回归 决策树 神经网络 多重共线性 先验概率 出处:《南方医科大学》2008年博士论文 论文类型:学位论文
【摘要】: 背景数据挖掘是综合利用了统计学、数据库和人工智能技术,从海量数据中提取知识和信息的一门技术。据报导,在我国生物医学中仅有不足10%的数据用来分析。与此同时,在生物医学数据资源中数据挖掘方法学研究是相对匮乏和滞后的。当前,数据挖掘已成为一个具有迫切现实需要且很有前途的热点研究领域。随着生物医学数据量的急剧增涨及其数据的特殊性,需要加大数据挖掘的方法学研究。 在生物医学领域,分类方法应用非常广泛,可应用于影像学的图像分类处理;病理、检验、肿瘤等学科进行辅助诊断和识别;基因芯片、蛋白质芯片等微阵列数据分子生物学技术诊断;中医症侯特征分类;人寿保险;预测和自动控制等方面。因此,如何利用分类分析从大量数据中智能地、自动地提取出有价值的知识和信息的研究,具有十分重要的现实意义和广泛的应用前景。 目的应用Monte Carlo方法比较数据挖掘中分类分析的八种方法,探讨不同分类方法的特点及在特定数据条件下的优势与不足,据此提出数据挖掘中分类分析的策略,为数据挖掘的实际应用提供依据。 方法选择八种分类方法,即判别分析中的线性判别(Linner DiscriminantAnalysis,LDA)、二次判别(Quadratic Discriminant Analysis,QDA)、K-最近邻法(K-Nearest Neighbors,KNN):logistic回归;决策树中的CHAID(Chi-squareAutomatic Interaction Detector,CHAID)、C4.5、CART(Classification and RegressionTrees,CART)及BP神经网络(Back Propagation Neural Net-Work,BPNN)。采用Monte Carlo模拟研究对前述八种方法进行比较。所有模拟数据的目标变量设置为二分类,预测变量数目设置为3。考虑7个可能影响分类结果的因素,依次为:①预测变量的分布类型;②样本量大小;③组间协方差的比率;④组间样本量的比例;⑤两组间的效应量大小:⑥变量间的多重共线性;⑦先验概率。预测变量的分布类型考虑4种情况,即①多元正态分布;②多元偏态分布(本研究设置总体偏度系数f_1=2.0、峰度系数为γ_2=7.0);③混合型分布,即X_1为正态分布变量,X_2为偏态分布(总体偏度系数γ_1=2.0、峰度系数γ_2=7.0),X_3为二分类计数属性变量;④所有预测变量均为二分类计数属性变量。本研究中两组样本量之和分别设置为60、100和400。组间样本量比例设置为50∶50、25∶75与10∶90。组间协方差比率设置为1∶1、1∶4及1∶8。组间效应量大小设置为0.2、0.5及0.8。在模拟中对三个预测变量总体间的相关系数ρ均设置为0.3。对于多重共线性的探讨,设置X_1与X_2总体间的相关系数ρ分别为0.6、0.9,与X_3的相关关系不变。初步模拟时先验概率均设置为先验概率与样本量比例相等,而后设置组间先验概率相等(0.5∶0.5)以及先验概率为0.25∶0.75作为对比。方法间性能评估所用指标为总的错判率、灵敏度、特异度及ROC曲线下面积。对各种条件下数据模式进行2次随机抽样,一个样本作为训练集构造模型,另一个作为测试集验证模型。而后重复上述操作1000次,计算测试集数据错判率、ROC曲线下的面积、灵敏度及特异度的均值用以评价模型性能。 结果 1不同数据分布类型 ①多元正态分布,组间协方差相等时,LDA最优,其次为logistic回归,决策树法较差。相对而言,参数方法较之非参数方法要优。当数据为正态分布,组间协方差不等时,QDA最优,次之为非参数法,LDA与logistic回归较差。 ②多元偏态分布,组间协方差相等时,决策树及BP神经网络较优,LDA、QDA、logistic较差。偏态分布,组间协方差不等条件下,决策树法、KNN及QDA较优,LDA与logistic回归较差。 ③混合分布,组间协方差相等时,决策树及logistic回归较优,三种判别分析较差。组间协方差不等条件下,决策树法较优,LDA与logistic回归较差。 ④当数据为分类分布时,决策树与logistic回归较优,三种判别分析及BP神经网络较差。 2协方差对分类的影响组间协方差不等,对于参数方法影响较大,尤其是QDA及logistic分析。较大协方差组错判率大,较小协方差组错判率小,而且协方差比例越不均衡,这一趋势愈为明显。以正态分布为例,当协方差为1∶4时,两组错判率比值为1.14~2.30;在协方差为1∶8时,两组错判率比值为1.10~3.80,KNN、BP Neural表现更为明显。 3样本量及样本量比例对分类的影响当诸如数据分布类型、效应量、协方差不变时,随着样本量的增大,错判率减少,同时ROC曲线下面积增大。以正态分布协方差相等条件为例,样本量增大,错判率减小2%~11%,最为敏感的方法为BP神经网络,最不敏感的方法为KNN。样本量对分类效果的影响不如协方差影响大。 样本量比例的不均衡对错判率的影响较大,以先验概率相等,正态分布、协方差相等条件下模拟结果为例,样本量大组(larger)错判率低,样本量小组(smaller)错判率大。如样本量比例10∶90条件,larger组下降了10%~98%,smaller组增大了17%~83%。下降的幅度高于增大的幅度,即使总的错判率减小,是以牺牲灵敏度为代价。 4效应量对分类的影响当数据分布类型、组间协方差,样本量一定的条件下,效应量越大,错判率减少,同时ROC曲线下面积增大。以正态分布,等协方差,等样本量条件的模拟结果为例,各方法都有不同程度的改变,当效应量由0.2增大为0.8时,错判率减小了30%~55%。LDA及logistic回归尤为明显。效应量对错判率的影响较大。 5共线性的影响随着共线性程度的增强,错判率增大,ROC曲线下面积减小。相关系数由0.6增至为0.9时,错判率增加幅度并不大。以正态分布、等样本量比例及协方差比率为1:4条件为例,当相关系数由0.3增至0.9时,错判率增大了1.36%~9.44%。出现这样的结果,估计在条件设置时仅设置了X2、X3有较强相关性有关。 6先验概率的影响先验概率对错判率的影响很大,以正态分布为例,当样本量比例相等,先验概率为1:3,较大概率组错判率显著减小,降低为先验概率1:1条件的1.48~8.57倍。而较小概率组错判率增大,与先验概率1:1条件相比,增大为1.35~2.94倍。当先验概率设置为与样本量比例相等时,较之先验概率不等但样本量比例相等条件,又加剧了前述趋势。此条件下,较大概率组错判率降低为2.15~8.90倍,较小概率组错判率增大为1.59~2.95倍。显著降低了灵敏度。 7实证分析依模拟结果为理论指导,我们将分类方法应用于三个实际医学资料。其一,对心肌梗塞数据建立了二次判别分类模型。其二,联合应用logistic回归与BP神经网络对脂肪肝数据构建了分类模型。最后,又将CART法应用于糖尿病数据探索其影响因素并建立了分类模型。结果表明,各模型与数据吻合较好,可应用于医学实际。 结论在所研究的八种分类方法中,每种方法或多种方法的组合均在特定数据条件下体现出各自优势,因此可依据本研究的结果制定分析策略。首先,对数据进行预处理,即数据清洗、数据集成、数据变换和数据归约。第二,进行分类分析时关注数据的分布类型及其协方差的情况,而后进行方法的选择。当数据为多元正态分布,组间协方差相等时,可选择LDA及logistic回归。组间协方差不等时,可选择QDA。偏态分布,组间协方差相等时,可选择决策树及BP神经网络。组间协方差不等时,可选择决策树法、KNN和QDA。当数据为混合分布,组间协方差相等时,决策树及logistic较优,组间协方差不等时,决策树法较优。当数据为分类分布时,可选择决策树与logistic回归。
[Abstract]:......
【学位授予单位】:南方医科大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:R311
【引证文献】
相关博士学位论文 前1条
1 卢又燃;放射科随访数据库建立与粗糙集方法辅助诊断胶质瘤分级的应用分析[D];复旦大学;2009年
,本文编号:1516723
本文链接:https://www.wllwen.com/yixuelunwen/shiyanyixue/1516723.html
最近更新
教材专著