数据挖掘中分类分析的策略研究及其生物医学应用

发布时间：2018-02-16 23:51

本文关键词： 分类蒙特卡罗模拟判别分析 logistic回归决策树神经网络多重共线性先验概率　出处：《南方医科大学》2008年博士论文　论文类型：学位论文

【摘要】： 背景数据挖掘是综合利用了统计学、数据库和人工智能技术,从海量数据中提取知识和信息的一门技术。据报导,在我国生物医学中仅有不足10%的数据用来分析。与此同时,在生物医学数据资源中数据挖掘方法学研究是相对匮乏和滞后的。当前,数据挖掘已成为一个具有迫切现实需要且很有前途的热点研究领域。随着生物医学数据量的急剧增涨及其数据的特殊性,需要加大数据挖掘的方法学研究。在生物医学领域,分类方法应用非常广泛,可应用于影像学的图像分类处理;病理、检验、肿瘤等学科进行辅助诊断和识别;基因芯片、蛋白质芯片等微阵列数据分子生物学技术诊断;中医症侯特征分类;人寿保险;预测和自动控制等方面。因此,如何利用分类分析从大量数据中智能地、自动地提取出有价值的知识和信息的研究,具有十分重要的现实意义和广泛的应用前景。目的应用Monte Carlo方法比较数据挖掘中分类分析的八种方法,探讨不同分类方法的特点及在特定数据条件下的优势与不足,据此提出数据挖掘中分类分析的策略,为数据挖掘的实际应用提供依据。方法选择八种分类方法,即判别分析中的线性判别(Linner DiscriminantAnalysis,LDA)、二次判别(Quadratic Discriminant Analysis,QDA)、K-最近邻法(K-Nearest Neighbors,KNN):logistic回归;决策树中的CHAID(Chi-squareAutomatic Interaction Detector,CHAID)、C4.5、CART(Classification and RegressionTrees,CART)及BP神经网络(Back Propagation Neural Net-Work,BPNN)。采用Monte Carlo模拟研究对前述八种方法进行比较。所有模拟数据的目标变量设置为二分类,预测变量数目设置为3。考虑7个可能影响分类结果的因素,依次为:①预测变量的分布类型;②样本量大小;③组间协方差的比率;④组间样本量的比例;⑤两组间的效应量大小:⑥变量间的多重共线性;⑦先验概率。预测变量的分布类型考虑4种情况,即①多元正态分布;②多元偏态分布(本研究设置总体偏度系数f_1=2.0、峰度系数为γ_2=7.0);③混合型分布,即X_1为正态分布变量,X_2为偏态分布(总体偏度系数γ_1=2.0、峰度系数γ_2=7.0),X_3为二分类计数属性变量;④所有预测变量均为二分类计数属性变量。本研究中两组样本量之和分别设置为60、100和400。组间样本量比例设置为50∶50、25∶75与10∶90。组间协方差比率设置为1∶1、1∶4及1∶8。组间效应量大小设置为0.2、0.5及0.8。在模拟中对三个预测变量总体间的相关系数ρ均设置为0.3。对于多重共线性的探讨,设置X_1与X_2总体间的相关系数ρ分别为0.6、0.9,与X_3的相关关系不变。初步模拟时先验概率均设置为先验概率与样本量比例相等,而后设置组间先验概率相等(0.5∶0.5)以及先验概率为0.25∶0.75作为对比。方法间性能评估所用指标为总的错判率、灵敏度、特异度及ROC曲线下面积。对各种条件下数据模式进行2次随机抽样,一个样本作为训练集构造模型,另一个作为测试集验证模型。而后重复上述操作1000次,计算测试集数据错判率、ROC曲线下的面积、灵敏度及特异度的均值用以评价模型性能。结果 1不同数据分布类型 ①多元正态分布,组间协方差相等时,LDA最优,其次为logistic回归,决策树法较差。相对而言,参数方法较之非参数方法要优。当数据为正态分布,组间协方差不等时,QDA最优,次之为非参数法,LDA与logistic回归较差。 ②多元偏态分布,组间协方差相等时,决策树及BP神经网络较优,LDA、QDA、logistic较差。偏态分布,组间协方差不等条件下,决策树法、KNN及QDA较优,LDA与logistic回归较差。 ③混合分布,组间协方差相等时,决策树及logistic回归较优,三种判别分析较差。组间协方差不等条件下,决策树法较优,LDA与logistic回归较差。 ④当数据为分类分布时,决策树与logistic回归较优,三种判别分析及BP神经网络较差。 2协方差对分类的影响组间协方差不等,对于参数方法影响较大,尤其是QDA及logistic分析。较大协方差组错判率大,较小协方差组错判率小,而且协方差比例越不均衡,这一趋势愈为明显。以正态分布为例,当协方差为1∶4时,两组错判率比值为1.14～2.30;在协方差为1∶8时,两组错判率比值为1.10～3.80,KNN、BP Neural表现更为明显。 3样本量及样本量比例对分类的影响当诸如数据分布类型、效应量、协方差不变时,随着样本量的增大,错判率减少,同时ROC曲线下面积增大。以正态分布协方差相等条件为例,样本量增大,错判率减小2%～11%,最为敏感的方法为BP神经网络,最不敏感的方法为KNN。样本量对分类效果的影响不如协方差影响大。样本量比例的不均衡对错判率的影响较大,以先验概率相等,正态分布、协方差相等条件下模拟结果为例,样本量大组(larger)错判率低,样本量小组(smaller)错判率大。如样本量比例10∶90条件,larger组下降了10%～98%,smaller组增大了17%～83%。下降的幅度高于增大的幅度,即使总的错判率减小,是以牺牲灵敏度为代价。 4效应量对分类的影响当数据分布类型、组间协方差,样本量一定的条件下,效应量越大,错判率减少,同时ROC曲线下面积增大。以正态分布,等协方差,等样本量条件的模拟结果为例,各方法都有不同程度的改变,当效应量由0.2增大为0.8时,错判率减小了30%～55%。LDA及logistic回归尤为明显。效应量对错判率的影响较大。 5共线性的影响随着共线性程度的增强,错判率增大,ROC曲线下面积减小。相关系数由0.6增至为0.9时,错判率增加幅度并不大。以正态分布、等样本量比例及协方差比率为1:4条件为例,当相关系数由0.3增至0.9时,错判率增大了1.36%～9.44%。出现这样的结果,估计在条件设置时仅设置了X2、X3有较强相关性有关。 6先验概率的影响先验概率对错判率的影响很大,以正态分布为例,当样本量比例相等,先验概率为1:3,较大概率组错判率显著减小,降低为先验概率1:1条件的1.48～8.57倍。而较小概率组错判率增大,与先验概率1:1条件相比,增大为1.35～2.94倍。当先验概率设置为与样本量比例相等时,较之先验概率不等但样本量比例相等条件,又加剧了前述趋势。此条件下,较大概率组错判率降低为2.15～8.90倍,较小概率组错判率增大为1.59～2.95倍。显著降低了灵敏度。 7实证分析依模拟结果为理论指导,我们将分类方法应用于三个实际医学资料。其一,对心肌梗塞数据建立了二次判别分类模型。其二,联合应用logistic回归与BP神经网络对脂肪肝数据构建了分类模型。最后,又将CART法应用于糖尿病数据探索其影响因素并建立了分类模型。结果表明,各模型与数据吻合较好,可应用于医学实际。结论在所研究的八种分类方法中,每种方法或多种方法的组合均在特定数据条件下体现出各自优势,因此可依据本研究的结果制定分析策略。首先,对数据进行预处理,即数据清洗、数据集成、数据变换和数据归约。第二,进行分类分析时关注数据的分布类型及其协方差的情况,而后进行方法的选择。当数据为多元正态分布,组间协方差相等时,可选择LDA及logistic回归。组间协方差不等时,可选择QDA。偏态分布,组间协方差相等时,可选择决策树及BP神经网络。组间协方差不等时,可选择决策树法、KNN和QDA。当数据为混合分布,组间协方差相等时,决策树及logistic较优,组间协方差不等时,决策树法较优。当数据为分类分布时,可选择决策树与logistic回归。
[Abstract]:......
【学位授予单位】：南方医科大学
【学位级别】：博士
【学位授予年份】：2008
【分类号】：R311

【引证文献】