脑卒中类型与复发的Logistic回归预测及SMOTE算法处理非平衡临床数据
发布时间:2018-02-02 17:11
本文关键词: 脑卒中 Logistic 回归分析 SMOTE 非平衡数据 出处:《河北医科大学》2014年硕士论文 论文类型:学位论文
【摘要】:目的:脑卒中是一种突然起病的脑血液循环障碍性疾病,居全世界主要死因的第二位,分为缺血性脑卒中和出血性脑卒中,两者的治疗方法大不相同,目前临床判断卒中类型最准确的方式是CT或MRI检查,但在未能进行影像检查的情况下,只能依据临床表现初步判断类型,较容易误诊。本研究拟通过已有的临床数据,构建脑卒中分型回归模型、脑卒中复发回归模型,用于临床辅助诊断及出院后的健康管理,并评价预测效果,希望能够为临床提供一种辅助诊断手段,提高诊断正确率。使用分类模型分类时需要有分布较平衡的数据才能获得良好效果,在多数类似的研究中,数据不平衡现象普遍存在,本研究引入了非平衡数据处理方法SMOTE(Synthetic Minority Over-sampling Technique)算法、随机复制法及欠抽样法,并对处理结果进行了比较。 方法:获取石家庄市某医院因脑卒中入院治疗244例患者的病例及出院后健康监测数据并整理,通过IBM SPSS进行Logistic回归分析,方法采用向前法,变量入选水准入=0.05,出=0.10,获得构建回归模型所需参数,获得Logistic回归方程。若数据中出现类别分布不平衡的现象,导致分类预测准确率或灵敏度较低,则使用数据平衡方法平衡数据,随机复制过抽样法及随机欠抽样法均使用SPSS中的随机抽样功能选择,SMOTE算法则使用使用R语言DmWR程序包中的SMOTE函数调用SMOTE算法平衡数据, 结果: 1获得了脑卒中分型的回归模型,其预测准确率较高。脑卒中分型回归模型CoxSnell R Square检验拟合优度为0.634,预测准确率为86.1%。 2得到了脑卒中复发预测的回归模型,其预测灵敏度较低。缺血性脑卒中复发回归模型CoxSnell R Square检验拟合优度为0.236,其灵敏度为28.6%。出血性脑卒中复发回归模型CoxSnell R Square检验拟合优度为0.272,其灵敏度为60%。 3得到了使用SMOTE算法、随机复制过抽样法及随机欠抽样法平衡数据后缺血性脑卒中复发回归模型的预测数据及ROC曲线。其中随机复制过抽样法处理获得的回归模型CoxSnell R Square检验拟合优度为0.473,灵敏度为85.7%;随机欠抽样法处理获得的回归模型CoxSnell RSquare检验拟合优度为0.576,灵敏度为85.7%;SMOTE算法处理获得的回归模型CoxSnell R Square检验拟合优度为0.488,灵敏度为89.3%。经卡方检验三种方法的灵敏度无显著差异。ROC曲线下面积中SMOTE算法大于随机过抽样法和随机欠抽样法。 结论: 1缺血性与出血性脑卒中类型可以使用Logistic回归进行辅助诊断,以提高诊断准确率。根据回归式可知血压的升高对发生出血性脑卒中有较大影响,而TIA史与出血性脑卒中呈负相关性,在脑卒中患者中,,经常运动的人患脑出血的可能性更高,有脑卒中家族史的患者患脑出血的概率较高。 2脑卒中患者的复发可以根据出院后对其健康检测的数据代入Logistic回归方程评估,若P0.5则归类为不复发,若P≥0.5则归类为复发。获得结果后可对被判断为复发组的人群进行强化健康管理。 3在研究非配对样本类别问题时,必须要重视不同类别样本的平衡性,若不同类别样本量不平衡,极易使得研究结果更倾向于样本量大的类别,产生偏倚。综合随机复制过抽样法、随机欠抽样法及SMOTE算法原理、预测灵敏度及ROC曲线,SMOTE算法即避免随机复制过抽样法产生的过度拟合,亦防止随机欠抽样法导致的信息缺失。SMOTE算法平衡数据优于使用随机复制法及随机欠抽样法。
[Abstract]:......
【学位授予单位】:河北医科大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:R743.3
【参考文献】
相关期刊论文 前3条
1 郭雷;肖怀铁;付强;;非均衡数据目标识别中SVM模型多参数优化选择方法[J];红外与毫米波学报;2009年02期
2 林舒杨;李翠华;江弋;林琛;邹权;;不平衡数据的降采样方法研究[J];计算机研究与发展;2011年S3期
3 程锦泉;刘建平;张仁利;庾蕾;聂绍发;;缺血性脑卒中影响因素的条件Logistic回归分析[J];热带医学杂志;2007年02期
本文编号:1485033
本文链接:https://www.wllwen.com/yixuelunwen/shenjingyixue/1485033.html
最近更新
教材专著