基于随机森林的肝硬化上消化道出血风险预测
本文选题:随机森林 + 决策树 ; 参考:《山西医科大学》2017年硕士论文
【摘要】:目的:基于肝硬化患者的临床病历数据,构建肝硬化患者上消化道出血的随机森林预测模型。通过随机森林模型实现对肝硬化患者并发上消化道出血发病与否及发病概率预测,识别出将会发生上消化道出血的肝硬化患者,把握疾病发展动态。从而可以通过避免接触上消化道出血诱因,以及尽早的干预与预防性治疗等措施,降低肝硬化上消化道出血的发生率及致死率。方法:通过回顾性收集山西医科大学第一临床医院消化内科2006年1月~2015年12月期间出院的肝硬化患者病历中的基本信息、既往疾病史、并发症、入院临床表现及体征、入院血常规、血生化、相关抗原、凝血功能检查等资料。利用卡方检验及T检验筛选出与并发上消化道出血有关联的变量,并经临床专家结合临床实际剔除为上消化道出血的表现的变量。将数据集按3:1:1比例随机分成训练数据集、验证数据集和测试数据集三部分。以筛选出的自变量为输入,是否并发上消化道出血为输出,在训练数据集中分别建立logistic回归、决策树和随机森林预测模型,验证数据集用于决策树和随机森林模型模型性能提升时各不同参数设置模型的预测性能比较,最终在测试数据集中评价三种最终模型预测的准确度、灵敏度、特异度、阳性预测值、阴性预测值和AUC指标并进行比较。结果:通过筛选,最终用于建模的变量为:Child-Pugh分级、恶心、腹胀、浮肿、腹水、移动性浊音、上消化道出血病史、脾切手术史、总蛋白、白蛋白、总胆红素、碱性磷酸酶、谷氨酰转肽酶、血糖、胆固醇、尿素氮、血清钾、凝血酶原百分活动度、活化部分凝血活酶时间、癌胚抗原和CA19-9抗原,共21个。logistic回归预测模型在测试数据集中预测结果为:准确度81.50%、灵敏度60.00%、特异度89.20%、阳性预测值66.70%、阴性预测值86.10%、AUC值0.854。决策树模型通过验证数据集的验证,最佳参数设置为:采用信息熵(information)为分裂属性选择度量标准,后剪枝处理复杂度参数CP为0.026,损失矩阵(loss)设置为C(0,3,1,0)。决策树模型在测试数据集中预测结果为:准确度75.10%、灵敏度78.00%、特异度74.10%、阳性预测值52.00%、阴性预测值90.40%、AUC值0.720。随机森林模型通过验证数据集的验证,最佳参数设置为:模型包含树的棵数(ntree)为500,随机选择的特征数(mtry)为4。随机森林模型在测试数据集中预测结果为:准确度88.90%、灵敏度64.00%、特异度97.80%、阳性预测值91.40%、阴性预测值88.30%、AUC值0.909。通过比较各项指标以及ROC曲线图,随机森林模型具有最佳的肝硬化上消化道出血预测性能。结论:随机森林模型在肝硬化上消化道出血预测中性能优于决策树和传统logistic回归模型。可以利用肝硬化患者的既往疾病史、并发症、入院临床表现及体征、入院血常规、血生化、相关抗原和凝血功能检查这些简单常规检查信息,实现对肝硬化患者并发上消化道出血的是否发病及发病概率预测。可为进一步干预与预防性治疗提供依据。
[Abstract]:Objective : To establish a random forest prediction model of upper gastrointestinal hemorrhage in patients with liver cirrhosis based on clinical medical records data of patients with liver cirrhosis . The results were as follows : accuracy 75.10 % , sensitivity 60.00 % , specificity 89.20 % , positive predictive value 66.70 % , negative predictive value 88.30 % , AUC value 0 .
【学位授予单位】:山西医科大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R575.2;R573.2
【参考文献】
相关期刊论文 前10条
1 王平;单文英;;改进的随机森林算法在乳腺肿瘤诊断中的应用[J];计算机应用与软件;2016年04期
2 宗慧;赵椺;;应用机器学习算法构建心梗患者风险预测模型[J];中国数字医学;2016年04期
3 曹文哲;应俊;陈广飞;周丹;;基于Logistic回归和随机森林算法的2型糖尿病并发视网膜病变风险预测及对比研究[J];中国医疗设备;2016年03期
4 黄载伟;陈丽萍;肖冰;;功能性消化不良临床数据库的建立[J];南方医科大学学报;2015年06期
5 刘永春;宋弘;;基于随机森林的乳腺肿瘤诊断研究[J];电视技术;2014年15期
6 艾敏;陈伟婵;沈薇;;2002例肝硬化患者的病因及并发症分析[J];临床肝胆病杂志;2013年05期
7 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期
8 洪燕珠;周昌乐;张志枫;许家佗;;基于随机森林法的慢性疲劳证候要素特征症状的选择[J];中医杂志;2010年07期
9 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
10 谢益辉;;基于R软件rpart包的分类与回归树应用[J];统计与信息论坛;2007年05期
相关博士学位论文 前3条
1 钱云;非均衡数据分类算法若干应用研究[D];吉林大学;2014年
2 李长平;Logistic回归、决策树和神经网络在预测2型糖尿病并发末梢神经病变中的性能比较[D];中国人民解放军军事医学科学院;2009年
3 于洋;肝癌中医临床信息数据库系统的构建及应用[D];第二军医大学;2009年
相关硕士学位论文 前4条
1 祖晓玲;随机森林算法预测医院患者院内感染的应用研究[D];燕山大学;2016年
2 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
3 程晓兰;决策树分类算法及其应用[D];大连交通大学;2008年
4 王黎明;决策树学习及其剪枝算法研究[D];武汉理工大学;2007年
,本文编号:1861041
本文链接:https://www.wllwen.com/yixuelunwen/xiaohjib/1861041.html