【摘要】:目的:肝性脑病是肝硬化最常见的并发症之一,临床表现复杂多变、治愈率低、预后差,已成为导致肝硬化患者生存率低的重要原因,因此针对肝硬化患者构建肝性脑病风险预测模型显得极为重要。同时,肝硬化并发肝性脑病数据具有类别非均衡的特征,传统统计学方法与机器学习算法存在着无法有效识别少数类,预测性能欠佳的问题。因此,本课题针对上述问题,采用基于代价敏感的随机森林与支持向量机算法构建肝硬化并发肝性脑病风险预测模型,以提高对肝硬化并发肝性脑病的预测效能,为临床医生识别肝性脑病高危人群,选择合理的治疗措施提供依据,为其他疾病风险预测研究提供方法学借鉴。方法:采用2010年1月至2017年4月山西医科大学第二附属医院消化内科确诊为肝硬化住院患者的病历资料,按照纳入排除标准整理数据资料后获得1256例有效数据。利用单因素分析及基于随机森林的受试者工作特征曲线下面积算法(The area under the receiver operating characteristic curve of the random forest,AUC-RF)的自变量筛选方法选出与肝硬化并发肝性脑病相关的因素。然后以筛选出的变量作为输入变量,是否并发肝性脑病作为结局变量,构建Logistic回归、加权随机森林(Weighted Random Forest,WRF)和基于代价敏感的支持向量机(Cost Sensitive Support Vector Machine,CS-SVM)分类预测模型,探讨其分类预测性能,同时与传统随机森林、支持向量机分类预测模型的识别能力进行比较。最后,采用Logistic回归与WRF算法实现对肝硬化患者并发肝性脑病的概率预测。结果:1、通过单因素检验与基于AUC-RF自变量筛选方法,筛选出与肝硬化并发肝性脑病相关的20个变量,分别为:便秘、浮肿、电解质紊乱、上消化道出血、感染、利尿剂、白细胞、红细胞、血红蛋白、中性粒细胞百分比、谷草转氨酶、钠、氯、白蛋白、总蛋白、直接胆红素、间接胆红素、凝血酶原时间、纤维蛋白原和活化部分凝血活酶时间。将其作为输入变量引入到Logistic回归、WRF和CS-SVM算法,构建出肝硬化并发肝性脑病风险预测模型。2、分类模型预测性能评价:Logistic回归分类预测模型评价指标的中位数分别为:灵敏度70.00%,特异度83.38%,准确度82.54%,G-means 0.7679,F-measure 0.3688,AUC值0.7721;WRF的分类预测模型评价指标中位数分别为:灵敏度70.00%,特异度85.82%,准确度84.69%,G-means 0.7739,F-measure 0.3930,AUC值0.7778;CS-SVM分类预测模型评价指标中位数分别为:灵敏度71.66%,特异度82.99%,准确度82.06%,G-means 0.7657,F-measure 0.3560,AUC值0.7688。3、分类模型预测性能比较:在同一数据集上构建上述三种模型及传统随机森林、支持向量机分类预测模型,比较各指标显示:WRF、CS-SVM与Logistic回归模型对并发肝性脑病患者的识别能力高于传统机器学习模型(灵敏度高于70.00%),对未并发肝性脑病患者的识别能力略低于传统模型(特异度约为85.00%),模型综合评价指标高于其他模型(G-means高于0.8000,F-measure高于0.4000)。WRF的三个指标Gmeans(0.8221)、F-measure(0.4646)以及AUC(0.8241)均优于Logistic回归与CS-SVM模型。4、概率预测模型:WRF不仅可用于构建肝硬化并发肝性脑病分类预测模型,同时也可较好地预测患者发病概率。结论:基于代价敏感的随机森林与支持向量机算法可以弥补传统机器学习在非均衡数据分类问题中的不足,提高模型对于此类数据的分类预测性能。在进行肝硬化并发肝性脑病分类预测时,基于代价敏感的随机森林与支持向量机算法的预测性能高于其他模型,而且加权随机森林可提供患者的发病概率,使得肝性脑病发生概率的估计更为直观与高效。本文采用WRF与CS-SVM建立的分类与概率预测模型可帮助临床医生识别肝性脑病高危患者,对延长肝性脑病患者的生存期,提高其生存质量具有重要的现实意义。
【学位授予单位】:山西医科大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R575.2;R575.3
【图文】: 图2-1支持向量与间隔式中被称为“间隔”(margin),SVM的目标是寻找具有“最大间隔”的划分
软间隔示意图
随机森林模型中自变量重要性对比
【参考文献】
相关期刊论文 前10条
1 金宇;周可新;高吉喜;穆少杰;张小华;;基于随机森林模型的国家重点保护陆生脊椎动物物种优先保护区的识别[J];生态学报;2016年23期
2 曹文哲;应俊;陈广飞;周丹;;基于Logistic回归和随机森林算法的2型糖尿病并发视网膜病变风险预测及对比研究[J];中国医疗设备;2016年03期
3 弓孟春;陆亮;;医学大数据研究进展及应用前景[J];医学信息学杂志;2016年02期
4 Ji-Yao Wang;Ning-Ping Zhang;Bao-Rong Chi;Yu-Qing Mi;Li-Na Meng;Ying-Di Liu;Jiang-Bin Wang;Hai-Xing Jiang;Jin-Hui Yang;Yun Xu;Xiao Li;Jian-Ming Xu;Guo Zhang;Xin-Min Zhou;Yu-Zheng Zhuge;De-An Tian;Jin Ye;Yu-Lan Liu;;Prevalence of minimal hepatic encephalopathy and quality of life evaluations in hospitalized cirrhotic patients in China[J];World Journal of Gastroenterology;2013年30期
5 高宪超;陈一铭;俞志维;季彤;;基于数据挖掘技术的老年口腔癌患者围术期并发症发生概率评估系统的建立[J];中国口腔颌面外科杂志;2013年02期
6 陶新民;郝思媛;张冬雪;徐鹏;;不均衡数据分类算法的综述[J];重庆邮电大学学报(自然科学版);2013年01期
7 谷琼;袁磊;宁彬;吴钊;华丽;李文新;;一种基于混合重取样策略的非均衡数据集分类算法[J];计算机工程与科学;2012年10期
8 吴耿;李杰;杨文保;;基于代价敏感决策树的网络流量分类研究[J];电脑与信息技术;2011年05期
9 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
10 涂传涛;张顺财;;肝性脑病的诊断方法及其研究进展[J];实用肝脏病杂志;2009年02期
相关博士学位论文 前1条
1 钱云;非均衡数据分类算法若干应用研究[D];吉林大学;2014年
相关硕士学位论文 前4条
1 逄凯;三种机器学习方法在冠心病筛查中的比较研究[D];吉林大学;2016年
2 黄衍;基于随机森林的制造业上市公司财务预警模型研究[D];华东交通大学;2013年
3 姚睿;基于代价敏感Boosting算法的医学影像分析方法研究[D];上海交通大学;2011年
4 尹建杰;Logistic回归模型分析综述及应用研究[D];黑龙江大学;2011年
本文编号:
2754849
本文链接:https://www.wllwen.com/yixuelunwen/jjyx/2754849.html