当前位置:主页 > 医学论文 > 传染病论文 >

机器学习模型在晚期血吸虫病预后预测中的应用研究

发布时间:2020-09-17 18:58
   目的1、开展湖北省晚期血吸虫病人现状调查,为掌握全省晚期血吸虫病分布和救治现状提供基线资料,为提高全省晚期血吸虫病人救治管理水平提供参考依据。2、以第一部分的调查数据为样本,基于机器学习模型分别对全省晚期血吸虫病人的预后转归进行预测,并用AUC、灵敏度和特异度指标对不同机器学习模型的预测效能进行比较研究。3、以孝南区晚期血吸虫病人为例,分别研究肝纤维化四项指标、B型超声检查和肝功能指标与晚期血吸虫病预后的关系。方法1、调查表由湖北省血防所统一设计,各疫区县(市、区)血防专业机构按调查表对辖区内在册晚期血吸虫病患者统一开展流行病学调查,按照相应病例纳入和排除标准进行筛选,共纳入4136名符合条件的晚期血吸虫病病人。收集患者实验室检查、临床和流行病学调查资料,并调查患者救治转归和治疗费用情况。2、以上述资料为样本,根据转归结局分为预后良好和预后不良两组。预后不良(死亡或病情恶化)被编码为1,预后良好(治愈或好转)被编码为0。晚期血吸虫病患者死亡主要是由于血吸虫病和血吸虫引起的并发症引起的,例如肝癌、肝昏迷、肝肾综合征和上消化道出血。因此,本研究中的死亡是指全因死亡。恶化指主要症状持续存在(例如无腹水消减征象或脾肿大型患者无手术指征)。将70%患者随机分配到训练组(2896人),30%患者分配到测试集(1240人),kNN、SVM、ANN、DT、LR、NBN、TAN、GBN、RF和GBDT模型都是在R3.4.3(R Core Team R,2016)软件中实现。kNN模型计算欧式距离,SVM模型采用核函数将低维数据映射到高维平面,ANN模型采用标准前馈式反向传播(BP)网络结构,DT模型基于C4.5算法,3种贝叶斯网络结构加入了先验知识,RF和GBDT模型均集成5000棵决策树进行预测。对于所有的比较,用双侧检验,P0.05被认为是统计学差异的。模型预测效能采用ROC曲线下面积(AUC)、准确度、灵敏度、特异度等指标综合比较。3、第六部分以孝南区血防专科医院2015年收治的104例确诊晚期血吸虫病人资料作为研究对象,按照预后转归不同分为两组,预后良好组和预后不良组,分别探讨肝纤维化四项指标、B型超声检查指标和肝功能指标与晚期血吸虫病人预后的关系。结果1、患者主要分布在荆州,黄石、孝感等地,以腹水型和巨脾型为主。一般人口学特征中,腹水型和巨脾型两组患者间的年龄、性别、BMI、发育状况和营养状况的差异有统计学意义。通过对既往病史、症状体征、实验室检查、B超和X线检查的研究发现,老年组和青壮年组在多项指标中具有差异。临床救治方面,脾切除、腹水史、救治手段、治疗费用和治疗转归在腹水型、巨脾型两组间的差异有统计学意义。2、对kNN、SVM模型的研究发现,kNN模型和SVM模型在晚期血吸虫病人预后预测中的性能都比较理想(AUC0.75),灵敏度,kNN模型优于SVM模型;特异度,SVM模型优于kNN模型。研究还发现,在不同参数条件下,随着k取值的降低,模型的性能逐渐提升。对ANN、决策树和LR模型的研究发现,每个预测模型都被证明是有效的并且有其自身的优势,但ANN模型在AUC和灵敏度方面优于LR和DT模型。3种贝叶斯网络模型的预测效果都较为理想,晚期血吸虫病患者预后预测研究更适合采用NBN(AUC=0.724)和TAN(AUC=0.737),因为这两种模型的AUC高于GBN(AUC=0.658)。而在NBN和TAN两种模型中,虽然AUC接近,但是由于TAN考虑了自变量间的相互关系,可能更符合人们日常认知,解释性更强。对于集成学习模型,随机森林和梯度提升决策树(参数n.tree=5000)都取得了不错的效果(AUC0.75)。在训练集中,RF模型预测性能的主要指标(AUC、灵敏度和特异度)均优于GBDT和DT模型;RF模型的AUC在测试集中优于GBDT和DT模型,三个模型的灵敏度和特异度接近。值得注意的是,GBDT的预测性能指标并没有优于DT模型。这可能与模型的参数调整有关,也可能与数据集本身的特征有关,这一部分还探讨了调参过程对模型预测性能的影响。预后预测模型的选择,应在性能进行比较后,结合具体医学问题的实际需要,再加以选择。3、肝纤维化四项指标中,透明质酸(HA)和层黏蛋白(LN)可作为预后指标。B超结果显示,腹水可作为判断晚期血吸虫病患者预后的关键临床指标。肝功能指标中,AST/ALT可以作为判断晚期血吸虫病人预后的指标。结论1、对晚期血吸虫病患者开展流行病学调查,对了解晚期血吸虫病分布现状,提升晚期血吸虫病救治管理水平,以及制定科学合理的防治策略提供了基线资料和依据,具有重要意义。2、本研究中kNN、SVM等9种机器学习模型预测晚期血吸虫病的预后,都取得了良好的预测效果。在数据资料不满足特定分布的情况下,参数模型(如LR模型)和半参数模型(如Cox比例风险模型)不适用,本研究提供了新的思路,有助于不同方法之间结果的对比。kNN、SVM和ANN模型数据比传统预后预测模型要求低,DT模型显示了清晰的变量筛选过程,容易理解,3种BN模型在分析诸多自变量之间的交互作用时,可解释性最好。集成学习模型克服了单棵决策树泛化能力不足的缺点。而且机器学习模型容易调整参数,能生成预测效能更好的模型。3、肝纤维化四项指标中的透明质酸(HA)、层黏蛋白(LN),B超检查的腹水,以及肝功能检查的AST/ALT指标,可作为晚期血吸虫病临床预后指标。
【学位单位】:华中科技大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP391.41;R532.21
【部分图文】:

患者,侏儒,临床分型,巨脾


图 1 患者地区分布本次调查中,患者主要为腹水型(3482 人)和巨脾型(637 人),侏儒型和结肠增殖型患者罕见,共 17 人。见图 2。图 2 不同临床分型的病人数

临床分型,病人,人口学特征,人口特征


19图 2 不同临床分型的病人数人口学特征 1 可见,人口特征中性别(χ2=4.615,P=0.032)、年龄(χ2=52.3 BMI(χ2=7.991,P =0.046)、发育(χ2=11.997,P =0.001)和营养状

示意图,模型,示意图,机器学习


和病情死亡的情况。预后不良事件(死亡或病情病情好转)被编码为 0。死亡主要是由血吸虫病和癌,肝昏迷和上消化道出血,本研究中死亡指的续存在(如无腹水消减征象或脾肿大型患者无手N)模型 世纪 60 年代 Cover 和 Hart 提出的,是机器学习应用于文本分类、图像识别、字符识别等领域。中 k 个样本中,大多属于一类,而一个样本与这 类。与机器学习中急切学习(Eager learning)对earning), 即 kNN 模型可以没有学习过程,或者说度较高的特点,新样本与数据集中每个数据之间据个数成正比,所以 kNN 模型理论上更适用于kNN 模型分类的结果可能差别很大。见图 1。

【参考文献】

相关期刊论文 前10条

1 雷正龙;张利娟;徐志敏;党辉;许静;吕山;曹淳力;李石柱;周晓农;;2014年全国血吸虫病疫情通报[J];中国血吸虫病防治杂志;2015年06期

2 廖红保;;220例腹水型晚期血吸虫病患者临床路径救治效果[J];中国血吸虫病防治杂志;2015年03期

3 黄先龙;王方红;张建凯;;晚期血吸虫病门脉高压症术后门静脉血栓形成的危险因素分析[J];中国血吸虫病防治杂志;2015年02期

4 钟森林;田学根;陈德银;盛荣;刘承海;;临床路径在腹水型晚期血吸虫病患者中的应用效果评价[J];热带病与寄生虫学;2014年03期

5 周晓蓉;杨军晶;陈莉;刘建兵;;晚期血吸虫病腹水型临床路径的制定与初步应用[J];公共卫生与预防医学;2014年03期

6 朱峰;;拉米夫定联合吡喹酮对血吸虫病小鼠肝功能的影响[J];海南医学院学报;2014年10期

7 刘敏;;B超诊断晚期血吸虫病肝腹水的临床研究[J];当代医学;2013年33期

8 Cláudia Camila Dias;Pedro Pereira Rodrigues;Altamiro da Costa Pereira;Fernando Magro;;Clinical prognostic factors for disabling Crohn's disease: A systematic review and meta-analysis[J];World Journal of Gastroenterology;2013年24期

9 杜华;;晚期血吸虫病与HBV感染的关系[J];中国血吸虫病防治杂志;2013年01期

10 周晓蓉;龚新国;黄水生;杨军晶;王静;;湖北省2004-2011年晚期血吸虫病患者救治动态分析[J];公共卫生与预防医学;2012年05期

相关博士学位论文 前2条

1 陈艳艳;湖北省血吸虫病空间流行特征及预测分析[D];华中科技大学;2014年

2 甘秀敏;血吸虫病流行的评估与预测预警研究[D];华中科技大学;2011年



本文编号:2821100

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/chuanranbingxuelunwen/2821100.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4240e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com