基于梯度提升决策树的患者30天再入院预测模型研究

发布时间：2020-08-13 16:46

【摘要】：30天再入院率是指患者出院后30天内再入院的比率,能够反映出医院第一次运行的结果,是当前国际上广泛用来度量医疗服务质量的重要指标。然而,其在我国评估医疗服务质量的指标体系中的使用才刚刚开始。选用预测算法对患者是否再入院进行预测,能够为医院管理者提供决策支撑,从而可以使得再入院率得到有效降低。在提高医疗服务质量和降低治疗费用的同时,帮助医院更加有效合理的分配医疗资源。引起再入院的原因是多种多样的,仅基于临床专业知识来评估出院患者再次入院可能性比较困难。同时,对再入院进行预测评估目前的主流方法分为两种,一是采用传统的统计学方法,如线性回归、逻辑回归等;另一种是采用机器学习的方法,简化预测模型特征参数,利用支持向量机、朴素贝叶斯、决策树等方法进行再入院预测,可以有效解决传统方法的预测精度不足的问题。医疗信息系统中存储的再入院患者的数据样本存在不平衡现象,再入院患者数量在所有患者数量占少数,为典型的类别不平衡问题。传统的统计学方法和机器学习算法都是基于平衡数据进行分类预测,并不能较好的识别不平衡数据中的少类样本,从而不能获得较好的分类效果。为了提高对30天再入院的准确分类预测,本文构建一种基于梯度提升决策树算法的再入院预测模型。对医学不平衡数据的处理,提出了包括利用FCM算法进行不平衡数据的采样方法、基于梯度提升模型对数据进行特征提取、采用梯度提升决策树以及使用贝叶斯模型进行超参数的优化的方法策略,在UCI公共不平衡数据集上测试本文的算法在中高度不平衡数据集上的分类处理效果优于目前常见的采样方法,如下采样、SMOTE和综合采样策略;与目前常用的分类算法比较,本文的提出的BFCM-LGB算法比决策树、逻辑回归、朴素贝叶斯、SVM和随机森林的分类结果都要好;在两个公共再入院数据实验结果显示与常规算法比较,本文的算法在预测的精度和召回率上都显著具有优势。与目前现有的全因再入院和糖尿病再入院分类算法相比较,本文所提出的方法得到的结果都具有较高的预测精度。
【学位授予单位】：昆明理工大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：R197.3
【图文】：

再入院,指标体系

数类的样本由于其数据量较少，导致算法的分类结果偏向多数类的样本，从得该算法不能够有效的对少数类样本进行判断。为此，本文主要研究怎样通不平衡再入院数据进行处理的操作，从而使得算法可以对再入院患者的识别达到最优。.2 国内外的研究现状导致再入院的原因是多种多样的，目前大量研究发现年龄、种族、是否经行医疗健康检查、是否进行过手术、合并症类型、上次住院时间、上一年是入院、药物使用情况等多种因素对再入院都存在影响（图 1）[7]。因此，只医生的临床专业知识或者医院管理者的经验对再次入院风险进行评估，这都较有难度的。同时对再入院进行预测评估目前的主流方法分为两种，一是采统的统计学方法，如线性回归、逻辑回归等；另一种是选用机器学习的方化预测模型特征参数，利用 SVM、朴素贝叶斯、决策树和深度神经网络等进行再入院预测，可以有效解决传统方法的预测精度不足的问题[8]。

流程图,流程,再入院,超参数

昆明理工大学硕士学位论文④针对患者再入院预测研究中临床数据特征属性较多问题，本文采用梯度提升决策树算法对特征重要性进行排序，然后选择其中重要属性参与模型构建，降低模型的复杂度。同时，在模型的参数选择过程中，使用贝叶斯超参数优化模型，可以有效提高模型的泛化能力。

曲线,曲线,决策树算法,假阳性

图 2.1 ROC 曲线ROC（receiver operating characteristic, 受试者工作曲线）曲线[36]常用找出真阳性和避免假阳性之间的权衡。其图像如上图所示，其中图的横坐测假阳性数据的占比，而纵坐标则表示为预测真阳性的数据占比。因此曲线上的点则为不同假阳性与真阳性的比例表示。同时可以使用 ROC 曲面积来度量分类器的性能，因此 AUC 的值分布在 0.5 到 1.0 之间。2.2 决策树2.2.1 决策树算法决策树算法是目前普遍使用的分类算法，由于训练过程中需要预先学标签，因此该算法属于有监督学习。按照数据的属性使用树状结构来构建模型。于是，决策树模型常用来解决分类和回归问题。常见的决策树算CART、ID3 和 C4.5 等[37]。决策树算法又是一系列的 If-Then 语句，既可以用于回归问题，也可

【参考文献】