基于梯度提升决策树的患者30天再入院预测模型研究
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R197.3
【图文】:
数类的样本由于其数据量较少,导致算法的分类结果偏向多数类的样本,从得该算法不能够有效的对少数类样本进行判断。为此,本文主要研究怎样通不平衡再入院数据进行处理的操作,从而使得算法可以对再入院患者的识别达到最优。.2 国内外的研究现状导致再入院的原因是多种多样的,目前大量研究发现年龄、种族、是否经行医疗健康检查、是否进行过手术、合并症类型、上次住院时间、上一年是入院、药物使用情况等多种因素对再入院都存在影响(图 1)[7]。因此,只医生的临床专业知识或者医院管理者的经验对再次入院风险进行评估,这都较有难度的。同时对再入院进行预测评估目前的主流方法分为两种,一是采统的统计学方法,如线性回归、逻辑回归等;另一种是选用机器学习的方化预测模型特征参数,利用 SVM、朴素贝叶斯、决策树和深度神经网络等进行再入院预测,可以有效解决传统方法的预测精度不足的问题[8]。
昆明理工大学硕士学位论文④针对患者再入院预测研究中临床数据特征属性较多问题,本文采用梯度提升决策树算法对特征重要性进行排序,然后选择其中重要属性参与模型构建,降低模型的复杂度。同时,在模型的参数选择过程中,使用贝叶斯超参数优化模型,可以有效提高模型的泛化能力。
图 2.1 ROC 曲线ROC(receiver operating characteristic, 受试者工作曲线)曲线[36]常用找出真阳性和避免假阳性之间的权衡。其图像如上图所示,其中图的横坐测假阳性数据的占比,而纵坐标则表示为预测真阳性的数据占比。因此曲线上的点则为不同假阳性与真阳性的比例表示。同时可以使用 ROC 曲面积来度量分类器的性能,因此 AUC 的值分布在 0.5 到 1.0 之间。2.2 决策树2.2.1 决策树算法决策树算法是目前普遍使用的分类算法,由于训练过程中需要预先学标签,因此该算法属于有监督学习。按照数据的属性使用树状结构来构建模型。于是,决策树模型常用来解决分类和回归问题。常见的决策树算CART、ID3 和 C4.5 等[37]。决策树算法又是一系列的 If-Then 语句,既可以用于回归问题,也可
【参考文献】
相关期刊论文 前10条
1 赵荣珍;王雪冬;邓林峰;;基于PCA-KLFDA的小样本故障数据集降维方法[J];华中科技大学学报(自然科学版);2015年12期
2 赵永彬;陈硕;刘明;曹鹏;;基于置信度代价敏感的支持向量机不均衡数据学习[J];计算机工程;2015年10期
3 朱亚奇;邓维斌;;一种基于不平衡数据的聚类抽样方法[J];南京大学学报(自然科学);2015年02期
4 郑燕;王杨;郝青峰;甘振韬;;用于不平衡数据分类的代价敏感超网络算法[J];计算机应用;2014年05期
5 王超学;张涛;马春森;;面向不平衡数据集的改进型SMOTE算法[J];计算机科学与探索;2014年06期
6 胡小生;张润晶;钟勇;;两层聚类的类别不平衡数据挖掘算法[J];计算机科学;2013年11期
7 楼晓俊;孙雨轩;刘海涛;;聚类边界过采样不平衡数据分类方法[J];浙江大学学报(工学版);2013年06期
8 张永;李卓然;刘小丹;;基于主动学习SMOTE的非均衡数据分类[J];计算机应用与软件;2012年03期
9 蒋盛益;苗邦;余雯;;基于一趟聚类的不平衡数据下抽样算法[J];小型微型计算机系统;2012年02期
10 蒋盛益;谢照青;余雯;;基于代价敏感的朴素贝叶斯不平衡数据分类研究[J];计算机研究与发展;2011年S1期
相关硕士学位论文 前3条
1 闫欣;综合过采样和欠采样的不平衡数据集的学习研究[D];东北电力大学;2016年
2 朱春燕;心血管疾病患者再次入院风险评估系统的设计与实现[D];浙江大学;2016年
3 韩晓敏;基于LGC算法的代价敏感分类方法研究[D];大连理工大学;2015年
本文编号:2792255
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2792255.html