基于高维不平衡ICU数据的死亡率预测研究
发布时间:2020-05-06 13:29
【摘要】:重症监护室(the Intensive Care Unit,ICU)集中了医院最重要的资源,旨在为危重病人提供全面、可靠的救治。对ICU病人进行死亡率预测,有助于医生制定诊治计划,合理配置救治资源,进而降低ICU病房病人的死亡率和减少病患的医疗费用。然而,现有的死亡预测模型准确率不高,预测模型多有不足。由于ICU病房的特殊性,ICU数据存在高维,不平衡分布和数据缺失等问题,这些问题给数据的预处理带来很多困难。传统的机器学习预测模型多是从模型组合的角度考虑进行模型设计,较少针对数据特性设计处理方法;另外,对模型的设计中较少有参数优化的报道,而这是影响模型性能的重要因素。针对上述问题和研究不足,本文设计了一系列的分析方法和工具,重点关注了对高维、不平衡数据的预处理和参数的优化问题。本文提出了改进的代价敏感PCA(Modified Cost-Sensitive Principal Component Analysis,MCSPCA)算法,以改进代价敏感主成分分析方法(Cost-Sensitive Principal Component Analysis,CSPCA)的性能,在代价系数调整时采用不同的系数,最终选择使用正类系数C_i~=1,负类系数C_i~=N_+/N_-,通过这种正负类样本代价系数的调整再计算降维后的样本矩阵,在特征提取阶段即可实现对样本的高维、不平衡问题的改善;对参数优化问题,本文设计了混沌粒子群(Chaos Particle Swarm Optimization,CPSO)优化算法,从粒子混沌序列初始化和早熟收敛判断处理机制这两个角度考量提升算法的性能,并对混沌序列初始化和早熟收敛机制进行改进,以增加种群粒子在解空间分布的均匀性,提高种群陷入早熟收敛后的跳出能力。为了获得最佳的预测模型,本文研究考察了不同的预处理方法,参数寻优方法和不同的分类器,并在一个真实基准数据集(Physionet Challenge 2012数据集)中评估了它们的AUC性能。最后的测试结果表明,该算法改善了常见机器学习方法的性能。我们提出的MCSPCA+CPSO+SVM模型达到最佳的AUC性能值0.7718和最少的总运行时间814s,从而提高了ICU预测死亡率模型的预测效果。
【图文】:
的介绍本论文构建的预测模型,本章将要对死亡率预测建模绍,,包括死亡率建模的一般过程,主成分分析理论,粒子群理论,尤其对后三者将详细介绍其基本原理和实现分析,进改进提供理论基础。预测建模一般过程的构建涉及很多理论和技术。同一般机器学习模型构建过程型构建步骤如下[34]:数据获取,数据预处理,特征提取,参评价。首先 ICU 病房各种监测设备,如心电监护仪等,持续而得到的数据具有复杂的性质,需要进行预处理。预处理方值剔除和归一化等。预处理后再进行特征提取,常用的特征PCA 降维等。特征提取后相较处理前,特征的复杂度大为降数优化,最常使用的寻优算法包含网格寻优(Grid Search)算法传(GA)算法等。将超参数应用于分类器的预测中,构成完整
第 2 章 模型构建的基本理论还有图像处理,数据压缩和数据可视化等[42]。面解释下 PCA 的几何意义。下图所示(图 2-2),有 n 个数据点,大致以椭圆形分布在以 x1,x2 为轴的坐这 n 个数据点沿 x1,x2 均有较大的离散性,若以 x1,x2 方向数据点值代表 n息,则会存在较大的信息损失。对数据描述稍作处理,将坐标轴按逆时针角度,得到坐标系 y1Oy2,此时可以发现数据点沿 y1 离散度最大,离散的用方差表述,即方差最大,比较而言在 y2 上方差最小,若此时用 n 个数据方向上的值表示原始数据,则能在最大程度上减少信息损失。因此,PCA 的是:对原始数据所在的正交系统做旋转,找到在新的正交系统下原始数据差的表示。
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18;R195
本文编号:2651343
【图文】:
的介绍本论文构建的预测模型,本章将要对死亡率预测建模绍,,包括死亡率建模的一般过程,主成分分析理论,粒子群理论,尤其对后三者将详细介绍其基本原理和实现分析,进改进提供理论基础。预测建模一般过程的构建涉及很多理论和技术。同一般机器学习模型构建过程型构建步骤如下[34]:数据获取,数据预处理,特征提取,参评价。首先 ICU 病房各种监测设备,如心电监护仪等,持续而得到的数据具有复杂的性质,需要进行预处理。预处理方值剔除和归一化等。预处理后再进行特征提取,常用的特征PCA 降维等。特征提取后相较处理前,特征的复杂度大为降数优化,最常使用的寻优算法包含网格寻优(Grid Search)算法传(GA)算法等。将超参数应用于分类器的预测中,构成完整
第 2 章 模型构建的基本理论还有图像处理,数据压缩和数据可视化等[42]。面解释下 PCA 的几何意义。下图所示(图 2-2),有 n 个数据点,大致以椭圆形分布在以 x1,x2 为轴的坐这 n 个数据点沿 x1,x2 均有较大的离散性,若以 x1,x2 方向数据点值代表 n息,则会存在较大的信息损失。对数据描述稍作处理,将坐标轴按逆时针角度,得到坐标系 y1Oy2,此时可以发现数据点沿 y1 离散度最大,离散的用方差表述,即方差最大,比较而言在 y2 上方差最小,若此时用 n 个数据方向上的值表示原始数据,则能在最大程度上减少信息损失。因此,PCA 的是:对原始数据所在的正交系统做旋转,找到在新的正交系统下原始数据差的表示。
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18;R195
【参考文献】
相关期刊论文 前5条
1 董琳琳;姜丽杰;刘莹;刘铁红;邱兵;张研;;两种评分方法预测ICU急性脑卒中患者死亡率准确性分析[J];中国急救医学;2016年06期
2 张义强;李永生;王平;;探讨APACHE Ⅱ评分对预测ICU急危重患者预后的价值[J];新疆医学;2014年10期
3 周燕;刘培玉;赵静;王乾龙;;基于自适应惯性权重的混沌粒子群算法[J];山东大学学报(理学版);2012年03期
4 朱海梅;吴永萍;;一种高速收敛粒子群优化算法[J];控制与决策;2010年01期
5 吴曙华,刘励军,沈斌,余世全,徐信发,华晨,邱菁华,徐波;SAPSⅡ评分系统在综合性ICU中的应用价值[J];苏州大学学报(医学版);2003年02期
本文编号:2651343
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2651343.html