基于电子病历数据的疾病预测模型构建研究
本文选题:数据挖掘 切入点:知识发现 出处:《吉林大学》2017年硕士论文 论文类型:学位论文
【摘要】:目的:本研究从医学信息学的视角出发,以搭建疾病预测模型构建策略为目的,探究海量异构的电子病历数据中隐性知识到显性知识的发现途径。同时,进行糖尿病视网膜病变预测模型构建的实证研究,论证理论策略的科学性、合理性、可操作性、可拓展性,并为疾病的预防、诊断、控制、治疗提供决策支持。方法:首先通过文献调研综述国内外该领域的研究现状,再以知识发现、信息链、决策支持理论为指导,探究疾病预测模型构建策略。然后,利用国家科技资源平台之一的人口健康分平台,提供的糖尿病患者的诊疗数据集进行实证研究。在实证研究过程中,数据预处理过程分析处理缺失数据,采用分层均值填补法,对目标数据集中的缺失数据进行先分层再填补;数据降维阶段,利用主成分分析法提取特征根大于1的因子、累计贡献率大于85%的因子及logistic回归方法提取差异有显著性的因子分别进行降维,选取特征向量;预测模型构建阶段,首先平衡数据集并确定基线精度,以决策树算法构建预测模型,以logistic回归算法、支持向量机、朴素贝叶斯、径向基函数神经网络算法构建对照实验模型。最后,根据查准率、召回率、正确率、F值、ROC曲线下面积、Kappa值综合评价所构建预测模型的效果。结果:⑴在知识发现、信息链、决策支持理论的指导下,从数据集成与清洗、数据填补与降维、模型构建与评价等环节出发,制定了基于医疗大数据的疾病预测模型构建策略;⑵缺失数据填补阶段,制定了缺失数据填补方法,先将目标数据按不同性别、不同年龄段是否患病划分为多个子集,通过X2检验后得到目标数据集在不同性别及不同年龄段上是否患病的差异具有显著性。因此,将数据集按照性别、年龄段、是否患病进行分层,再利用分层均值填补法进行填补;⑶数据降维阶段,用同种方法分析三种降维数据集和未降维原始数据集,经方差分析发现四种结果差异具有显著性,且第一种降维方法得到的模型准确率更高,预测效果更好;⑷预测模型构建及评价阶段,经SMOTE方法对分类不平衡的未降维数据进行平衡,并确定预测模型基线精度为71.9166%。以第一种降维方法处理后的数据集为研究对象,利用决策树算法构建预测模型,得到模型的真阳性率(TP)为0.975、假阳性率(FP)为0.045、查准率(Precision)为0.974、召回率(Recall)为0.975、F值(F-Measure)为0.974、ROC曲线下面积(ROC Area)为0.975,一致性检验(Kappa)值为0.936;⑸对照试验模型评价阶段,选择logistic回归、支持向量机、朴素贝叶斯、径向基函数神经网络构建对照试验模型,经方差分析得到对照实验模型结果与决策树算法结果具有显著性差异,再经组间两两多重比较,得到决策树算法效果更好。结论:⑴理论研究中,制定了疾病预测模型构建策略,该策略构建了有效的数据填补方案,选择出最优的数据降维方法,能灵活高效的指导海量异构电子病历数据挖掘的过程,具体环节包括:数据集成与整合、清洗与规范化、缺失值处理、数据筛选与降维、数据平衡、模型构建与评价等过程。⑵实证研究结果契合理论策略的流程和原理,预测模型经一系列指标评价及对照试验模型的验证,得到了效果最优的预测模型。证明基于电子病历数据的疾病预测模型构建策略科学、合理、有效,该策略能够为医学信息知识发现、整合利用、决策支持提供参考。
[Abstract]:......
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;R197.3
【参考文献】
相关期刊论文 前10条
1 石珂;张悦之;谢琳;游志鹏;周悦;汪昌运;;负性调节葡萄糖转运对糖尿病小鼠视网膜微血管病变的抑制作用[J];第二军医大学学报;2015年02期
2 王兴木;尤巧英;;Ang-2/Tie、VEGF与2型糖尿病视网膜病变关系的研究[J];中华全科医学;2014年09期
3 张建丽;;醛糖还原酶基因启动子区C(-106)T多态性与2型糖尿病视网膜病变的相关性研究[J];山东医学高等专科学校学报;2014年04期
4 王冲;王艳丽;蔡安季;任亚琳;;MMP-9与糖尿病视网膜病变患者血清中果糖胺的关联性[J];国际眼科杂志;2014年05期
5 黄琼刁;邓万溪;黄钦展;林明欣;;糖尿病主要并发症年龄与体质之相关性研究[J];世界中医药;2013年03期
6 吕佳;蔡春友;魏凤江;张红;林静娜;韩鸿玲;陈莉明;李卫东;;TOX和SMAD3基因多态性与中国汉族人群2型糖尿病患者微血管病变的易感性相关[J];天津医科大学学报;2013年01期
7 张媛媛;张日华;杜新丽;薛一;黄琼;刘梦兰;刘云;;血清尿酸水平与糖尿病各代谢因子的相关性研究[J];南京医科大学学报(自然科学版);2013年01期
8 王庭俊;王中心;严孙杰;陈纯娴;;不同性别2型糖尿病患者血脂、血压与骨质疏松的关系[J];中华高血压杂志;2012年12期
9 杨维娜;王璇;蓝茜;李s,
本文编号:1570727
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1570727.html