数据驱动的慢性疾病风险因素关联分析及再入院预测研究
发布时间:2021-06-09 16:06
随着大数据时代的来临,现如今,各行各业都离不开对数据的处理、分析,和发现新的学习模式。数据挖掘技术中包含的时间序列分析、关联分析,以及机器学习中分类、预测、聚类分析等方法也已经广泛应用到了现实生活中。慢性非传染性疾病对全球人类健康造成了巨大的影响以及严重的疾病负担,在中国,慢病已成为城乡居民的主导疾病。近年来,对慢病风险因素的研究也逐渐增多。本文针对高血压、糖尿病等27种慢病,有效利用了数据挖掘技术中的时间序列分析、聚类分析和关联规则挖掘技术、以及机器学习方法对慢病患者的住院医疗数据进行分析处理,为防治慢病提供科学依据。本文重点研究了大气污染对慢病患者的健康影响、慢病并发症的关联挖掘以及慢病住院患者的再入院风险预测,主要研究内容分为以下三个部分:(1)空气污染物与慢病的健康效应分析。利用广义相加模型(GAM),研究空气污染物对慢病患者的急性健康效应,并将年龄、性别以及季节等分层实验作为敏感性分析,确保了实验结果的稳定性。(2)基于聚类分析的慢病及其并发症的关联规则挖掘。本文结合聚类分析和关联规则挖掘技术进行了慢病并发症挖掘。首先利用三种聚类方法(k-mean++、平均连接法和离差平方和...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
非凸样本分布
第二章相关理论与技术介绍13表2-1事务集垂直转换事务集(转换前)事务集(转换后)TID1:{I1,I2,I3}I1:{TID1,TID3}TID2:{I2,I4}I2:{TID1,TID2}TID3:{I1,I3}I3:{TID1,TID3}I4:{TID2}其中I表示单个项,TID表示事务ID。将原先的数据集垂直格式转换后,支持度就可以通过每个项集中TID的长度来计算。此后频繁k项集求交集来构造频繁k+1项集。Eclat算法同样也是通过频繁k-1项集的并集产生候选k项集,通过这两个频繁k-1项集的交集可以快速计算出候选k项集的支持度。对比Apriori算法需要频繁扫描数据库导致的性能开销,Eclat算法仅需转换格式时的一次扫描,然而转换后的项集存储TID可能需要大量内存,求交集运算也大大增加了时间开销。2.3.3FP-growth算法FP-growth算法是基于Apriori算法的改进,由于后者在寻找频繁项集时需要多次扫描数据库,为提升效率,JiaweiHan等人于2000年提出了基于频繁模式树(FrequentPatternTree,FP-tree)的FP-growth算法,将整个事务集都压缩在一颗FP-tree树,并包含了完整的关联信息[26]。FP-growth算法的两个关键步骤在于建立FP-tree和从FP-tree树中挖掘出频繁项集,为方便理解,本文将举出具体的例子来详细介绍这两个步骤。建立FP-tree:如图2-2所示,首先对原始数据集进行一次扫描,将所有项按支持度大小进行降序排列然后进行第二次扫描,对项进行排序是为了在之后建立FP-tree时能尽可能多的共用节点。在删除不满足最小支持度阈值的项,得到频繁1项集,建立项头表。图2-2数据集排序以及项头表的建立
FP-tree的插入
【参考文献】:
期刊论文
[1]基于机器学习的再入院预测[J]. 汤培楷. 中国数字医学. 2016(07)
[2]全球慢性非传染病负担急剧增长及中国的现状(英文)[J]. 王友发,LIM Hyunjung,吴杨. 北京大学学报(医学版). 2012(05)
[3]慢性非传染性疾病流行现状与控制策略[J]. 李萍. 中国实用医药. 2012(14)
[4]关联规则挖掘的Apriori算法综述[J]. 赵洪英,蔡乐才,李先杰. 四川理工学院学报(自然科学版). 2011(01)
[5]计算机辅助医学知识发现系统研究——糖尿病并发症流行病学数据挖掘[J]. 余辉,张力新,刘文耀. 生物医学工程学杂志. 2008(02)
博士论文
[1]北京市主要大气污染物对居民死亡影响及其空间差异性分析[D]. 李雯婧.北京协和医学院 2016
硕士论文
[1]基于OpenEHR的糖尿病并发症挖掘研究与应用[D]. 赵剑东.浙江大学 2015
本文编号:3220892
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
非凸样本分布
第二章相关理论与技术介绍13表2-1事务集垂直转换事务集(转换前)事务集(转换后)TID1:{I1,I2,I3}I1:{TID1,TID3}TID2:{I2,I4}I2:{TID1,TID2}TID3:{I1,I3}I3:{TID1,TID3}I4:{TID2}其中I表示单个项,TID表示事务ID。将原先的数据集垂直格式转换后,支持度就可以通过每个项集中TID的长度来计算。此后频繁k项集求交集来构造频繁k+1项集。Eclat算法同样也是通过频繁k-1项集的并集产生候选k项集,通过这两个频繁k-1项集的交集可以快速计算出候选k项集的支持度。对比Apriori算法需要频繁扫描数据库导致的性能开销,Eclat算法仅需转换格式时的一次扫描,然而转换后的项集存储TID可能需要大量内存,求交集运算也大大增加了时间开销。2.3.3FP-growth算法FP-growth算法是基于Apriori算法的改进,由于后者在寻找频繁项集时需要多次扫描数据库,为提升效率,JiaweiHan等人于2000年提出了基于频繁模式树(FrequentPatternTree,FP-tree)的FP-growth算法,将整个事务集都压缩在一颗FP-tree树,并包含了完整的关联信息[26]。FP-growth算法的两个关键步骤在于建立FP-tree和从FP-tree树中挖掘出频繁项集,为方便理解,本文将举出具体的例子来详细介绍这两个步骤。建立FP-tree:如图2-2所示,首先对原始数据集进行一次扫描,将所有项按支持度大小进行降序排列然后进行第二次扫描,对项进行排序是为了在之后建立FP-tree时能尽可能多的共用节点。在删除不满足最小支持度阈值的项,得到频繁1项集,建立项头表。图2-2数据集排序以及项头表的建立
FP-tree的插入
【参考文献】:
期刊论文
[1]基于机器学习的再入院预测[J]. 汤培楷. 中国数字医学. 2016(07)
[2]全球慢性非传染病负担急剧增长及中国的现状(英文)[J]. 王友发,LIM Hyunjung,吴杨. 北京大学学报(医学版). 2012(05)
[3]慢性非传染性疾病流行现状与控制策略[J]. 李萍. 中国实用医药. 2012(14)
[4]关联规则挖掘的Apriori算法综述[J]. 赵洪英,蔡乐才,李先杰. 四川理工学院学报(自然科学版). 2011(01)
[5]计算机辅助医学知识发现系统研究——糖尿病并发症流行病学数据挖掘[J]. 余辉,张力新,刘文耀. 生物医学工程学杂志. 2008(02)
博士论文
[1]北京市主要大气污染物对居民死亡影响及其空间差异性分析[D]. 李雯婧.北京协和医学院 2016
硕士论文
[1]基于OpenEHR的糖尿病并发症挖掘研究与应用[D]. 赵剑东.浙江大学 2015
本文编号:3220892
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3220892.html
最近更新
教材专著