关联规则在社区居民慢性病患病率分析中的应用
本文关键词:关联规则在社区居民慢性病患病率分析中的应用
更多相关文章: 慢性病 患病率 关联规则 数据挖掘 二分类logistic回归分析
【摘要】:目的:慢性非传染性疾病(简称慢性病)已逐渐成为影响我国乃至世界居民健康的危险因素之一。其具有病程长且无法治愈的特点,一些慢性病常常相互伴随发生,许多患者患有一种以上的慢性病,慢性病间存在广泛的相关性。 目前国内研究不同慢性病间相关性(关联性)的方法多集中在二分类logistic回归分析,虽然已经获得了大量科学可靠的分析结果,而在使用二分类logistic回归进行数据分析时,常常会忽略这种方法的限制条件,即因变量与自变量间需满足广义线性关系,否则会影响模型的拟合效果。而近期关联规则数据挖掘方法已逐渐应用于医学数据资料的分析,其中也包括慢性病之间的关联性研究。本研究分别使用关联规则的数据挖掘方法和二分类logistic回归分析方法研究某些慢性病之间的关联性及关联强度。并对两种方法的结果进行比对,评价关联规则数据挖掘方法应用于慢性病间关联性分析的价值。 方法:于2011年在大连市,采用分层整群随机抽样的方法选取符合纳入标准的本市常住居民作为研究对象。抽样步骤为,首先采用简单随机抽样的方法在全市11个行政区(市、县)中各抽取2个街道或乡镇,再从抽中的街道或乡镇中各抽取2个社区,共获得44个社区,然后在每个社区中随机抽取120名居民作为研究对象对其进行问卷调查,共发放问卷5020份,有效份数4858份,有效应答率为96.77%。 采用大连市居民慢性病及危险因素调查问卷收集调查对象的一般人口学信息及已患慢性病的情况(已被县级及以上医院诊断为患有某种慢性病,不包括新检出的),其中所调查的慢性病包括:高血压、糖尿病、高血脂、肥胖、肾脏疾病、脂肪肝等肝脏疾病、眼、视网膜疾病、内分泌紊乱、痛风及骨关节病和呼吸睡眠综合症,共10种。 采用EXCEL2003软件对数据进行双份录入,对数据进行核对及逻辑纠错后建立数据库。采用SPSS13.0和SPSS Clementine12.0统计分析软件对数据进行统计分析。 采用相对数对调查对象的一般人口学特征及慢性病的分布情况进行描述;采用logistic回归分析,分别以10种慢性病的其中一种为因变量,其他疾病为自变量分析慢性病间的关系。采用SPSS Clementine12.0数据挖掘软件对所建立的慢性病数据集进行分析,应用软件中提供的Apriori modeling算法得出各个慢性病间关联规则及其强度,通过在软件中设定最低条件支持度、最小规则置信度与最大前项三个指标的最小值,得出强关联规则,再通过所得的置信度、规则支持度和提升比进一步筛选并评价关联规则。 结果:在4858名受调人群中,患病率排在前3位的疾病分别为高血压(16.51%)、高血脂(11.20%)、痛风及骨关节病(10.44%),其中至少患1种慢性病的率为40.7%(1968/4830),2种为21.7%(1048/4830),3种为12.3%(594/4830)。关联规则分析的结果为,在筛选出的10条强关联中,按置信度大小排在前3位的分别为高血脂→高血压,置信度为50.184%、规则支持度为5.620%、提升比为3.040;糖尿病→高血压,,置信度为48.805%、规则支持度为2.940%、提升比为2.956;脂肪肝等肝脏疾病→高血脂,置信度为40.979%、规则支持度为2.758%、提升比为3.659。二分类logistic回归分析的结果显示,所研究的10种慢性病之间存在比较广泛的相关性,与关联规则数据挖掘方法的结果基本一致,其中以高血压为因变量,发现高血脂和糖尿病均为其危险因素,OR(95%CI)值分别为4.401(3.558~5.443)和3.057(2.314~4.039),而脂肪肝等肝脏疾病为高血脂的危险因素,其OR(95%CI)值为3.709(2.784~4.941)。 结论:(1)本研究对象慢性病患病率较高。(2)二分类logistic回归分析和关联规则数据挖掘方法的结果均提示,慢性病间存在广泛的相关性,高血压、糖尿病和高血脂不仅三者之间存在较强的关联性,而且与其他疾病也存在广泛的关联,提示在患有这三种疾病的情况下应注意与之相关联的疾病的筛查和预防。(3)关联规则数据挖掘方法的结果与二分类logistic回归分析的结果无论是在相关性筛选还是在评价关联强度的指标上均具有较高的一致性,建议在对慢性病间相关性进行研究时,关联规则数据挖掘方法和二分类logistic回归分析方法应结合使用。
【关键词】:慢性病 患病率 关联规则 数据挖掘 二分类logistic回归分析
【学位授予单位】:大连医科大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:R181.3
【目录】:
- 摘要7-9
- Abstract9-12
- 前言12-13
- 材料与方法13-15
- 1. 研究对象13
- 2. 研究方法和内容13-15
- 3. 统计学分析15
- 结果15-24
- 1. 一般情况15
- 2. 慢性病患病情况15-16
- 3. 慢性病共患病情况16
- 4. 慢性病间关联性的分析结果16-23
- 5. 慢性病间关联性的关联规则分析结果23-24
- 讨论24-30
- 参考文献30-33
- 综述33-45
- 参考文献41-45
- 附录45-52
- 攻读学位期间发表论文情况52-53
- 致谢53-54
【参考文献】
中国期刊全文数据库 前10条
1 胡瑞娟;李岩芳;何昀;;基于关联规则算法的医疗数据挖掘[J];长春理工大学学报(自然科学版);2009年02期
2 许娅;;最简有效关联规则及其挖掘算法[J];电脑与信息技术;2009年05期
3 史文丽;高霞;魏守刚;;河北省唐县离退休干部营养及慢性病行为危险因素调查[J];疾病监测;2011年12期
4 傅传喜;马文军;梁建华;王大虎;王声ng;;高血压危险因素logistic回归与分类树分析[J];疾病控制杂志;2006年03期
5 马莉;时景璞;邹飒枫;郭金龙;王颖;潘心;段春梅;吴晓梅;张文良;;海岛居民高血压危险因素的配对病例对照研究[J];中华疾病控制杂志;2011年12期
6 张云洋;袁源;;关联规则挖掘研究[J];计算机时代;2009年07期
7 张开金;姜丽;邱晓艳;李存艳;;南京市中老年慢性病病人直接疾病经济负担研究[J];江苏预防医学;2009年02期
8 吴穗苹;;高血压与糖尿病关系的社区流行病学研究[J];临床和实验医学杂志;2006年03期
9 段鲲;武建虎;贺佳;;关联规则在小样本临床资料中的应用[J];深圳中西医结合杂志;2007年02期
10 姚应水;金岳龙;安洲;卜英余;孙凌;金海丽;;城市社区30~70岁居民血脂异常影响因素的非条件Logistic回归分析[J];皖南医学院学报;2008年04期
本文编号:613037
本文链接:https://www.wllwen.com/yixuelunwen/yufangyixuelunwen/613037.html