Apriori算法在慢病预测中的应用研究
发布时间:2020-03-30 12:32
【摘要】:目前慢性病已成为危害人们健康生活的一个因素,尤其是慢性肾病,每年都有数以万计的人群因患上该病而痛苦,为了改善这样的局面,缓解慢性肾病带来的危害,对于慢性病的预测研究已经成为一个热点。本文通过对慢性肾病的体检数据运用改进的Apriori算法进行处理,挖掘出有实际参考价值的法则从而达到对慢性肾病进行预测的目标,并且减少了获取知识的时间,具有一定的实际意义。论文所做的工作如下:1.对研究课题的概念理论和几类比较流行的算法,国内外相应的数据处理技术的发展、现状以及其在智慧医疗领域的应用进行了相关研究,对数据挖掘的医学应用有了清晰地认识;2.研究了数据挖掘中常见的疾病预测模型朴素贝叶斯分类器、决策树和BP神经网络算法,分析了它们各自的优势和不足,针对利用体检特征项来预测慢性肾病的研究目标,提出了使用关联规则Apriori算法进行具体的数据挖掘和分析;3.为了解决传统Apriori算法在计算上的瓶颈,多次扫描数据库和生成候选项集过多的问题,对基于垂直数据格式的Apriori算法分别提出了基于指针数组和差集理论优化的DSE算法和基于Hash表优化的HE算法,DSE算法通过引入差集减少TID集的大小,节省内存同时减少交集求解时间,HE算法利用Hash表在计算大容量数据交集时快速高效的性质,减少求交集时的循环和遍历的时间,相比与传统的算法,这两种优化算法都在运行时间上有了明显的减少,提高了算法的运行效率;4.对慢性肾病的体检数据进行预处理操作,通过离散化和标识映射等步骤将原始数据表转化为可以进行实际挖掘的数据表进行关联规则的挖掘,并用多项Logistic回归分析算法对结果进行验证,证实了算法的可靠性。通过关联规则挖掘得到的有价值的知识规则可以很好地对慢性肾病进行一定程度上的概率预测,作为医生进行疾病诊断的参考依据,并对自动化医疗有着重要的意义。
【图文】:
第 2 章 相关理论技术误数据或是偏离正常区间的离群点等。这样的数据会对最终的数据挖掘结果产很大的影响,因此需要通过数据预处理工作将低质量的数据转化为一致、完整、确的高质量数据。数据预处理的一般方法[37]有数据集成、数据清理、数据变换、据规约和数据离散化等,具体任务如图 2-1 所示。
图 2-2 数据挖掘流程Figure 2-2 Data Mining Process数据挖掘方法 聚类分析聚类分析是通过使用样本数据所具有的一组属性对数据进行划分的[38],依的相似程度来计算数据之间的相似性和差异性。聚类分析系统的输入包括析的数据集,以及可以用来作为衡量两个簇集之间相似(相异)程度的标准分析的结果输出是将数据集进行划分后的组群。聚类分析往往会对每一个进行相应的说明或是概括性的描述,这种结果描述对于进一步分析数据集尤为重要。目前比较常见的聚类分析算法有 K-means、基于划分的聚类算法模型的聚类方法等等,聚类分析往往应用在商业对客户群体的分类;股市民购买趋势的预测、市场销售的细分;许多图书销售网站也会对客户的购进行聚类分析,,从而根据用户喜欢的图书类型推荐新上市的或是流行的书
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R319;TP311.13
【图文】:
第 2 章 相关理论技术误数据或是偏离正常区间的离群点等。这样的数据会对最终的数据挖掘结果产很大的影响,因此需要通过数据预处理工作将低质量的数据转化为一致、完整、确的高质量数据。数据预处理的一般方法[37]有数据集成、数据清理、数据变换、据规约和数据离散化等,具体任务如图 2-1 所示。
图 2-2 数据挖掘流程Figure 2-2 Data Mining Process数据挖掘方法 聚类分析聚类分析是通过使用样本数据所具有的一组属性对数据进行划分的[38],依的相似程度来计算数据之间的相似性和差异性。聚类分析系统的输入包括析的数据集,以及可以用来作为衡量两个簇集之间相似(相异)程度的标准分析的结果输出是将数据集进行划分后的组群。聚类分析往往会对每一个进行相应的说明或是概括性的描述,这种结果描述对于进一步分析数据集尤为重要。目前比较常见的聚类分析算法有 K-means、基于划分的聚类算法模型的聚类方法等等,聚类分析往往应用在商业对客户群体的分类;股市民购买趋势的预测、市场销售的细分;许多图书销售网站也会对客户的购进行聚类分析,,从而根据用户喜欢的图书类型推荐新上市的或是流行的书
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R319;TP311.13
【相似文献】
相关期刊论文 前10条
1 张宏哲;;FFT算法的一种改进[J];长安大学学报(自然科学版);1988年01期
2 苑宝生,俞铁城;连呼汉语识别研究[J];声学学报;1989年06期
3 孙杨模;;操作系统常见的几种算法举例分析[J];湖北三峡职业技术学院学报;2010年02期
4 郜振华;吴昊;;一种改进的混合蝙蝠算法[J];南华大学学报(自然科学版);2019年01期
5 吴天行;郭键;;基于“反学习”理论的人工蜂群算法在订单分批问题中的应用[J];物流技术;2017年12期
6 全燕;陈龙;;算法传播的风险批判:公共性背离与主体扭曲[J];华中师范大学学报(人文社会科学版);2019年01期
7 肖海军;成金华;何凡;;双核因素蝙蝠算法[J];中南民族大学学报(自然科学版);2018年01期
8 张进;;一种快速双对分逻辑运算算法[J];情报学报;1992年03期
9 陈广江;用MUSIC算法处理非均匀间隔采样数据[J];系统工程与电子技术;1998年09期
10 于浩;王芳;;ROHC算法在LWIP上的仿真与实现[J];计算机仿真;2017年12期
相关会议论文 前8条
1 李孟霖;余祥;巫岱s
本文编号:2607548
本文链接:https://www.wllwen.com/yixuelunwen/swyx/2607548.html