CLIQUE网格聚类算法在医学空间数据中的应用
发布时间:2017-04-12 23:17
本文关键词:CLIQUE网格聚类算法在医学空间数据中的应用,,由笔耕文化传播整理发布。
【摘要】:目的:糖尿病指的是由于身体机能失衡,所导致的以血糖高于正常值范围为主要表现的全身进行性疾病,其并发症多,患病率高,已经逐渐成为了影响世界各国的一个重要公共问题。根据国际糖尿病联盟(IDF)截止到2013年底的数据显示,2013年间,全球死于糖尿病相关疾病的人数超过了510万,达到了全年死亡人口的8.39%,全年的相关医疗花费达到了5480亿美元,占到了全部花费的11%,其中我国从进入21世纪以来,糖尿病人口数不断上升,到2013年底,已经成为了世界上患病人数最多的国家,达到了9840万人。所以如何运用统计学的方法对糖尿病数据进行分析,从而有效地预防该病的发生和发展,具有很好的现实意义。本文的研究主要有以下两个目的:第一将CLIQUE网格聚类算法运用到糖尿病患者的时空数据中并与基于划分(K-means算法)和基于密度(DBSCAN算法)的算法进行比较;第二对聚类结果中各个维度(如年龄、性别、生活习惯等方面)进行进一步分析,预防糖尿病的发生。方法:空间数据挖掘中的聚类分析是数据挖掘研究中一个重要领域,它既可以作为一个单独的工具发现数据库中隐藏分布的一些信息,也可以作为其他数据挖掘算法的预处理步骤。它主要目的是将数据集划分为若干个簇,使得簇内差异最小,簇间差异最大。在描述簇间的相似度大小时,主要是根据对象间的距离来确定的,距离越大,相似度越小,常用的距离有欧几里得距离和曼哈坦距离以及明考斯基距离。网格聚类技术是指把数据空间分成确定数目的网格单元来构建网格结构,然后再在得到的网格上进行聚类操作,与传统的聚类算法相比,基于网格的聚类算法具有更高的效率,且能够识别任意形状的簇,网格聚类分析现已被广泛的应用于模式识别、数据分析以及图像处理等领域。结果:得到了聚类时间以及内在外在方法的聚类精度方面的结果,通过对这些结果的分析可以得出以下的结论。结论:本文利用统计学上的三种聚类算法对美国130所医院10年间的糖尿病病人的相关数据进行实例分析,并对聚类结果在运算时间、结果的精确度方面进行了比较,通过比较可以发现无论是时间还是精度方面,结果最好的聚类算法是CLIQUE算法,其次为DBSCAN算法,最差的为K-means算法。
【关键词】:空间数据 数据挖掘 网格聚类法
【学位授予单位】:山西医科大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:R181.2
【目录】:
- 中文摘要5-7
- 英文摘要7-9
- 前言9-12
- 1 空间数据挖掘概述12-17
- 1.1 空间数据挖掘的定义及过程12-13
- 1.2 空间数据挖掘的特点13-14
- 1.3 空间数据挖掘的主要方法14-15
- 1.4 本章小结15-17
- 2 聚类分析17-23
- 2.1 聚类分析的研究意义与概念17
- 2.2 聚类分析的数学描述和主要方法17-22
- 2.3 本章小结22-23
- 3 网格聚类算法23-30
- 3.1 算法介绍23-25
- 3.2 实例分析25-27
- 3.3 结果比较和讨论27-30
- 4 总结与展望30-32
- 4.1 总结30
- 4.2 展望30-32
- 参考文献32-35
- 综述35-39
- 参考文献38-39
- 致谢39-40
- 在学期间承担/参与的科研课题与研究成果40-41
- 个人简介41
【参考文献】
中国期刊全文数据库 前7条
1 胡玉锁;陈宗海;;基于混合遗传算法的聚类分析[J];模式识别与人工智能;2001年03期
2 吉根林;赵斌;;面向大数据的时空数据挖掘综述[J];南京师大学报(自然科学版);2014年01期
3 陈宁,陈安,周龙骧;基于密度的增量式网格聚类算法(英文)[J];软件学报;2002年01期
4 邱保志;郑智杰;;基于局部密度和动态生成网格聚类算法[J];计算机工程与设计;2010年02期
5 白鹭;马骥;;基于测度的网格聚类算法[J];沈阳大学学报;2009年04期
6 李德仁,王树良,李德毅,王新洲;论空间数据挖掘和知识发现的理论与方法[J];武汉大学学报(信息科学版);2002年03期
7 赵慧;刘希玉;崔海青;;网格聚类算法[J];计算机技术与发展;2010年09期
中国硕士学位论文全文数据库 前1条
1 阳斌;密度影响因子相关的网格聚类算法研究[D];浙江理工大学;2014年
本文关键词:CLIQUE网格聚类算法在医学空间数据中的应用,由笔耕文化传播整理发布。
本文编号:302290
本文链接:https://www.wllwen.com/yixuelunwen/yufangyixuelunwen/302290.html