挖掘任意形状簇的聚类算法研究
本文关键词:挖掘任意形状簇的聚类算法研究
【摘要】:数据挖掘是一个能从大规模数据中发现知识的强大技术。聚类分析作为数据挖掘中的一个基础工具,已经被广泛应用于模式识别、图像处理、空间数据分析、文本分类和信息检索、市场分析等众多领域。随着计算机的普及和互联网的不断发展,数据量越来越大,数据的空间分布中大多包含多种不规则形状的簇,比如地理信息数据、医学图像数据、农业科学数据等,这对聚类分析提出了挑战。传统的聚类算法通常不能很好地挖掘任意形状的簇,近年来,挖掘任意形状簇的研究成为聚类分析领域的一个研究热点。为了更有效地对包含有任意形状簇的数据进行聚类,本文对现有的聚类算法进行分析和研究,提出了两个能挖掘任意形状簇的聚类算法CMSPC、CFDPm。本文提出的CMSPC算法是为了提高在包含任意形状簇的数据集上的聚类质量。CMSPC算法基于点与簇内多点的相似性,对于距离在截断距离之内的两个对象,考虑其中一个对象关于另外一个对象所在簇的归属度,对满足一定归属度的临时簇进行合并。CMSPC算法基于点与簇内多点相似的特点使得聚类结果与簇形状无关,同时能够提取出异常点。本文提出的另外一个聚类算法CFDPm是新型聚类算法CFDP算法的一种改进算法。在多峰簇数据集中,CFDP算法会因簇中心点的选取不准确而导致聚类质量的下降。本文通过综合考虑聚类结果中簇之间的距离、簇内距离、合并两簇后对于整体内部评价指标DBI的影响来有条件地对簇进行合并,从而改善因选择簇中心点失效而带来的聚类质量下降的问题。为了验证本文提出的两种聚类算法的有效性,我们在多个基准数据集上进行了聚类实验。实验结果表明两点:一、CMSPC算法可以对包含任意形状簇的数据进行较好的聚类,同时识别出异常点,具有较高的聚类质量。二、CFDPm算法能够克服CFDP算法因簇中心选取不准确而导致的聚类质量下降的问题。
【关键词】:任意形状簇 聚类 空间数据 相似性度量
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要3-4
- Abstract4-8
- 第一章 绪论8-13
- 1.1 研究背景及意义8-10
- 1.2 国内外研究现状10-11
- 1.3 本文的主要研究内容11-12
- 1.4 论文的组织框架12-13
- 第二章 聚类分析概述13-22
- 2.1 聚类的相关概念和定义13-15
- 2.2 聚类中的距离度量15-17
- 2.2.1 对象间的距离15-16
- 2.2.2 簇间距离16-17
- 2.3 聚类方法17-18
- 2.3.1 基于距离的聚类方法17-18
- 2.3.2 基于密度的聚类18
- 2.4 聚类评价指标18-21
- 2.4.1 外部评价指标19-21
- 2.4.2 内部评价指标Davies-Bouldin21
- 2.5 本章小结21-22
- 第三章 基于点与簇内多点相似的聚类算法22-37
- 3.1 基于点与簇内多点相似算法的提出22-24
- 3.2 基于点与簇内多点相似的聚类算法CMSPC24-28
- 3.2.1 相关概念及定义24-26
- 3.2.2 基于点与簇内多点相似的聚类算法CMSPC26-28
- 3.2.3 复杂度分析28
- 3.3 实验及结果分析28-36
- 3.3.1 实验环境及对比算法参数设置28-29
- 3.3.2 实验所用数据集29-31
- 3.3.3 CMSPC聚类算法实验31-36
- 3.4 本章小结36-37
- 第四章 改进的聚类算法CFDPm37-49
- 4.1 CFDP算法介绍37-38
- 4.2 CFDPm算法38-42
- 4.2.1 CFDP算法在多峰簇数据集上的聚类结果分析39-40
- 4.2.2 CFDPm算法思想40
- 4.2.3 相关定义及概念40
- 4.2.4 CFDPm算法详细描述40-42
- 4.3 实验及结果分析42-48
- 4.3.1 实验数据集42-43
- 4.3.2 CFDPm算法实验43-48
- 4.4 本章小结48-49
- 第五章 总结与展望49-51
- 5.1 本文工作总结49
- 5.2 未来工作展望49-51
- 参考文献51-54
- 在学期间的研究成果54-55
- 致谢55
【相似文献】
中国期刊全文数据库 前10条
1 荣波;夏正友;;基于聚类的BBS成员交互网络特性研究[J];重庆科技学院学报(自然科学版);2009年06期
2 靳华中;;基于云模型的聚类特性分析[J];湖北农机化;2011年02期
3 淦文燕,李家福,李德毅;高维聚类中的一种特征筛选方法[J];解放军理工大学学报(自然科学版);2003年06期
4 孙志伟;;一种能发现自然聚类的聚类算法[J];计算机应用研究;2009年08期
5 陈涛;陈启买;张玮;郭小林;;聚类算法在学分制下高校专业自动分类中的应用[J];计算机应用与软件;2007年05期
6 孟海东;宋飞燕;宋宇辰;;面向复杂簇的聚类算法研究与实现[J];计算机应用与软件;2008年10期
7 宋宇辰;宋飞燕;孟海东;;基于密度复杂簇聚类算法研究与实现[J];计算机工程与应用;2007年35期
8 孟海东;宋飞燕;郝永宽;;基于密度与划分方法的聚类算法设计与实现[J];计算机工程与应用;2007年27期
9 夏胜平;吕小军;刘建军;袁振涛;郁文贤;;基于集群的并行分布式聚类及其应用(英文)[J];郑州大学学报(理学版);2006年04期
10 姚天任,王大有;自组织特征映射神经网络的聚类特性在语音矢量量化快速搜索中的应用[J];通信学报;1992年05期
中国重要会议论文全文数据库 前1条
1 陆君安;张勇;陈娟;吕金虎;吴晓群;;聚类环(链)基于同步的尺度可变性分析[A];中国自动化学会控制理论专业委员会B卷[C];2011年
中国硕士学位论文全文数据库 前10条
1 曹佩佩;蚁群觅食模型在共现网络聚类中的应用[D];大连理工大学;2015年
2 王博;挖掘任意形状簇的聚类算法研究[D];兰州大学;2016年
3 朱萌;基于模糊矩阵的聚类融合[D];南京理工大学;2008年
4 侯娟;聚类融合算法及其应用研究[D];中南大学;2010年
5 于智航;改进的密度聚类算法研究[D];大连理工大学;2007年
6 宋佳;基于熵的聚类算法在蛋白质网络模块检测中的应用[D];西安电子科技大学;2011年
7 阳斌;密度影响因子相关的网格聚类算法研究[D];浙江理工大学;2014年
8 赵慧;基于网络方法的聚类算法研究[D];山东师范大学;2010年
9 谭颖;文本挖掘中的聚类算法研究[D];吉林大学;2009年
10 刘敏娟;基于网格的聚类算法分析与研究[D];郑州大学;2007年
,本文编号:947725
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/947725.html