基于密度的改进型层次聚类算法研究
本文关键词:基于密度的改进型层次聚类算法研究
更多相关文章: 聚类分析 层次聚类 CURE算法 CBDP算法
【摘要】:数据挖掘是帮助我们从海量数据中发现有价值的信息的一种重要工具,而聚类分析又是数据挖掘中的一个重要的研究方向。聚类分析在生物学、统计学、机器学习、商业决策等领域都得到了成功应用。目前的聚类算法都比较有针对性,所以对于更高效、更准确、更全面的聚类算法的研究仍然是一大热点。层次聚类是聚类分析的一个重要分支,本文重点分析研究了层次聚类算法,并对一些代表算法的聚类性能进行了分析比较。CURE算法是一种典型的层次聚类算法,该算法对收缩因子这一参数很敏感,而且噪声和孤立点很难界定。针对CURE算法存在的不足,本文提出了一种改进的基于密度分层的层次聚类算法。改进算法将数据集中的点按照密度大小排序,将密度最小的约10%的点作为偏离点(包括噪声和孤立点)排除掉。将剩余的点按照密度大小分层,在密度最大和最小两层上分别进行凝聚层次聚类,然后在分层聚类的基础上对所有剩余点进行凝聚层次聚类。最后将偏离点划分到与之最近的已聚好的类中。改进算法对噪声和孤立点不敏感,不需要收缩因子这一参数,对多种非球形簇有很好的聚类效果。通过对比实验证明,改进算法的聚类效果明显优于CURE算法,算法效率也在一定程度上优于CURE算法。另外,本文还详细分析了2014年Alex Rodriguez在science上发表的文章Clustering by Fast Search and Find of Density Peaks中提出的一种新颖的基于密度的CBDP算法。针对CBDP算法只能处理类内数据分布不均匀、不同类的数据密度差距不大的数据集的缺点,提出了一种改进的层次聚类算法。改进算法通过计算数据的密度和距离,排除了密度很小而距离很大的噪声和孤立点,使改进算法对噪声和孤立点不敏感。通过绘制数据的密度和距离乘积分布图,即i—ρi*δi分布图来确定密度峰值点。然后以密度峰值点为中心,计算最小类间距离,不断进行类的合并,直至达到聚类数目。在二维和多维数据集上的实验证明了改进算法的聚类结果明显优于CBDP算法,而且聚类效果更稳定。
【关键词】:聚类分析 层次聚类 CURE算法 CBDP算法
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 中文摘要3-4
- Abstract4-8
- 第一章 绪论8-11
- 1.1 研究背景及意义8-9
- 1.2 国内外研究现状9-10
- 1.3 论文内容和结构安排10-11
- 第二章 聚类算法研究11-20
- 2.1 聚类分析概述11-13
- 2.1.1 聚类基础知识和应用11
- 2.1.2 聚类的过程11-12
- 2.1.3 聚类算法应具备的特征12-13
- 2.2 聚类算法的分类13-16
- 2.2.1 基于划分的聚类算法13-14
- 2.2.2 基于层次的聚类算法14-15
- 2.2.3 基于密度的聚类算法15
- 2.2.4 基于网格的聚类算法15-16
- 2.2.5 基于模型的聚类算法16
- 2.3 常用聚类算法的比较16-17
- 2.4 聚类质量评价方法17-19
- 2.5 小结19-20
- 第三章 CURE聚类算法及其改进20-36
- 3.1 层次方法概述20-22
- 3.1.1 两种类型层次聚类方法20-21
- 3.1.2 簇间距离度量方法21-22
- 3.2 CURE算法22-24
- 3.2.1 CURE算法的思想和实现过程22-23
- 3.2.2 CURE算法的不足23-24
- 3.3 改进的层次聚类算法24-30
- 3.3.1 改进算法的基本思想24-25
- 3.3.2 改进算法的实现步骤25-30
- 3.4 实验结果分析30-35
- 3.4.1 二维数据集应用实例30-33
- 3.4.2 多维数据集应用实例33-34
- 3.4.3 改进算法的效率分析34-35
- 3.5 小结35-36
- 第四章 CBDP聚类算法及其改进36-44
- 4.1 CBDP算法36-38
- 4.1.1 CBDP算法的思想和实现过程36-37
- 4.1.2 CBDP算法的不足37-38
- 4.2 改进算法38-41
- 4.2.1 改进算法的基本思想38-39
- 4.2.2 改进算法的实现步骤39-41
- 4.3 实验结果分析41-43
- 4.3.1 二维数据集应用实例41-42
- 4.3.2 多维数据集应用实例42-43
- 4.4 小结43-44
- 第五章 总结与展望44-46
- 5.1 总结44-45
- 5.2 展望45-46
- 参考文献46-48
- 致谢48
【相似文献】
中国期刊全文数据库 前10条
1 陈旭玲;楼佩煌;;改进层次聚类算法在文献分析中的应用[J];数值计算与计算机应用;2009年04期
2 杨栋;詹海亮;苏锦旗;;基于区域最近邻生长的层次聚类算法[J];化工自动化及仪表;2010年05期
3 王娴;杨绪兵;周宇;周溜溜;;一种基于类中心矫正的层次聚类算法[J];微电子学与计算机;2011年10期
4 谢振平;王士同;王晓明;;一种基于软边界球分的分裂式层次聚类算法[J];模式识别与人工智能;2008年04期
5 姚玉钦;李金广;;一种基于网格的层次聚类算法[J];河南师范大学学报(自然科学版);2009年04期
6 李俊辉;;基于不确定图的层次聚类算法研究[J];中国管理信息化;2012年24期
7 李新良;;基于层次聚类算法的改进研究[J];软件导刊;2007年19期
8 刘兴波;;凝聚型层次聚类算法的研究[J];科技信息(科学教研);2008年11期
9 郭晓娟;刘晓霞;李晓玲;;层次聚类算法的改进及分析[J];计算机应用与软件;2008年06期
10 史变霞;张明新;;一种改进的层次聚类算法[J];微电子学与计算机;2010年12期
中国重要会议论文全文数据库 前3条
1 马晓艳;唐雁;;层次聚类算法研究[A];2008年计算机应用技术交流会论文集[C];2008年
2 饶金通;董槐林;姜青山;;基于孤立因子的层次聚类算法与应用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 吴楠楠;史亮;饶金通;姜青山;董槐林;;一种改进的高效层次聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前1条
1 陈远浩;非监督的结构学习及其应用[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 郭芳芳;面向分类型集值数据的层次聚类算法研究[D];山西大学;2015年
2 李彩云;基于密度的改进型层次聚类算法研究[D];兰州大学;2016年
3 瞿俊;基于重叠度的层次聚类算法研究及其应用[D];厦门大学;2007年
4 杨海斌;一种新的层次聚类算法的研究及应用[D];西北师范大学;2011年
5 张冬梅;基于轮廓系数的层次聚类算法研究[D];燕山大学;2010年
6 李慧驰;基于三度信息的双重层次聚类算法[D];武汉理工大学;2013年
7 张文开;基于密度的层次聚类算法研究[D];中国科学技术大学;2015年
8 段明秀;层次聚类算法的研究及应用[D];中南大学;2009年
9 李欣欣;基于MPI的层次聚类算法的研究及实现[D];哈尔滨理工大学;2012年
10 毕鹏;改进的Chameleon层次聚类算法在目标分群中的应用研究[D];浙江大学;2009年
,本文编号:645186
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/645186.html