基于层次和密度的任意形状聚类算法研究
本文关键词: 层次聚类 密度聚类 任意形状聚类 子簇合并 密度峰值点 边界区域密度 出处:《河南理工大学》2016年硕士论文 论文类型:学位论文
【摘要】:聚类技术作为数据挖掘领域的一个重要研究方向,可以有效地帮助人们了解数据的分布和特征,以便作进一步研究分析。虽然已有的聚类算法很多,但聚类技术依然存在很多问题和挑战。结合层次聚类算法和密度聚类算法,本文提出一种新的任意形状聚类算法。该算法在层次聚类技术的框架下,使用基于密度聚类的思想来定义子簇和子簇合并方法,论文的主要工作如下:(1)针对目前层次聚类算法的计算时间复杂度较高,并且需要人为输入聚类个数或者阈值参数作为聚类终止条件的问题,本文提出了一种新颖的基于密度的子簇合并方法,将簇间边界区域密度大于等于其中任何一个簇平均密度的相邻子簇进行合并。该子簇合并准则使用动态模型的方法,能够自动适应被合并簇之间的内部特征属性,可自动确定聚类个数和聚类终止点,从而发现任意形状的聚类。(2)针对密度聚类算法容易忽略密度稀疏区域中的密度峰值点的问题,本文找出距离其他高密度点距离较远的点作为密度峰值点,放宽了对密度峰值点的选择范围。然后,根据这些密度峰值点将数据集切分为大量初始子簇,而且得到的子簇比较正确。(3)针对密度聚类方法使用全局统一的距离参数,不利于密度差异较大数据集的问题,本文通过将低密度数据集与高密度数据集分层,将低密度子簇筛选出来,设置合适的距离参数进行聚类来解决上述问题。在测试数据集以及真实数据集上的对比实验表明,本文算法具有能自动确定聚类个数,能够有效地发现任意形状、大小的聚类,对输入参数的选择具有鲁棒性,并且适用于密度分布不均匀的数据集等优点。
[Abstract]:As an important research direction in the field of data mining, clustering technology can effectively help people to understand the distribution and characteristics of data for further research and analysis, although there are many existing clustering algorithms. However, there are still many problems and challenges in clustering technology. Combined with hierarchical clustering algorithm and density clustering algorithm, this paper proposes a new arbitrary shape clustering algorithm, which is based on hierarchical clustering technology. Using the idea of density clustering to define subclusters and sub-cluster merging, the main work of this paper is as follows: 1) the computational time complexity of hierarchical clustering algorithm is high. In addition, it is necessary to input the number of clusters or threshold parameters as the termination condition. In this paper, a novel density-based subcluster merging method is proposed. The adjacent subclusters whose boundary region density is greater than or equal to the average density of any of the clusters are merged. The merging criterion of the subclusters uses the method of dynamic model. It can automatically adapt to the internal characteristic attributes between the merged clusters, and can automatically determine the number of clusters and the cluster termination points. Thus it is found that arbitrary shape clustering algorithm is easy to ignore the density peak point in the sparse density region. In this paper, we find the point which is far away from other high density points as the density peak point. Then, the data set is cut into a large number of initial subclusters according to these density peaks. Moreover, the obtained subcluster is more correct. 3) the global uniform distance parameter is used for the density clustering method, which is not conducive to the problem of large density difference data sets. In this paper, the low density subclusters are filtered out by stratifying the low density data sets and the high density data sets. Set the appropriate distance parameters to cluster to solve the above problem. The experimental results on the test data set and the real data set show that the algorithm can automatically determine the number of clustering. It can find the clustering of arbitrary shape and size effectively and is robust to the selection of input parameters. It is also suitable for data sets with uneven density distribution and so on.
【学位授予单位】:河南理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 朱永红;;覆盖聚类算法的应用研究[J];计算机技术与发展;2007年01期
2 蔡元萃;陈立潮;;聚类算法研究综述[J];科技情报开发与经济;2007年01期
3 杨博;刘大有;金弟;马海宾;;复杂网络聚类方法[J];软件学报;2009年01期
4 陈梅兰;基于网格和密度聚类算法研究[J];计算机与现代化;2005年02期
5 闻扬,苑春法,黄昌宁;基于搭配对的汉语形容词-名词聚类[J];中文信息学报;2000年06期
6 王伟东,芦金婵,张讲社;基于视觉原理的密度聚类算法[J];工程数学学报;2005年02期
7 彭京;唐常杰;程温泉;石葆梅;乔少杰;;一种基于层次距离计算的聚类算法[J];计算机学报;2007年05期
8 陈钢,冯志勇,金辉;基于GT编码的零件聚类树的建立[J];中国制造业信息化;2003年06期
9 曹慧;;一种基于聚类的多数据库分类方法设计[J];网络安全技术与应用;2010年06期
10 刘芳,何飞;一种基于聚类树的增量式数据清洗算法[J];华中科技大学学报(自然科学版);2005年03期
相关会议论文 前10条
1 钱卫宁;钱海蕾;周傲英;;构造准确的多粒度聚类树:一种交互式的方法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 钱卫宁;钱海蕾;周傲英;;聚类树合并——聚类超大规模数据库[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 万代红;齐明;万晓红;;分类技术DSCM聚类算法的C语言实现[A];增强自主创新能力 促进吉林经济发展——启明杯·吉林省第四届科学技术学术年会论文集(上册)[C];2006年
4 钱海蕾;钱卫宁;周傲英;;对于聚合聚类终止条件的研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 任家东;孟丽丽;张冬梅;;一种基于网格的改进的K-Means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 马晓艳;唐雁;;层次聚类算法研究[A];2008年计算机应用技术交流会论文集[C];2008年
7 周皓峰;袁晴晴;程尊平;施伯乐;;PHC:一个基于分层的快速聚类算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 饶金通;董槐林;姜青山;;基于孤立因子的层次聚类算法与应用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 王仲君;莫春玲;;视觉原理的FCM聚类算法在复杂网络中的应用[A];2006全国复杂网络学术会议论文集[C];2006年
10 吴楠楠;史亮;饶金通;姜青山;董槐林;;一种改进的高效层次聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
相关博士学位论文 前5条
1 晏华;交易数据的聚类分析[D];电子科技大学;2008年
2 王娜;基于客观聚类的模糊建模方法研究[D];上海交通大学;2009年
3 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
4 陈远浩;非监督的结构学习及其应用[D];中国科学技术大学;2008年
5 肖宇;聚类分析及其在图像处理中的应用[D];北京交通大学;2012年
相关硕士学位论文 前10条
1 牛丽君;基于层次和密度的任意形状聚类算法研究[D];河南理工大学;2016年
2 贺勇;基于染色传播的关键词聚类算法研究[D];华南理工大学;2015年
3 伍艺;面向大数据集的递增聚类方法研究[D];北京理工大学;2015年
4 黄燕勤;有关基于频谱和聚类方法定位故障的实证研究[D];南京大学;2015年
5 杨志;基于粒子群的粗糙聚类算法分析与研究[D];长沙理工大学;2014年
6 梁尧;分布式海量指纹识别系统设计与实现[D];电子科技大学;2015年
7 王喜梅;基于多语言话题发现的聚类算法改进[D];兰州大学;2016年
8 程祥;基于负荷量测数据的电力负荷聚类方法研究[D];浙江大学;2017年
9 陈衡岳;聚类分析及聚类结果评估算法研究[D];东北大学;2006年
10 陈武;多类标聚类树分类方法优化及并行化实现[D];哈尔滨工业大学;2013年
,本文编号:1460436
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1460436.html