基于约束的高维不确定子空间聚类
本文关键词: 子空间 约束 聚类 不确定 高维 出处:《大连理工大学》2016年硕士论文 论文类型:学位论文
【摘要】:随着社会的发展和科学的进步,数据逐渐朝着大数据量、高维度、多样性发展,从数据中提取信息越来越困难。在数据挖掘研究中,不确定数据的聚类是一个巨大的挑战,由于传统的聚类算法是基于准确的数据进行聚类的,而不确定数据并不是一个准确值,一般是一个满足某种概率密度函数的数据的分布,传统聚类算法并不能高效的解决不确定数据的聚类问题。另外,高维数据的聚类问题也是数据挖掘算法中的另一个大问题。由于高维数据聚类的两大难点:稀疏性和维度灾难,传统算法同样不适用,为了解决高维数据聚类问题,研究者们经过不懈努力,最终提出了子空间聚类算法。该类算法在找到簇和找到与簇相关的维度两方面均做出了巨大贡献。结合这两大难点,高维不确定数据的聚类算法具有更大的挑战性,并且这类算法目前还很少。就我们所知,目前只有一种基于自底向上的子空间聚类算法扩展而来的算法。为了有效地解决高维不确定数据的聚类问题,本文基于经典的用于处理高维数据聚类问题的子空间聚类算法FINDIT(a fast and intelligent subspace clustering algorithm using dimension voting),提出了一种基于约束的半监督子空间聚类算法:UFINDIT。本文主要的贡献在于提出了一种有效地解决高维不确定数据聚类的自顶向下的不确定子空间聚类算法,算法具有较高的准确率并且易于扩展具有良好的伸缩性。具体如下:本文主要扩展了FINDIT算法的距离度量函数和维投票过程,使其可以有效地处理不确定数据;由于FINDIT算法的性能评估函数本身的缺陷,导致了在处理不确定数据时失效,为了解决这一问题,本文使用了约束信息来剔除不合理的项;同时,也使用了约束信息来改善FINDIT算法,提高运行速度并减少了参数,主要表现在中心点合并过程;另外,本文提出了一些方法,如抽样来使算法更有效。基于人工数据集和真实数据集的实验结果表明UFINDIT算法与现存的高维不确定数据的聚类算法相比具有更好的效果。
[Abstract]:With the development of the society and the progress of science, the data gradually develop towards the large amount of data, high dimension and diversity. It is more and more difficult to extract information from the data. Clustering of uncertain data is a great challenge, because the traditional clustering algorithm is based on accurate data clustering, but uncertain data is not an accurate value. Generally, it is a data distribution that satisfies some probability density function. Traditional clustering algorithm can not solve the clustering problem of uncertain data efficiently. The clustering problem of high-dimensional data is another big problem in data mining algorithm. Because of the two difficulties of high-dimensional data clustering: sparsity and dimensionality disaster, the traditional algorithm is also not applicable. In order to solve the problem of high-dimensional data clustering, researchers have made unremitting efforts. Finally, a subspace clustering algorithm is proposed, which has made a great contribution in finding clusters and finding the dimension related to clusters. Combined with these two major difficulties. Clustering algorithms for high-dimensional uncertain data are more challenging and few. As far as we know. At present, there is only one extended algorithm based on bottom-up subspace clustering algorithm to effectively solve the clustering problem of high-dimensional uncertain data. This paper is based on the classical subspace clustering algorithm FINDIT-based for dealing with high-dimensional data clustering problems. A fast and intelligent subspace clustering algorithm using dimension. Voicing). . A constraint based semi-supervised subspace clustering algorithm is proposed. UFINDIT.The main contribution of this paper is to propose a top-down clustering algorithm for high-dimensional uncertain data clustering from top to bottom. The algorithm has high accuracy and is easy to be extended and has good scalability. The details are as follows: this paper mainly extends the distance measure function and dimension voting process of FINDIT algorithm. To enable it to deal effectively with uncertain data; Because of the defect of the performance evaluation function of the FINDIT algorithm, it is invalid when dealing with the uncertain data. In order to solve this problem, the constraint information is used to eliminate the unreasonable items. At the same time, the constraint information is also used to improve the FINDIT algorithm, improve the speed and reduce the parameters, mainly in the center point merging process; In addition, some methods are proposed. The experimental results based on artificial data set and real data set show that the UFINDIT algorithm is more effective than the existing clustering algorithm of high-dimensional uncertain data.
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 柳盛;吉根林;;空间聚类技术研究综述[J];南京师范大学学报(工程技术版);2010年02期
2 马程;杨诗琴;;基于量子粒子群的带障碍约束的空间聚类[J];安庆师范学院学报(自然科学版);2010年03期
3 殷俊华;李光强;陈翼;邓敏;;基于概念格的空间聚类方法[J];计算机系统应用;2011年06期
4 李霞;徐树维;;子空间聚类改进算法研究综述[J];计算机仿真;2010年05期
5 陈铭;吉根林;;一种基于相似维的高维子空间聚类算法[J];南京师大学报(自然科学版);2010年04期
6 马程;陈杰;;障碍约束下的空间聚类算法分析[J];宜春学院学报;2012年12期
7 张思亮;李广霞;;子空间聚类在入侵检测中的应用[J];计算机安全;2013年12期
8 何彬彬;方涛;郭达志;;基于不确定性的空间聚类[J];计算机科学;2004年11期
9 杨杨;孙志伟;赵政;;一种处理障碍约束的基于密度的空间聚类算法[J];计算机应用;2007年07期
10 李光强;邓敏;程涛;朱建军;;一种基于双重距离的空间聚类方法[J];测绘学报;2008年04期
相关会议论文 前6条
1 刘启亮;邓敏;彭东亮;徐震;;基于场论的空间聚类有效性评价方法研究[A];2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[C];2009年
2 邓羽;;广义多维云模型在空间聚类中的应用[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
3 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
4 徐玉峰;周丽华;肖清;;一种基于数据分布差异度的子空间聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
5 张燕萍;姜青山;;k-means型软子空间聚类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
6 任家东;周玮玮;何海涛;;高维数据流的自适应子空间聚类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
相关博士学位论文 前3条
1 孙丽萍;半监督空间聚类方法及其在城市公共设施区位规划中的应用研究[D];安徽师范大学;2015年
2 黄明;基于空间分区的空间聚类研究[D];武汉大学;2010年
3 王剑亭;面向量子密钥分发安全性分析的子空间聚类算法研究[D];中国科学技术大学;2015年
相关硕士学位论文 前10条
1 魏海洋;城市案件空间聚类技术研究[D];北京建筑大学;2015年
2 张洋;基于空间聚类的公路交通运力态势可视化方法研究[D];国防科学技术大学;2013年
3 欧阳佩佩;改进的稀疏子空间聚类算法研究[D];青岛大学;2015年
4 孙素敏;子空间聚类及其应用[D];西安建筑科技大学;2016年
5 许亚骏;子空间聚类算法研究及应用[D];江南大学;2016年
6 凌晓蔚;基于子空间聚类的多关系社交网络挖掘研究[D];电子科技大学;2016年
7 吴飞;面向序列数据的稀疏低秩子空间聚类方法研究[D];北京工业大学;2016年
8 邓振云;稀疏样本自表达的子空间聚类算法[D];广西师范大学;2016年
9 齐绪停;基于子空间聚类的文本相关性研究[D];山东师范大学;2016年
10 顾晓伟;基于面状区域混合类型数据的空间聚类算法研究及应用[D];辽宁工程技术大学;2015年
,本文编号:1492844
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1492844.html