高维数据下基于密度聚类方法的研究与应用
发布时间:2017-09-07 09:20
本文关键词:高维数据下基于密度聚类方法的研究与应用
更多相关文章: 基于密度聚类 降维方法 硬阈值函数 高维数据
【摘要】:Alex和Anlessandro于2014年提出的快速搜索聚类方法(FSC)是基于聚类中心的密度要高于其邻域点并且与其它密度较高的点有一个相对较大的距离的思想,通过对观测值的密度和相对距离加以度量来展开聚类的.FSC不需要进行迭代运算,可以高效地识别集群个数和聚类中心.但是FSC方法对于高维数据的聚类并不是很理想,这主要是由于高维数据的“维数灾难”引起的.考虑如何能更有效地处理高维数据,本文针对FSC方法提出了更能适应于高维数据的改进方法,分别是基于主成分分析(PCA)的快速搜索聚类方法(FSCP)和基于硬阈值(Hard thresholding)的快速搜索聚类方法(HT-FSC)其中FSCP方法在FSC的基础上加入了PCA的思想,对满足一定区间限制的主成分生成的较低维数据集逐一作聚类分析并输出最优的一组聚类结果HT-FSC方法的核心思想同样是对数据做降维的预处理,基于硬阈值的思想,度量相似性距离矩阵时在度量函数上加入硬阈值函数,选定合适的阈值,只让满足阈值条件的变量加入距离的计算.本文结合几组模拟数据和Face、Iris和Wine等三组真实数据对两种改进方法加以实现,并以FSC等方法作对比,实验结果表明,改进的方法对于处理高维数据的聚类有更好的效果.
【关键词】:基于密度聚类 降维方法 硬阈值函数 高维数据
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:C81
【目录】:
- 中文摘要3-4
- Abstract4-7
- 第一章 引言7-12
- 1.1 研究背景7-8
- 1.2 国内外研究现状8-10
- 1.3 本文结构10-12
- 第二章 聚类方法综述12-17
- 2.1 传统的聚类方法12-15
- 2.2 聚类方法判别标准15-17
- 第三章 集群个数的计算与研究17-19
- 3.1 gap估计方法17-18
- 3.2 快速搜索估计方法18-19
- 第四章 快速搜索聚类方法以及改进19-26
- 4.1 快速搜索聚类方法19-21
- 4.2 基于主成分分析的FSC方法21-23
- 4.3 基于硬阈值的FSC方法23-26
- 第五章 方法实现26-40
- 5.1 数据模拟26-33
- 5.2 实证分析33-40
- 第六章 总结及展望40-42
- 6.1 总结40-41
- 6.2 展望41-42
- 参考文献42-45
- 致谢45
本文编号:808697
本文链接:https://www.wllwen.com/shekelunwen/shgj/808697.html