基于支持向量排序的分割聚类算法研究
发布时间:2017-08-21 08:33
本文关键词:基于支持向量排序的分割聚类算法研究
更多相关文章: 聚类分析 支持向量排序 分割聚类 核宽度系数 惩罚因子
【摘要】:随着互联网技术的普及,各种信息泛滥、信息冗余的问题日渐增多,如何帮助用户找到、提炼其中的潜在价值信息推动了对海量数据进行分类的研究。聚类算法可以探索数据集分布情况并能将其进行聚类,它是数据挖掘的重要工具和统计分析方法。目前,聚类分析在各类学科和行业等都有普遍的应用。常用的聚类方法根据其算法思想的不同可以归纳为以下几类方法:基于划分法、基于模型法、基于密度法、基于网格法以及层次法。随着聚类方法的不断深入研究,聚类方法体系的不断完善,核聚类算法逐渐受到关注。支持向量聚类(Support Vector Clustering,SVC)算法就是一类基于核的聚类分析方法。相比于其他的聚类算法,支持向量聚类有一些特别的优势:第一,SVC对数据集的形状和数目没有特别要求,可以识别任何分布状态的簇。第二,SVC可以识别一部分噪声数据点并能够分类相互交错重叠的簇。第三,SVC利用核函数的思想实现数据空间到特征空间的非线性与线性转换,可处理结构复杂的数据。但是SVC仍然存在一定的缺陷,它的高耗费和低性能也影响到了它的广泛应用。而一种基于相似度的点排序分割聚类算法正好可以弥补SVC算法在算法性能上的不足,该算法在数据处理上速度较快,聚类质量也比一般的聚类效果要好,但是由于其在点排序阶段未加处理的直接根据距离度量对所有的样本点进行排序,使得同簇的样本点被拆开排到其他簇的元素之中,造成非同簇元素间的错排,在某种程度上也影响了聚类质量。综合支持向量聚类和点排序分割聚类这两种算法各自的优缺点,本文提出一种基于支持向量排序的分割聚类算法(Partitioning Clustering Based on Support Vector Ranking,PC-SVR)。该算法从理论上继承了这两种算法的一些优点,并有效地避免了它们各自的一些缺点,既保证了聚类质量,又提高了聚类的速度。为验证PC-SVR算法的可行性与聚类性能,本文分别使用了两组人工模拟数据集和四组真实数据集进行实验,并与其他几种经典聚类算法做对比,聚类结果表明此算法具有可行性并且运行效率和聚类质量相较于一般聚类算法表现要好。
【关键词】:聚类分析 支持向量排序 分割聚类 核宽度系数 惩罚因子
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18;TP311.13
【目录】:
- 摘要4-6
- Abstract6-10
- 第1章 绪论10-15
- 1.1 研究背景和意义10-11
- 1.2 领域研究现状11-12
- 1.3 本文主要工作12-13
- 1.4 本文组织结构13-15
- 第2章 聚类分析背景15-26
- 2.1 聚类分析定义15
- 2.2 聚类分析基础理论15-19
- 2.2.1 聚类相似性度量15-17
- 2.2.2 聚类目标函数17-18
- 2.2.3 聚类评价标准18-19
- 2.3 几种常见聚类算法19-24
- 2.3.1 基于划分聚类算法19-20
- 2.3.2 基于层次聚类算法20-21
- 2.3.3 基于网格聚类算法21-22
- 2.3.4 基于密度聚类算法22-23
- 2.3.5 基于模型聚类算法23
- 2.3.6 支持向量聚类算法23-24
- 2.3.7 混合聚类算法24
- 2.4 本章小结24-26
- 第3章 基于支持向量排序的分割聚类算法26-38
- 3.1 点排序分割聚类算法26-28
- 3.1.1 点排序26-27
- 3.1.2 分割聚类27-28
- 3.2 支持向量聚类算法28-31
- 3.2.1 聚类训练28-30
- 3.2.2 聚类分配30-31
- 3.2.3 SVC算法特征分析31
- 3.3 PC-SVR算法过程31-35
- 3.3.1 SV排序32-34
- 3.3.2 分割聚类34-35
- 3.4 PC-SVR算法实现流程35-37
- 3.5 本章小结37-38
- 第4章 实验仿真与结果分析38-52
- 4.1 实验数据集38-39
- 4.1.1 人工数据集38-39
- 4.1.2 真实数据集39
- 4.2 实验结果评价标准39-41
- 4.2.1 Rand指数39-40
- 4.2.2 Adjust Rand指数40
- 4.2.3 Accuracy指标40-41
- 4.3 实验结果及分析41-51
- 4.3.1 PC-SVR性能影响因素41-44
- 4.3.2 PC-SVR实验结果与分析44-51
- 4.4 本章小结51-52
- 第5章 总结与展望52-54
- 5.1 总结52-53
- 5.2 展望53-54
- 参考文献54-57
- 作者简介及在学期间所取得的科研成果57-58
- 致谢58
【参考文献】
中国期刊全文数据库 前4条
1 陶新民;徐晶;杨立标;刘玉;;一种改进的粒子群和K均值混合聚类算法[J];电子与信息学报;2010年01期
2 宋浩远;;基于模型的聚类方法研究[J];重庆科技学院学报(自然科学版);2008年03期
3 曾志雄;;一种有效的基于划分和层次的混合聚类算法[J];计算机应用;2007年07期
4 吴文丽;刘玉树;赵基海;;一种新的混合聚类算法[J];系统仿真学报;2007年01期
中国硕士学位论文全文数据库 前1条
1 李明达;基于点排序的相似度分割聚类算法研究[D];吉林大学;2015年
,本文编号:711868
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/711868.html