基于多粒度-粒球划分的快速k-means聚类算法研究
发布时间:2023-10-12 05:23
k-means算法是机器学习中一种经典的被广泛应用的无监督学习算法。k-means算法在处理大规模聚类场景下的效率提升具有重要研究价值,本文为提升k-means算法在大数据场景下的效率提出了两种改进方案,第一种是基于粒球划分的精确kmeans加速算法,第二种是基于近邻信息的近似k-means加速算法。本文提出的第一种改进k-means算法称为Ball k-means,是一种精确加速算法,通过粒球模型来描述一个簇类。该算法主要通过减少数据点与聚类中心之间的不必要的距离计算从而达到降低运行时间来提高效率的目的。该算法中的近邻搜索方式可以准确地为每个粒球找到其近邻粒球,从而使得一个数据样本点仅仅需要计算到其相邻近的粒球的聚类中心的距离;此外,每个粒球还可以被划分为“稳定域”和“活动域”,而“活动域”可以进一步划分为许多“环形域”。“稳定域”中的数据点在当前迭代轮次中不会更改,而“环形域”中的点在当前迭代轮次中将在一些近邻粒球之间进行调整;另外,还设计了一种方法来降低每轮迭代中粒球球心之间的欧式距离计算;针对k-means算法在后期迭代过程中越来越多的粒球会逐渐趋于“不变”,本文提出了一种方法...
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 研究现状及存在的问题
1.2.1 基于初始聚类中心的改进
1.2.2 近似加速k-means改进
1.2.3 精确加速k-means改进
1.2.4 其它改进方案
1.3 论文主要工作
1.4 论文组织结构
第2章 相关理论介绍
2.1 多粒度简述
2.2 数据挖掘简述
2.3 聚类分析方法
2.4 k-means算法介绍
2.5 本章小结
第3章 基于粒球的快速精确k-means算法
3.1 概述
3.2 近邻粒球的搜索及粒球的划分
3.2.1 近邻粒球的搜索
3.2.2 粒球的划分
3.3 球心间的距离更新及迭代中的不变粒球
3.3.1 球心间的距离更新
3.3.2 迭代中的不变粒球
3.4 实验与分析
3.5 本章小结
第4章 基于近邻信息的快速近似k-means算法
4.1 概述
4.2 搜索局部化策略
4.3 近邻更新方法
4.4 实验及分析
4.5 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
本文编号:3853531
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 研究现状及存在的问题
1.2.1 基于初始聚类中心的改进
1.2.2 近似加速k-means改进
1.2.3 精确加速k-means改进
1.2.4 其它改进方案
1.3 论文主要工作
1.4 论文组织结构
第2章 相关理论介绍
2.1 多粒度简述
2.2 数据挖掘简述
2.3 聚类分析方法
2.4 k-means算法介绍
2.5 本章小结
第3章 基于粒球的快速精确k-means算法
3.1 概述
3.2 近邻粒球的搜索及粒球的划分
3.2.1 近邻粒球的搜索
3.2.2 粒球的划分
3.3 球心间的距离更新及迭代中的不变粒球
3.3.1 球心间的距离更新
3.3.2 迭代中的不变粒球
3.4 实验与分析
3.5 本章小结
第4章 基于近邻信息的快速近似k-means算法
4.1 概述
4.2 搜索局部化策略
4.3 近邻更新方法
4.4 实验及分析
4.5 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
本文编号:3853531
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3853531.html