聚类融合算法及其在移动通信企业的应用
发布时间:2024-03-24 22:06
聚类,作为数据挖掘技术研究的热点之一,受到越来越多的关注。聚类的主要任务就是把数据集划分成有意义或有用的组。随着数据库技术的飞速发展,各行各业中的信息数据也急剧地增长,而且数据的类型也由单一的数值型、文本型逐渐转变成混合型,这就对聚类分析技术提出了新的要求。从已有的文献来看,能有效处理混合型数据的算法相对较少。基于这一现状,本文重点研究了面向混合型数据的聚类融合算法,同时对其在移动通信行业中的应用进行了探讨。 本文对已有的算法进行了研究比较之后,提出了一种基于图的聚类融合算法——GCE算法。该算法选取能处理混合型数据的k-prototypes算法和CBL算法作为聚类成员进行融合,以图为基础,利用图中顶点和边的权值设置来确定数据点之间的联系,通过数据点之间共享最近邻数来确定融合函数。通过公共数据集上的实验,结果表明该算法不仅能很好地处理混合型属性数据,而且得到比单一算法更为优越的结果。此外,本文还分析了4种聚类成员差异性度量与融合准确度之间的关系,实验结果表明成员大小为15到20左右,待聚类数据集有均匀簇分布时,各种差异性度量与融合方法性能间的相关程度最高。 本文最后将此聚类融合算法成功...
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
本文编号:3938088
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图3.1oiffieultdoughnut数据集(a图中分为两类;b图中分为四类)
的方法就是基于集群的几何特征来进行,然而每种方法均是只适用。如果要利用某种方法找到真实的聚类个数,首先就要对数据集的假设。可能的情况是:同一数据集中有不同的集群形状或者在真实任何有关集群形状的信息。将一种聚类稳定性能计量方法同某种特定的聚类算法相结合将会因此,当这种计量方法显示数....
图3.2两个点之间的共享最近部相似度的计算
否应该把这三个对象归结到同一个簇当中呢?又或者对象i和j“真的”相似,他们是否与同一对象k都不相似呢?所以,我们考虑采用共享最近邻的思想来提供一种稳定的方法分析对象间的相似性。共享最近邻的解释如图3.2所示。因此,接下来我们将设计一种严格的融合函数以帮助我们揭示数据集的真实自然结....
图3.5人工数据集可视化图
图3.5人工数据集可视化图(a)是20一Ze数据集,(b)是20一3C数据集,(e)是ZC一NonConvex数据集图3.5(a)、(b)、(c)是采用人工数据集运行聚类融合算法得到的可视化结果。该人工数据20一ZC、Zn一3C、Ze一NonConvex的自然簇分别为(50,1....
图3.7Ecoli数据集中三种算法准确率的比较
不包含丢失数据,数据记录用来测试生物蛋白在原核细胞中的位置。为了验证算法的性能,采用k一Protot即es算法、CBL算法以及本文提出的GcE融合算法对数据集聚类,得到的算法准确率进行了对比。比较三种聚类算法在不同聚类结果数目下的聚类准确率结果,如图3.7所示聚类结果数目从2到8....
本文编号:3938088
本文链接:https://www.wllwen.com/jingjilunwen/xxjj/3938088.html