当前位置:主页 > 科技论文 > 自动化论文 >

基于拓扑关系的距离度量与聚类算法研究

发布时间:2019-09-18 05:01
【摘要】:聚类分析作为机器学习领域的重要研究方向之一,吸引了很多学者的关注。在聚类分析中,距离度量是影响聚类算法精度的重要因素。在传统的聚类算法中,一般使用欧氏距离来度量样本之间的相似性然后根据相似性进行下一步簇的划分。虽然欧氏距离容易理解和实现,但是它假设输入空间是各向同性的。然而各向同性的假设与现实社会的很多实际应用是不吻合的,这样欧氏距离度量便不能真实反映输入样本之间的相似性关系,在实际应用中的表现也会受到很大限制。此外,欧氏距离在计算两个数据样本之间的相似性时,仅仅考虑两个样本之间的数据信息,而忽略了所有其他样本的信息,这就造成了数据信息的浪费。针对这些不足,本文提出了两种可以挖掘数据样本之间拓扑结构关系的新型距离度量。具体的新型距离度量为有效距离度量和融合欧氏距离与Kendall Tau距离的距离度量。我们的新型距离度量不要求输入空间是各向同性的,也就是我们定义的两个样本之间的距离可以是不对等的。本文的主要工作和创新点如下:第一,提出一种基于稀疏重构的有效距离度量。稀疏重构可以构建高效的数据表示模式,通过L1范数的约束,从多个样本中选择相似性高的样本用于重构目标样本。本文提出的基于稀疏重构的有效距离度量,在计算样本集中两个样本之间的距离时,首先利用稀疏重构的方法得到目标样本以及其他所有相关样本的相似性关系,然后通过有效距离定义计算得到样本之间的距离。有效距离不仅考虑两个样本之间的关系,同时考虑目标样本与样本集中其他样本之间的拓扑关系,具有全局性。基于有效距离度量,我们对经典的聚类算法,如:K均值聚类算法、K中心点聚类算法、模糊C均值聚类算法和谱聚类算法等进行了改进。最后在多个UCI数据集上,验证了改进后的算法的有效性。第二,提出一种新的融合欧氏距离与Kendall Tau距离的谱聚类算法。首先,我们度量样本之间的直接欧氏距离关系以及Kendall Tau结构拓扑关系,然后我们使用非线性的迭代扩散融合方法融合基于欧氏距离的相似性矩阵与基于Kendall Tau距离的相似性矩阵,最后我们将得到的新的融合相似性矩阵应用到谱聚类算法中。我们在多个UCI数据集,验证了基于融合欧氏距离与Kendall Tau距离的谱聚类算法的有效性。实验结果表明,我们提出的有效距离度量和融合欧氏距离与Kendall Tau距离的距离度量能够提高聚类算法的聚类精度。
【图文】:

示意图,有效距离,示意图


我们提出了通过概率形式反映样本之间全局性结构信息的有效距离度量。我们提出逡逑的有效距离依赖于数据样本构成的双向网络,利用概率思想,考虑了周围其他样本对目标样本逡逑的影响,从全局角度考虑了样本之间的动态结构关系。详细的有效距离展示图如图3.1所示。逡逑假设有A、B、C、D四个数据样本点。图3.1(a)是四个样本点之间的有向关系图,图中各逡逑边所占的权重值相等。图3.1(b)中,我们通过计算概率值P丨n|m)表示有向图中两两样本点中逡逑间的边在与所有与它相连的边集合中所占的比重,为了更加直观地展示图中边的权重情况,我逡逑们将权重大的边,用比较粗的宽度边也表不。概率值表不从m点出发到达n点的直接逡逑路径数与所有从m点出发的直接路径数的比值。例如,概率值P丨|,表示从A点到逡逑B点的概率是|,其中4表示从4点出发的路径总共有4条,,1表示其中有1条路径可以直接逡逑到达B点。另外,从图3.1(b)中容易看出,从B点出发到达D点的概率(如,=邋1逡逑)明显大于从C点出发到达D点的概率(如

聚类算法,结果对比


逦63.13逦71.23逦84.90逦73.50逦76.64逡逑一个箱形对应的横线从下到上依次为:下边缘线、下四分位线、中位数线、上四分位线以及上逡逑边缘线。从图3.2可以明显看出,所有的基于有效距离的算法的各条线都比传统的聚类算法的逡逑对应线要高,表明新的算法明显优于传统算法。逡逑80-逦=f=逦逦逡逑?邋一逡逑曹邋?邋一^n逦t逦逡逑u逦——逡逑<邋60- ̄—逦逡逑|邋i逦^逦^逦^逡逑?邋50邋—邋—逦逦逦逦逦?逦■—逡逑°逦u邋-邋u逦u逡逑圳4逦'i1逦^逦y逦T逡逑30l逦1逦^逦1逦1逦*逦—*—=丨逡逑K-means逦EK-means逦K-raedoids逦EK-medoids逦FCM逦EFCM逡逑Clustering邋Algorithms逡逑图3.2逦聚类算法结果对比图逡逑正如前面第二章聚类算法的评估标准章节所介绍的,聚类算法的性能度量不仅能用聚类逡逑精度:来评估还可以使用Jaccard系数(JC)、FM指数(FMI)和Rand指数(RI)等指标描逡逑述,这些性能度量的结果值均在[0,1]区间内,并且值越大越好。所以我们在两个数据集上就逡逑上述性能指标进行计算。图3.3中,我们详细描述了在Sonar数据集和Habemian数据集上,逡逑EK-means邋与邋K-means、EK-medoids邋与邋K-medoids、EFCM邋与邋FCM:等各种:算法在每个指标下逡逑的性能度量结果值。从图3.3上可以看出,我们提出的基于有效距离的聚类算法在JC、FMI逡逑以及RI等各个指标上的结果值都要高于对应的传统算法的结果值。实验结果表明
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP181

【参考文献】

相关期刊论文 前2条

1 吕清秀;李弼程;高毫林;;基于距离度量学习的DCT域JPEG图像检索[J];太赫兹科学与电子信息学报;2014年01期

2 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期

相关博士学位论文 前1条

1 梅江元;基于马氏距离的度量学习算法研究及应用[D];哈尔滨工业大学;2016年



本文编号:2537326

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2537326.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1e77a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com