基于鲁棒子空间表示的多视角子空间聚类与社区发现的研究
发布时间:2021-07-23 01:37
随着科学技术的日新月异,现今人们获取数据的能力也越来越强,所获取的数据往往具有规模大、维度高、多视角和多样化等特征,如何从数据中分析出有意义、有价值的信息尤为显得重要。对数据的分析,需要揭示数据中内在的复杂性和真实维度,并且能覆盖数据的全局和局部结构特征,而子空间表示算法恰好能够从高维数据中挖掘出数据潜在的低维数据结构特征,是一种有效的处理高维数据的方法。近年来,子空间表示的相关问题已成为学者们的研究热点,比如基于稀疏表示、低秩表示和Frobenius范数约束的子空间表示算法等,在分析高维和多视角数据时都取得了一定的成效,但是,该类算法仍然存在对数据的挖掘不够深入和应用不够广泛的问题。对于多视角数据,现有的多视角子空间聚类算法,在协调利用所有视角的数据信息时,仍然存在不足,从而,造成算法的性能不够好。此外,社区网络数据也是一种复杂的高维数据,在本文中进一步将子空间表示应用于分析社区网络数据。在每个社区中的节点可以看成是在测地线空间中张成的一个子空间,目前对基于子空间表示的社区检测算法研究依然不够充分,而已有的相关算法对网络中的噪声很敏感,缺乏准确学习社区结构的能力。针对上述问题,本文的...
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
LRR算法自动纠正数据中错误的能力验证Fig2.2TheabilityofLRRalgorithmtoautomaticallycorrecterrorsindata
安徽大学硕士学位论文37第五,验证参数设置对算法性能的影响。MVSS用参数和平衡数据表示矩阵和相似性矩阵。我们测试随着两个参数的变化,用S和Z*构建的两个图的聚类性能。为了方便起见,我们随机的选取了在数据集Handwrittennumerals(HW)上实验,近邻数k根据之前做实验的经验设置为6,参数和设置的范围为{0.1,5,10,20,50}。在图3.3,(a)和(b)展示了用图G1聚类,其评价指标ACC和NMI的随着参数变化而变化的情况,(c)和(d)展示了用图G2聚类,其评价指标ACC和NMI的变化情况。从图(a)和(b)中可以看出,当用图G1且参数=0.1时,评价指标值相对较低,除此之外,当参数设置在一个较大的范围变化时,实验结果都非常稳定。将(a)(b)和(c)(d)相比较,图(a)(b)对参数更加敏感,这也证明了我们算法中使用数据表示矩阵和相似性矩阵构建的图更加鲁棒,对于高维数据中潜在的低维数据结构学习的效果更好。图3.3MVSC算法参数的变化对聚类结果的影响Fig3.3TheinfluenceofMVSCalgorithmparametersonclusteringresults
第四章基于鲁棒子空间表示的社区检测40高的节点更倾向于聚类到同一个社区中;第二步,用S作为数据输入,应用于子空间表示的相关聚类模型中,学习网络的低维数据结构,像SSCF[48]和LRSCD[49]算法就是分别学习数据的稀疏和低秩表示;第三步,将子空间表示矩阵和邻接矩阵A融合,再聚类划分出网络中的社区。图4.1基于子空间聚类的社区检测算法概述Fig4.1Anoverviewofcommunitydetectionalgorithmbasedonsubspaceclustering4.3算法实现这部分将介绍我们提出的算法的具体实现,首先是对原始网络数据的处理,接着,将网络社区数据表示应用到自加权的鲁棒子空间表示算法中,学习数据的低维子空间表示,最后,总结算法实现的关键步骤。4.3.1网络数据处理已知给定网络G,共有n个节点,m个连接,则其可用邻接矩阵Ann表示,如果两个节点iv和jv之间有边连接,则对应邻接矩阵A(i,j)1,否则,A(i,j)0。邻接矩阵A的每一列都记录着相应节点与其他节点之间的关系,比如,邻接矩阵A中第i列向量Ai表示:第i个节点vi与其他所有节点是否有联系。很好的刻画了iv这个节点的与其他节点的直接关系,但对于距离超过一个连接的节点数据来说,用邻接矩阵A就不能描述它们之间的联系了。如果单纯的用邻接矩阵来刻画数据的结构,对于有直接连线数据对来说是很准确的,但是如果想要刻画整体数据的结构,还需要进一步的进行转换。基于已经获得的网络数据的邻接矩阵,计算节点间的测地线距离。测地线距离是表示两个节点间的最短路径,因为这里我们用的是不加权的网络,所以,测地线距离就是两个节点间的最短路径上的连接数。目前有许多快速计算测地线距离的算法[23],能高效地进行计算。用矩阵Pnn表示我们计算得到的测地线距离矩阵,对于矩阵P的第i列
本文编号:3298321
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
LRR算法自动纠正数据中错误的能力验证Fig2.2TheabilityofLRRalgorithmtoautomaticallycorrecterrorsindata
安徽大学硕士学位论文37第五,验证参数设置对算法性能的影响。MVSS用参数和平衡数据表示矩阵和相似性矩阵。我们测试随着两个参数的变化,用S和Z*构建的两个图的聚类性能。为了方便起见,我们随机的选取了在数据集Handwrittennumerals(HW)上实验,近邻数k根据之前做实验的经验设置为6,参数和设置的范围为{0.1,5,10,20,50}。在图3.3,(a)和(b)展示了用图G1聚类,其评价指标ACC和NMI的随着参数变化而变化的情况,(c)和(d)展示了用图G2聚类,其评价指标ACC和NMI的变化情况。从图(a)和(b)中可以看出,当用图G1且参数=0.1时,评价指标值相对较低,除此之外,当参数设置在一个较大的范围变化时,实验结果都非常稳定。将(a)(b)和(c)(d)相比较,图(a)(b)对参数更加敏感,这也证明了我们算法中使用数据表示矩阵和相似性矩阵构建的图更加鲁棒,对于高维数据中潜在的低维数据结构学习的效果更好。图3.3MVSC算法参数的变化对聚类结果的影响Fig3.3TheinfluenceofMVSCalgorithmparametersonclusteringresults
第四章基于鲁棒子空间表示的社区检测40高的节点更倾向于聚类到同一个社区中;第二步,用S作为数据输入,应用于子空间表示的相关聚类模型中,学习网络的低维数据结构,像SSCF[48]和LRSCD[49]算法就是分别学习数据的稀疏和低秩表示;第三步,将子空间表示矩阵和邻接矩阵A融合,再聚类划分出网络中的社区。图4.1基于子空间聚类的社区检测算法概述Fig4.1Anoverviewofcommunitydetectionalgorithmbasedonsubspaceclustering4.3算法实现这部分将介绍我们提出的算法的具体实现,首先是对原始网络数据的处理,接着,将网络社区数据表示应用到自加权的鲁棒子空间表示算法中,学习数据的低维子空间表示,最后,总结算法实现的关键步骤。4.3.1网络数据处理已知给定网络G,共有n个节点,m个连接,则其可用邻接矩阵Ann表示,如果两个节点iv和jv之间有边连接,则对应邻接矩阵A(i,j)1,否则,A(i,j)0。邻接矩阵A的每一列都记录着相应节点与其他节点之间的关系,比如,邻接矩阵A中第i列向量Ai表示:第i个节点vi与其他所有节点是否有联系。很好的刻画了iv这个节点的与其他节点的直接关系,但对于距离超过一个连接的节点数据来说,用邻接矩阵A就不能描述它们之间的联系了。如果单纯的用邻接矩阵来刻画数据的结构,对于有直接连线数据对来说是很准确的,但是如果想要刻画整体数据的结构,还需要进一步的进行转换。基于已经获得的网络数据的邻接矩阵,计算节点间的测地线距离。测地线距离是表示两个节点间的最短路径,因为这里我们用的是不加权的网络,所以,测地线距离就是两个节点间的最短路径上的连接数。目前有许多快速计算测地线距离的算法[23],能高效地进行计算。用矩阵Pnn表示我们计算得到的测地线距离矩阵,对于矩阵P的第i列
本文编号:3298321
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3298321.html
最近更新
教材专著