当前位置:主页 > 科技论文 > 软件论文 >

基于快速地标采样的大规模谱聚类算法

发布时间:2018-05-01 07:29

  本文选题:地标点采样 + 大数据 ; 参考:《电子与信息学报》2017年02期


【摘要】:为避免传统谱聚类算法高复杂度的应用局限,基于地标表示的谱聚类算法利用地标点与数据集各点间的相似度矩阵,有效降低了谱嵌入的计算复杂度。在大数据集情况下,现有的随机抽取地标点的方法会影响聚类结果的稳定性,k均值中心点方法面临收敛时间未知、反复读取数据的问题。该文将近似奇异值分解应用于基于地标点的谱聚类,设计了一种快速地标点采样算法。该算法利用由近似奇异向量矩阵行向量的长度计算的抽样概率来进行抽样,同随机抽样策略相比,保证了聚类结果的稳定性和精度,同k均值中心点策略相比降低了算法复杂度。同时从理论上分析了抽样结果对原始数据的信息保持性,并对算法的性能进行了实验验证。
[Abstract]:In order to avoid the high complexity of the traditional spectral clustering algorithm, the spectral clustering algorithm based on landmarks can effectively reduce the computational complexity of spectral embedding by using the similarity matrix between the ground punctuation points and the data sets. In the case of big data set, the existing random sampling ground punctuation methods will affect the stability of the clustering results and the k-means centroid method will face the problem of the unknown convergence time and the problem of repeatedly reading the data. In this paper, the approximate singular value decomposition is applied to the spectral clustering based on geopunctuation, and a fast punctuation sampling algorithm is designed. The algorithm uses the sampling probability calculated by the length of the approximate singular vector matrix row vector to carry out the sampling. Compared with the random sampling strategy, the stability and accuracy of the clustering results are guaranteed. Compared with the k-means center point strategy, the algorithm complexity is reduced. At the same time, the information retention of the sampling results to the original data is analyzed theoretically, and the performance of the algorithm is verified experimentally.
【作者单位】: 解放军信息工程大学;数学工程与先进计算国家重点实验室;
【基金】:国家973计划(2012CB315905) 国家自然科学基金(61502527,61379150)~~
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 蔡晓妍;戴冠中;杨黎斌;;谱聚类算法综述[J];计算机科学;2008年07期

2 汪中;刘贵全;陈恩红;;基于模糊K-harmonic means的谱聚类算法[J];智能系统学报;2009年02期

3 孙昌思核;孔万增;戴国骏;;一种自动确定类个数的谱聚类算法[J];杭州电子科技大学学报;2010年02期

4 兰洋;;改进谱聚类算法在高等院校人才选拔中的应用[J];信阳师范学院学报(自然科学版);2010年04期

5 张力文;丁世飞;许新征;朱红;徐丽;;一种基于成对约束的谱聚类算法[J];广西师范大学学报(自然科学版);2010年04期

6 施培蓓;郭玉堂;胡玉娟;俞骏;;多尺度的谱聚类算法[J];计算机工程与应用;2011年08期

7 杨晓慧;王莉莉;李登峰;;一种新的层次谱聚类算法[J];上海理工大学学报;2014年01期

8 朱强生;何华灿;周延泉;;谱聚类算法对输入数据顺序的敏感性[J];计算机应用研究;2007年04期

9 金慧珍;赵辽英;;多层自动确定类别的谱聚类算法[J];计算机应用;2008年05期

10 孙大雷;孟凡荣;闫秋艳;;一种初始化不敏感的谱聚类算法[J];微电子学与计算机;2012年07期

相关博士学位论文 前1条

1 吕绍高;统计学习中回归与正则化谱聚类算法的研究[D];中国科学技术大学;2011年

相关硕士学位论文 前10条

1 李纯;快速谱聚类算法的研究与应用[D];哈尔滨工程大学;2012年

2 董彬;一种基于主动学习的半监督谱聚类算法研究[D];中国矿业大学;2015年

3 刘萍萍;基于特征间隙检测簇数的谱聚类算法研究[D];南京邮电大学;2015年

4 孙承祥;双馈型风电机组的风电场建模研究[D];华北电力大学;2015年

5 崔慧岭;一种面向大数据的文本聚类算法[D];湖北师范大学;2016年

6 徐大海;基于分布式的谱聚类算法在虚拟社区发现上的应用研究[D];暨南大学;2016年

7 王有华;基于归一化压缩距离的文本谱聚类算法研究[D];贵州大学;2016年

8 张涛;基于密度估计的谱聚类算法研究与应用[D];江南大学;2016年

9 包秀娟;聚类有效性指标结构分析及应用[D];天津大学;2014年

10 周燕琴;基于改进谱聚类算法在医学图像中的应用研究[D];广西师范学院;2016年



本文编号:1828350

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1828350.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户493d6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com