自适应谱聚类算法并行实现及优化
本文选题:谱聚类 切入点:并行算法 出处:《科研信息化技术与应用》2016年06期
【摘要】:谱聚类算法是基于谱图分割理论的聚类方法,其对高维、非凸数据分布问题有很好的聚类效果。但对大规模数据问题的聚类,该方法存在着计算时间和存储空间等方面的瓶颈。本文给出了一个自适应的谱聚类并行算法,通过局部计算和异步循环通信并行方法,最大限度减少了并行谱聚类中数据通信次数,并通过计算与通信重叠策略,进一步降低了并行算法的通信开销。在并行算法实现中,将自主开发的最优预条件共轭梯度法并行求解器PLOBPCG用于谱聚类的特征降维。在中科院的"元"超级计算机上,通过对两类大规模数据聚类的测试表明,在2048核上的加速比接近线性加速,并行效率达到96%以上。
[Abstract]:Spectral clustering algorithm is a clustering method based on spectral segmentation theory. It has a good clustering effect on the distribution of high-dimensional and non-convex data.However, for the clustering of large-scale data problems, there are some bottlenecks in computing time and storage space.In this paper, an adaptive parallel algorithm for spectral clustering is presented. By means of local computation and asynchronous cyclic communication, the number of data communication in parallel spectral clustering is minimized.The communication overhead of parallel algorithm is further reduced.In the implementation of parallel algorithm, PLOBPCG, a self-developed parallel solver of optimal preconditioned conjugate gradient method, is used to reduce the characteristic dimension of spectral clustering.On the "Yuan" supercomputer of the Chinese Academy of Sciences, the test of two kinds of large-scale data clustering shows that the speedup on the 2048 core is close to linear acceleration, and the parallel efficiency is over 96%.
【作者单位】: 中国科学院大学;中国科学院计算机网络信息中心;
【基金】:数学工程与先进计算国家重点实验室开放基金(2014A03)
【分类号】:TP391.41;TP311.13
【相似文献】
相关期刊论文 前10条
1 汪中;刘贵全;陈恩红;;基于模糊K-harmonic means的谱聚类算法[J];智能系统学报;2009年02期
2 孙昌思核;孔万增;戴国骏;;一种自动确定类个数的谱聚类算法[J];杭州电子科技大学学报;2010年02期
3 兰洋;;改进谱聚类算法在高等院校人才选拔中的应用[J];信阳师范学院学报(自然科学版);2010年04期
4 张力文;丁世飞;许新征;朱红;徐丽;;一种基于成对约束的谱聚类算法[J];广西师范大学学报(自然科学版);2010年04期
5 施培蓓;郭玉堂;胡玉娟;俞骏;;多尺度的谱聚类算法[J];计算机工程与应用;2011年08期
6 杨晓慧;王莉莉;李登峰;;一种新的层次谱聚类算法[J];上海理工大学学报;2014年01期
7 朱强生;何华灿;周延泉;;谱聚类算法对输入数据顺序的敏感性[J];计算机应用研究;2007年04期
8 金慧珍;赵辽英;;多层自动确定类别的谱聚类算法[J];计算机应用;2008年05期
9 孙大雷;孟凡荣;闫秋艳;;一种初始化不敏感的谱聚类算法[J];微电子学与计算机;2012年07期
10 陶新民;宋少宇;曹盼东;付丹丹;;一种基于流形距离核的谱聚类算法[J];信息与控制;2012年03期
相关硕士学位论文 前10条
1 李纯;快速谱聚类算法的研究与应用[D];哈尔滨工程大学;2012年
2 董彬;一种基于主动学习的半监督谱聚类算法研究[D];中国矿业大学;2015年
3 刘萍萍;基于特征间隙检测簇数的谱聚类算法研究[D];南京邮电大学;2015年
4 崔慧岭;一种面向大数据的文本聚类算法[D];湖北师范大学;2016年
5 徐大海;基于分布式的谱聚类算法在虚拟社区发现上的应用研究[D];暨南大学;2016年
6 王有华;基于归一化压缩距离的文本谱聚类算法研究[D];贵州大学;2016年
7 张涛;基于密度估计的谱聚类算法研究与应用[D];江南大学;2016年
8 包秀娟;聚类有效性指标结构分析及应用[D];天津大学;2014年
9 周燕琴;基于改进谱聚类算法在医学图像中的应用研究[D];广西师范学院;2016年
10 孙羊子;基于流形距离的聚类算法研究及其在极光分类中的应用[D];陕西师范大学;2016年
,本文编号:1716064
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1716064.html