基于Spark的文本谱聚类算法并行化研究
发布时间:2019-08-03 07:02
【摘要】:随着信息技术的飞速发展,互联网上的数据呈现爆炸式增长,其中大部分数据以文本信息的形式存在。在大数据的时代背景下,面对大规模的文本数据,传统的单机串行式文本聚类算法在存储和计算速度方面存在瓶颈。随着分布式计算框架(如Hadoop,Spark等)的出现,为传统的算法提供了并行化的解决方案。基于图论的谱聚类算法克服了一些传统聚类算法的缺点,能够在任意形状的样本空间得到聚类结果的全局最优解。结合谱聚类算法和分布式计算框架Spark,对大规模的文本数据集用并行化谱聚类算法进行聚类。Apache Spark是一个通用的并行计算框架,通过内存计算能极大地提高大数据计算的速度。在Spark计算框架上实现基于谱聚类算法的并行化,利用Spark计算平台的可伸缩性和基于内存计算等特点,将谱聚类算法结合Spark计算框架应用在文本聚类中,实现对海量文本数据进行并行处理和文本聚类,使谱聚类算法能够适应数据规模的扩展,并提高文本聚类的性能。相对于传统的聚类方法(如K-Means算法),实验结果显示基于图论和矩阵计算的谱聚类算法在文本聚类中的查准率、查全率以及F值等方面的聚类效果要好于其他聚类算法。结合Spark编程模型和谱聚类算法相互依赖的步骤分解,分别研究设计了并行化的文本向量间的相似矩阵计算、拉普拉斯矩阵的最小前k个特征值对应的特征向量分解和降维后的特征矩阵的K-Means聚类。分析各步骤的时间复杂度,统计不同规模集群下算法运行时间的加速比。实验结果表明,基于Spark的谱聚类算法在文本聚类中具有良好的聚类效果和运行性能。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
本文编号:2522412
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【参考文献】
相关期刊论文 前5条
1 张雪萍;龚康莉;赵广才;;基于MapReduce的K-Medoids并行算法[J];计算机应用;2013年04期
2 张磊;张公让;张金广;;一种网格化聚类算法的MapReduce并行化研究[J];计算机技术与发展;2013年02期
3 鲁伟明;杜晨阳;魏宝刚;沈春辉;叶振超;;基于MapReduce的分布式近邻传播聚类算法[J];计算机研究与发展;2012年08期
4 徐森;卢志茂;顾国昌;;解决文本聚类集成问题的两个谱算法[J];自动化学报;2009年07期
5 汤效琴,戴汝源;数据挖掘中聚类分析的技术方法[J];微计算机信息;2003年01期
,本文编号:2522412
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2522412.html