基于Spark平台的K-means聚类算法改进及并行化实现
发布时间:2017-07-26 16:30
本文关键词:基于Spark平台的K-means聚类算法改进及并行化实现
【摘要】:针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进。同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现。单机串行处理和集群并行化实验证明了该改进算法在处理海量数据集时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行。
【作者单位】: 浙江工业大学信息工程学院;
【关键词】: K-means 聚类 Spark 并行化
【基金】:浙江省自然科学基金(No.LY13F010011) 浙江省科技厅重大专项(No.2014NM002)
【分类号】:TP311.13
【正文快照】: 1引言聚类是按照“物以类聚”的思想将数据集合分成若干类或簇,使得每个簇中的数据最大程度地相似,属于一种无监督的学习过程[1]。聚类分析是数据挖掘中的一种常见技术,广泛地应用于市场营销、商品推荐、顾客分类、模式识别、过程优化、数据挖掘、信息安全、配方设计、空间分
【相似文献】
中国期刊全文数据库 前10条
1 吴正娟;职为梅;杨勇;范明;;并行化的粒子群技术[J];微计算机信息;2009年36期
2 齐书阳;;迎接并行化的明天[J];软件世界;2009年06期
3 曹琳,杨学军,金国华;两种并行化机制的分析[J];计算机研究与发展;1993年09期
4 金国华,,陈福接;并行化技术与工具[J];计算机研究与发展;1996年07期
5 蔡立志,童维勤,廖文昭;序列拼装程序的并行化研究与实现[J];计算机工程与应用;2003年14期
6 王伟;潘建伟;;有限差分法的并行化计算实现[J];电脑知识与技术;2008年07期
7 程锦松;;迭代法的并行化[J];安徽大学学报(自然科学版);1997年03期
8 陈再高;王s
本文编号:577336
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/577336.html