一种MapReduce架构下基于遗传算法的K-Medoids聚类
本文选题:海量数据 + K-Medoids ; 参考:《计算机科学》2017年03期
【摘要】:由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其优点是可以有效处理孤立、噪声点,但面临着初始中心敏感、容易陷入局部最优值、处理大数据时的CPU和内存瓶颈等问题。为解决上述问题,提出了一种MapReduce架构下基于遗传算法的K-Medoids聚类。利用遗传算法的种群进化特点改进K-Medoids算法的初始中心敏感的问题,在此基础上,利用MapReduce并行遗传K-Medoids算法提高算法效率。通过带标签的数据集进行实验的结果表明,运行在Hadoop集群上的基于MapReduce和遗传算法的K-Medoids算法能有效提高聚类的质量和效率。
[Abstract]:The huge amount of data generated by the rapid development of the Internet era has brought great challenges to the traditional clustering methods. How to improve the clustering algorithm to obtain effective information has become the current research hotspot. K-Medoids is a common partition-based clustering algorithm. Its advantage is that it can deal with isolated and noise points effectively, but it is faced with some problems such as initial center sensitivity, easy to fall into local optimal value, CPU and memory bottleneck when processing big data. In order to solve the above problems, a genetic algorithm based K-Medoids clustering based on MapReduce is proposed. The problem of initial center sensitivity of K-Medoids algorithm is improved by using the characteristics of population evolution of genetic algorithm. On this basis, MapReduce parallel genetic K-Medoids algorithm is used to improve the efficiency of the algorithm. The experimental results of tagged data sets show that the K-Medoids algorithm based on MapReduce and genetic algorithm running on Hadoop cluster can effectively improve the quality and efficiency of clustering.
【作者单位】: 天津大学计算机科学与技术学院;天津市认知计算与应用重点实验室;
【基金】:国家自然科学基金项目(61170177) 国家重点基础研究发展计划项目(2013CB32930X)资助
【分类号】:TP311.13;TP18
【参考文献】
相关期刊论文 前5条
1 张雪萍;龚康莉;赵广才;;基于MapReduce的K-Medoids并行算法[J];计算机应用;2013年04期
2 唐朝霞;;一种改进的基于遗传算法的K均值聚类算法[J];成都大学学报(自然科学版);2011年02期
3 赖玉霞;刘建平;杨国兴;;基于遗传算法的K均值聚类分析[J];计算机工程;2008年20期
4 王小良;李强;;并行遗传算法研究及其应用[J];微计算机信息;2007年09期
5 郭彤城,慕春棣;并行遗传算法的新进展[J];系统工程理论与实践;2002年02期
【共引文献】
相关期刊论文 前10条
1 赖向阳;宫秀军;韩来明;;一种MapReduce架构下基于遗传算法的K-Medoids聚类[J];计算机科学;2017年03期
2 冯勇;郭军;徐红艳;付潇莹;;一种基于解空间分割的并行遗传算法[J];计算机与数字工程;2017年02期
3 李媛媛;孙玉强;晁亚;刘阳;;云环境下的高效K-Medoids并行算法[J];计算机测量与控制;2016年12期
4 蔡娟;李东新;;基于优化k均值建模的运动目标检测算法[J];国外电子测量技术;2016年12期
5 戎容;吴萍;;基于遗传算法的股票市场选择模型[J];计算机工程与应用;2016年18期
6 陈勇;;聚类分析在船舶碰撞中的应用分析[J];舰船科学技术;2016年14期
7 柯尊旺;于炯;廖彬;;适应异构集群的Mesos多资源调度DRF增强算法[J];计算机应用;2016年05期
8 宋红海;颜宏文;;基于优化粒计算下微粒子动态搜索的K-medoids聚类算法[J];智能计算机与应用;2016年02期
9 牛东岭;李笑;康熙;刘刚;;基于空间聚类的农田土地平整区域规划方法研究[J];农业机械学报;2015年S1期
10 杨光;钟_,
本文编号:2075190
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2075190.html