基于Hadoop平台的聚类算法并行化研究
发布时间:2018-02-24 17:07
本文关键词: 聚类 Kmeans Canopy Hadoop MapReduce 出处:《吉林大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着信息技术的高速发展,大型商业数据库和互联网都积累了一定规模或者超大规模的数据,这些数据包含着丰富的信息内容。人们迫切希望从这些庞大的数据中发现对其生活、工作有益的潜在信息,如何快速准确地分析现有数据,最大程度地获取其蕴含的价值,已经成为许多公司和学者共同面对的问题。聚类算法在所有的数据挖掘方法中占有举足轻重的地位,是将待分类对象从未知过渡到已知的有效措施。Hadoop是一种开源的能够运行在大量节点之上的分布式系统,Map Reduce计算模型是其生态环境中的重要组成部分,与以前的并行计算模式相比,它能够极大地简化分布式并行化程序的开发过程。本文主要工作以及创新点如下:(1)针对串行化的Kmeans算法处理海量数据集效率低下的问题,本文设计了基于Hadoop的Kmeans并行化算法,并对其实现细节进行优化,从而进一步提升算法处理海量数据的性能。优化策略主要有:对输入数据进行min-max标准化处理;调整HDFS数据块大小;在Map阶段和Reduce阶段中间添加Combine过程,通过对Map阶段输出结果进行合并来减少数据节点间的通信。(2)针对Kmeans并行化算法指定初始聚类中心随机性的问题,本文采用Canopy算法快速聚类得到一组初始聚类中心,同时针对Canopy算法的区域半径盲目取值会造成canopy中心点不准确问题,本文提出了改进的Canopy-Kmeans并行化算法。主要改进有:提出区域半径的估值方法来改善canopy中心点的选取,从而减少算法迭代次数;优化Kmeans迭代过程来减少整体计算量,进一步提高迭代速度;删除数据集中的孤立点,得到更准确的初始聚类中心。(3)通过搭建Hadoop平台对基于Map Reduce的改进Canopy-Kmeans并行化算法进行了一系列的测试来验证其性能。实验结果表明:改进的Canopy-Kmeans并行化算法是有效的、收敛的,且可以进一步提升聚类准确率,减少算法迭代次数;该算法具有良好的可扩展性和加速比性能,进一步验证了本文设计的并行化算法适合处理海量数据集。
[Abstract]:This paper presents a series of tests to improve the performance of the distributed parallelizing program . The optimization strategy is as follows : ( 1 ) To improve the performance of the distributed parallelizing program .
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 张伟;姜恺;刘洪;;直接模拟Monte Carlo方法并行化研究[J];计算机应用与软件;2009年09期
2 吴正娟;职为梅;杨勇;范明;;并行化的粒子群技术[J];微计算机信息;2009年36期
3 齐书阳;;迎接并行化的明天[J];软件世界;2009年06期
4 曹琳,杨学军,金国华;两种并行化机制的分析[J];计算机研究与发展;1993年09期
5 金国华,,陈福接;并行化技术与工具[J];计算机研究与发展;1996年07期
6 蔡立志,童维勤,廖文昭;序列拼装程序的并行化研究与实现[J];计算机工程与应用;2003年14期
7 王伟;潘建伟;;有限差分法的并行化计算实现[J];电脑知识与技术;2008年07期
8 程锦松;;迭代法的并行化[J];安徽大学学报(自然科学版);1997年03期
9 陈再高;王s
本文编号:1531031
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1531031.html