基于Hadoop云计算平台的K-Means聚类算法研究
本文选题:Hadoop 切入点:云计算 出处:《哈尔滨理工大学》2017年硕士论文 论文类型:学位论文
【摘要】:聚类分析作为数据挖掘技术最热门的研究方向之一,一直倍受广大研究学者与开发人员的青睐。聚类可以将用户输入的原始数据对象分成数个类簇,算法的目标就是相同类簇内的数据对象间相似程度较高,不同类簇内的数据对象间相似程度较低。随着移动互联网、物联网以及人工智能的发展,Web端产生的信息量越来越庞大,如何高效稳定地对超大规模数据进行聚类分析成为了一个全新的研究课题。Hadoop分布式云计算平台的兴起,使利用多个计算节点进行并行计算去解决传统串行算法的性能问题成为可能。本文深入研究Hadoop分布式云计算平台和聚类算法等相关技术。设计并实现一套基于Hadoop平台的聚类分析系统。系统共分为三层架构,分别为底层驱动层、中间逻辑层以及对外服务层。文中详细阐述系统的设计思想及具体实现过程,旨在将聚类分析具体操作在内部进行高度封装,并对外暴露简单操作接口,使具体算法实现对用户透明,稳定高效地执行聚类分析。通过深入分析K-Means算法中存在的问题,设计基于Hadoop分布式平台的改进方案。使用本文实现的聚类分析系统配置实验环境,分别从并行随机采样、样本距离计算并行化以及数据对象聚类过程并行化三个方向优化算法执行过程,同时对改进的K-Means并行算法流程进行了详细描述。最后分别从收敛速度、正确率、初始化采样速率和集群环境下加速比四个方向对改进的K-Means并行算法进行实验测试。实验结果表明本文设计的基于Hadoop分布式云计算平台的聚类分析系统能够提供高效、稳定、可配置的聚类分析服务。改进的K-Means并行聚类算法能够快速处理大规模的聚类分析计算。
[Abstract]:As one of the hottest research directions of data mining technology, clustering analysis has always been favored by many researchers and developers. Clustering can divide the original data objects input by users into several clusters. The target of the algorithm is that the degree of similarity among data objects in the same cluster is higher, and the similarity degree among data objects in different clusters is lower. With the development of mobile Internet, the Internet of things and the development of artificial intelligence, the amount of information generated by the Web end becomes more and more large. How to cluster large scale data efficiently and stably has become a new research topic, Hadoop distributed cloud computing platform. It is possible to solve the performance problems of traditional serial algorithms by parallel computing with multiple computing nodes. In this paper, we deeply study the Hadoop distributed cloud computing platform and clustering algorithms, and design and implement a set of Hadoop based on cloud computing platform and clustering technology. The system is divided into three layers. In this paper, the design idea and implementation process of the system are described in detail. The purpose of this paper is to encapsulate the concrete operation of cluster analysis in the inside, and to expose the simple operation interface. By analyzing the problems existing in K-Means algorithm, an improved scheme based on Hadoop distributed platform is designed, and the experimental environment is configured with the cluster analysis system realized in this paper. The parallel random sampling, the parallelization of sample distance computation and the parallelization of data object clustering are respectively used to optimize the execution process of the algorithm. At the same time, the improved K-Means parallel algorithm flow is described in detail. Finally, the convergence rate of the improved K-Means parallel algorithm is discussed. The experimental results of the improved K-Means parallel algorithm show that the cluster analysis system based on Hadoop distributed cloud computing platform can provide high efficiency. Stable and configurable clustering services. The improved K-Means parallel clustering algorithm can deal with large scale cluster analysis and computation quickly.
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 李斌,郭剑毅;聚类分析在客户关系管理中的研究与应用[J];计算机工程与设计;2005年02期
2 张宏翔;李星;;基于聚类分析的学生学习相关性研究[J];计算机光盘软件与应用;2013年11期
3 蔡建国;;排序聚类分析在成组技术中的应用[J];机械工艺师;1985年01期
4 董玉祥;排序聚类分析计算程序[J];成组生产系统;1986年01期
5 A·Gongaware,Inyong Ham,焦虹;用于成组制造系统的聚类分析法[J];成组生产系统;1986年02期
6 史逸芬,蔡建国;排序聚类分析法在相似零件成组中的应用[J];成组生产系统;1986年03期
7 徐大威,王鸿歌;聚类分析应用程序系统[J];冶金自动化;1988年01期
8 张春早;会议评判与聚类分析[J];机械工程;1988年02期
9 吴国安;聚类分析在鸟的分类中的应用[J];黑龙江大学自然科学学报;1989年04期
10 卢泽生;;零件分类成组的聚类分析法[J];机械工程师;1990年04期
相关会议论文 前10条
1 梅翠;;我国各地区居民收入差距及其对消费的制约[A];中国现场统计研究会第12届学术年会论文集[C];2005年
2 李均立;傅国华;;海南各县(市)经济实力的聚类分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 刘黄金;曹林峰;;南京服务业发展的聚类分析[A];江苏省现场统计研究会第十次学术年会论文集[C];2006年
4 肖静;杨泽峰;徐辰武;;微阵列表达谱监督聚类分析方法的比较研究[A];江苏省遗传学会第七届代表大会暨学术研讨会论文摘要汇编[C];2006年
5 路爱峰;崔玉杰;;沪市电力上市公司经营业绩的聚类分析[A];中国数学力学物理学高新技术交叉研究学会第十二届学术年会论文集[C];2008年
6 陈国华;廖小莲;夏君;;证券投资分析的聚类分析方法[A];中国企业运筹学[2011(1)][C];2011年
7 张红卫;隗金水;;聚类分析评价与测量效度关系探讨[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
8 牛东晓;乞建勋;;网络资源平衡问题的聚类分析优化遗传算法研究[A];2001年中国管理科学学术会议论文集[C];2001年
9 詹原瑞;彭书杰;李如一;;基于聚类分析的企业信用等级评价方法[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
10 邹晓玫;修春波;;基于聚类分析的犯罪率相关因素的研究[A];当代法学论坛(二○一○年第3辑)[C];2010年
相关博士学位论文 前4条
1 张建萍;基于计算智能技术的聚类分析研究与应用[D];山东师范大学;2014年
2 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年
3 杨旭杰;基于统计方法模型分析的中药复方专利保护研究[D];北京中医药大学;2012年
4 李宝玲;王裕颐教授学术思想与临床经验总结及治疗眩晕证治规律研究[D];北京中医药大学;2012年
相关硕士学位论文 前10条
1 李元俊;大学生就业能力培养与社会需求的匹配性研究[D];山东建筑大学;2015年
2 冯雪冰;基于模糊理论的EM算法在聚类分析的应用研究[D];中国地质大学(北京);2015年
3 张沛之;基于聚类分析的海报风格分类之研究[D];青岛大学;2015年
4 何力骜;基于聚类分析的激光诱导击穿光谱爆炸物识别技术研究[D];北京理工大学;2016年
5 赵文睿;基于聚类分析的中国房地产企业信用评级实证研究[D];吉林大学;2016年
6 贾伟;基于聚类分析和灰色模型的短期雷击预警系统设计[D];吉林大学;2016年
7 栾海洋;动车组质量数据聚类分析研究与应用[D];北京交通大学;2016年
8 黄智函;盗窃犯罪时空分布特征研究[D];福州大学;2014年
9 王冰冰;双类型信息网络聚类分析[D];吉林大学;2016年
10 刘剑;基于聚类分析的CAM模板自动提取的研究[D];华中科技大学;2014年
,本文编号:1600043
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1600043.html