当前位置:主页 > 科技论文 > 计算机论文 >

基于MapReduce的K-Medoids并行算法研究

发布时间:2018-02-02 02:05

  本文关键词: K-Medoids 分布式计算 Hadoop 并行采样 出处:《辽宁工程技术大学》2015年硕士论文 论文类型:学位论文


【摘要】:大数据时代,信息呈爆炸性增长,准确的从海量数据中进行数据的挖掘对当今信息化社会具有重要的价值意义。作为基于划分的聚类算法K-Medoids,其较大的时间复杂度以及传统的初始中心点随机选择策略已经无法适应海量数据下的聚类要求。使用MapReduce并行计算模型对算法进行改进,虽然能够提高算法的运行效率,但是无法解决大数据量下的聚类结果不精确,以及收敛性低下的问题,所以必须还要从算法本身出发去解决这些问题。针对传统的K-Medoids算法对初始聚类中心敏感、收敛速度较慢,以及在海量数据环境下所面临的单台计算机的性能瓶颈问题,从中心点替换方法以及初始簇心选择方案入手,并利用MapReduce分布式编程模型结合并行随机采样策略,实现了一种高效的K-Medoids算法,最后利用Hadoop的分布式存储及计算特性,实现算法的二次优化。通过和传统的K-Medoids算法以及K-Means算法比较,改进后的K-Medoids算法在集群环境下不仅有着良好的加速比,在聚类精度以及收敛性上都有了一定程度上的改善。
[Abstract]:In the big data era, the information is increasing explosively. It is of great value to mine the data accurately from the massive data. As a clustering algorithm based on partition K-Medoids, it is of great value to the information society today. Its large time complexity and the traditional random selection strategy of initial center can not meet the clustering requirements of massive data. The algorithm is improved by using MapReduce parallel computing model. Although it can improve the efficiency of the algorithm, it can not solve the problem of inaccurate clustering results and low convergence under the large amount of data. The traditional K-Medoids algorithm is sensitive to the initial clustering center and the convergence speed is slow. And the performance bottleneck of a single computer in the environment of massive data, starting with the center replacement method and the initial cluster center selection scheme. Using MapReduce distributed programming model and parallel random sampling strategy, an efficient K-Medoids algorithm is implemented. Finally, by using the distributed storage and computing characteristics of Hadoop, the quadratic optimization of the algorithm is realized, which is compared with the traditional K-Medoids algorithm and K-Means algorithm. The improved K-Medoids algorithm not only has a good speedup in the cluster environment, but also improves the clustering accuracy and convergence to some extent.
【学位授予单位】:辽宁工程技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP338.6

【相似文献】

相关期刊论文 前10条

1 葛磊;武芳;王鹏波;张冬林;;3维建筑综合中基于最小特征的面平移算法[J];测绘科学技术学报;2009年02期

2 骆雯,孙延明,陈振威,陈锦昌;判断点与封闭多边形相对关系的改进算法[J];机械;1999年03期

3 李林;卢显良;;一种基于切割映射的规则冲突消除算法[J];电子学报;2008年02期

4 刘巧玲;张红英;林茂松;;一种简单快速的图像去雾算法[J];计算机应用与软件;2013年07期

5 林亚平,杨小林;快速概率分析进化算法及其性能研究[J];电子学报;2001年02期

6 章郡锋;吴晓红;黄晓强;何小海;;基于暗原色先验去雾的改进算法[J];电视技术;2013年23期

7 杨铁军;靳婷;;一种动态整周模糊值求解算法及其仿真分析[J];系统工程与电子技术;2007年01期

8 周秀玲;郭平;陈宝维;王静;;几种计算超体积算法的比较研究[J];计算机工程;2011年03期

9 吴一戎,胡东辉,彭海良;Chirp Scaling SAR成象算法及其实现[J];电子科学学刊;1995年03期

10 王贵竹;一种产生单向分解值的算法[J];安徽大学学报(自然科学版);2001年03期

相关会议论文 前10条

1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年

2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年

3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

4 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年

5 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年

7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

8 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

9 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

相关重要报纸文章 前1条

1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年

相关博士学位论文 前10条

1 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年

2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年

3 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年

4 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年

5 王洋;基于群体智能的通信网络告警关联规则挖掘算法研究[D];太原理工大学;2015年

6 雷雨;面向考试时间表问题的启发式进化算法研究[D];西安电子科技大学;2015年

7 熊霖;大数据下的数据选择与学习算法研究[D];西安电子科技大学;2015年

8 周雷;基于图结构的目标检测与分割算法研究[D];上海交通大学;2014年

9 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年

10 蒋亦樟;多视角和迁移学习识别方法和智能建模研究[D];江南大学;2015年

相关硕士学位论文 前10条

1 姚鑫宇;EMD去噪与MUSIC算法在DOA估计中的联合应用[D];昆明理工大学;2015年

2 陆进;面向含噪数据聚类相关算法的研究[D];复旦大学;2014年

3 叶一舟;红外弱小目标检测算法研究[D];上海交通大学;2015年

4 王继重;基于Hadoop和Mahout的K-Means算法设计与实现[D];大连海事大学;2016年

5 何静;遥感图像的快速压缩算法研究[D];北京交通大学;2016年

6 章华燕;钢轨擦伤检测算法研究[D];北京交通大学;2016年

7 王一博;MODIS地震热异常的数据处理与算法研究[D];中国石油大学(华东);2014年

8 成鑫;基于组合优化问题的多目标模因算法的研究[D];南京航空航天大学;2015年

9 傅致晖;基于协同分割的视频目标分割算法研究[D];上海交通大学;2015年

10 张媛;运动车辆检测与跟踪算法的研究与实现[D];大连海事大学;2016年



本文编号:1483375

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1483375.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户87653***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com