当前位置:主页 > 科技论文 > 软件论文 >

双MapReduce改进的Canopy-Kmeans算法

发布时间:2017-08-01 02:07

  本文关键词:双MapReduce改进的Canopy-Kmeans算法


  更多相关文章: Canopy-Kmeans 冗余计算 Hadoop平台 双MapReduce


【摘要】:由于传统的Canopy-Kmeans算法在中心点的选取存在随机性,其迭代过程的冗余计算降低了算法的运行效率.文中基于"最小最大原则"和三角不等式原理,在Hadoop平台上提出了一种基于双MapReduce改进的Canopy-Kmeans算法.实验结果表明:设计的并行算法精确率在不同大小的数据集上平均提高了15.3%,加速比和扩展性随着数据规模和节点的不断增加也相应的提高了1.5~3倍,解决了Canopy中心点选中存在的问题和迭代过程中冗余的距离计算.
【作者单位】: 西安工业大学计算机科学与工程学院;
【关键词】Canopy-Kmeans 冗余计算 Hadoop平台 双MapReduce
【基金】:陕西省科技统筹创新工程计划项目(2015KTCXSF-10-11) 西安市未央区科技计划项目(201609)
【分类号】:TP311.13
【正文快照】: 常用的K-means算法是一种基于划分的聚类挖掘算法,该算法的思路简单、收敛速度快,使用广泛且易于实现,但在K值及中心点的选取上仍然存在很大的随机性和不科学性,容易使聚类结果陷入局部最优,且在迭代过程中存在大量的冗余计算,并行处理能力差,缺乏可伸缩性,大大降低了算法的运

【相似文献】

中国期刊全文数据库 前10条

1 司方豪;钟春琳;;使用MapReduce提高多路数组聚集效率[J];电脑编程技巧与维护;2014年10期

2 贾瑞玉;刘范范;潘雯雯;王伟东;;基于MapReduce模型的并行量子进化算法[J];计算机工程;2012年08期

3 周涛;贺其备;黄光明;林和平;;基于MapReduce的海量图像处理模型的研究[J];信息技术;2013年11期

4 杨绍禹;王世卿;;MapReduce模型下数据隐私保护机制研究[J];计算机科学;2012年12期

5 刘热;;基于MapReduce的大规模话题网络提取分析[J];淮海工学院学报(自然科学版);2014年02期

6 冷芳玲;鲍玉斌;高伟;于戈;;基于MapReduce的数据聚集运算算法[J];中国科技论文在线;2011年07期

7 潘巍;李战怀;伍赛;陈群;;基于消息传递机制的MapReduce图算法研究[J];计算机学报;2011年10期

8 吴文忠;易平;;MapReduce在分布式搜索引擎中的应用[J];计算机系统应用;2012年02期

9 金健;陈群;赵保学;;数据倾斜情况下基于MapReduce模型的连接算法研究[J];计算机与现代化;2013年05期

10 贾瑞玉;李亚龙;;基于MapReduce的量子蚁群算法[J];计算机工程与应用;2013年19期

中国硕士学位论文全文数据库 前10条

1 金鹏;MapReduce框架下基于阈值约束的空间文本相似连接[D];燕山大学;2015年

2 周鸣爱;云计算中MapReduce高可用性和高效性的优化研究[D];河北工程大学;2015年

3 闫晓妩;MapReduce下的约束频繁模式挖掘与任务调度[D];太原科技大学;2015年

4 王强;基于MapReduce的大数据增量处理研究[D];东北大学;2014年

5 魏博文;基于MapReduce的XML编码查询算法研究与实现[D];武汉纺织大学;2016年

6 余川江;网格中基于MapReduce应用的可视化系统的设计与实现[D];哈尔滨工业大学;2012年

7 陈存衡;基于MapReduce的数据图检索算法研究[D];大连海事大学;2013年

8 邹鹏;基于抽样分区解决MapReduce中的数据倾斜问题[D];大连理工大学;2013年

9 何翔;异构分布式环境下基于MapReduce模型的任务调度算法研究[D];湖南大学;2013年

10 孙雨冰;基于MapReduce化的数据聚类算法的研究、设计与应用[D];华东理工大学;2013年



本文编号:602060

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/602060.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ed109***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com