双MapReduce改进的Canopy-Kmeans算法
本文关键词:双MapReduce改进的Canopy-Kmeans算法
更多相关文章: Canopy-Kmeans 冗余计算 Hadoop平台 双MapReduce
【摘要】:由于传统的Canopy-Kmeans算法在中心点的选取存在随机性,其迭代过程的冗余计算降低了算法的运行效率.文中基于"最小最大原则"和三角不等式原理,在Hadoop平台上提出了一种基于双MapReduce改进的Canopy-Kmeans算法.实验结果表明:设计的并行算法精确率在不同大小的数据集上平均提高了15.3%,加速比和扩展性随着数据规模和节点的不断增加也相应的提高了1.5~3倍,解决了Canopy中心点选中存在的问题和迭代过程中冗余的距离计算.
【作者单位】: 西安工业大学计算机科学与工程学院;
【关键词】: Canopy-Kmeans 冗余计算 Hadoop平台 双MapReduce
【基金】:陕西省科技统筹创新工程计划项目(2015KTCXSF-10-11) 西安市未央区科技计划项目(201609)
【分类号】:TP311.13
【正文快照】: 常用的K-means算法是一种基于划分的聚类挖掘算法,该算法的思路简单、收敛速度快,使用广泛且易于实现,但在K值及中心点的选取上仍然存在很大的随机性和不科学性,容易使聚类结果陷入局部最优,且在迭代过程中存在大量的冗余计算,并行处理能力差,缺乏可伸缩性,大大降低了算法的运
【相似文献】
中国期刊全文数据库 前10条
1 司方豪;钟春琳;;使用MapReduce提高多路数组聚集效率[J];电脑编程技巧与维护;2014年10期
2 贾瑞玉;刘范范;潘雯雯;王伟东;;基于MapReduce模型的并行量子进化算法[J];计算机工程;2012年08期
3 周涛;贺其备;黄光明;林和平;;基于MapReduce的海量图像处理模型的研究[J];信息技术;2013年11期
4 杨绍禹;王世卿;;MapReduce模型下数据隐私保护机制研究[J];计算机科学;2012年12期
5 刘热;;基于MapReduce的大规模话题网络提取分析[J];淮海工学院学报(自然科学版);2014年02期
6 冷芳玲;鲍玉斌;高伟;于戈;;基于MapReduce的数据聚集运算算法[J];中国科技论文在线;2011年07期
7 潘巍;李战怀;伍赛;陈群;;基于消息传递机制的MapReduce图算法研究[J];计算机学报;2011年10期
8 吴文忠;易平;;MapReduce在分布式搜索引擎中的应用[J];计算机系统应用;2012年02期
9 金健;陈群;赵保学;;数据倾斜情况下基于MapReduce模型的连接算法研究[J];计算机与现代化;2013年05期
10 贾瑞玉;李亚龙;;基于MapReduce的量子蚁群算法[J];计算机工程与应用;2013年19期
中国硕士学位论文全文数据库 前10条
1 金鹏;MapReduce框架下基于阈值约束的空间文本相似连接[D];燕山大学;2015年
2 周鸣爱;云计算中MapReduce高可用性和高效性的优化研究[D];河北工程大学;2015年
3 闫晓妩;MapReduce下的约束频繁模式挖掘与任务调度[D];太原科技大学;2015年
4 王强;基于MapReduce的大数据增量处理研究[D];东北大学;2014年
5 魏博文;基于MapReduce的XML编码查询算法研究与实现[D];武汉纺织大学;2016年
6 余川江;网格中基于MapReduce应用的可视化系统的设计与实现[D];哈尔滨工业大学;2012年
7 陈存衡;基于MapReduce的数据图检索算法研究[D];大连海事大学;2013年
8 邹鹏;基于抽样分区解决MapReduce中的数据倾斜问题[D];大连理工大学;2013年
9 何翔;异构分布式环境下基于MapReduce模型的任务调度算法研究[D];湖南大学;2013年
10 孙雨冰;基于MapReduce化的数据聚类算法的研究、设计与应用[D];华东理工大学;2013年
,本文编号:602060
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/602060.html