当前位置:主页 > 科技论文 > 软件论文 >

一种基于MapReduce的改进k-means聚类算法研究

发布时间:2018-01-09 05:25

  本文关键词:一种基于MapReduce的改进k-means聚类算法研究 出处:《河北工业大学学报》2016年05期  论文类型:期刊论文


  更多相关文章: k-means MapReduce 两阶段 单通道 并行化 加速比


【摘要】:传统k-means算法的聚类中心需要经过多次迭代运算才能最终稳定,而MapReduce计算框架下的k-means聚类算法在处理迭代运算时效率并不理想.针对上述问题,提出一种新的基于MapReduce的k-means聚类算法.该算法对传统k-means算法进行了改进,通过将k-means聚类问题转化为Map和Reduce两阶段的k-means++算法聚类问题,并将权值概念和单通道技术引入到传统k-means++算法中,提升了算法在MapReduce框架中的执行效率.实验分析表明,该方法较之传统方法具有更好的加速比和可扩展性.
[Abstract]:The clustering center of the traditional k-means algorithm needs many iterations to be stable. But the k-means clustering algorithm under the MapReduce computing framework is not efficient in handling iterative operations. A new k-means clustering algorithm based on MapReduce is proposed, which improves the traditional k-means algorithm. The k-means clustering problem is transformed into the k-means clustering problem of Map and Reduce. The concept of weight and single-channel technology are introduced into the traditional k-means algorithm to improve the efficiency of the algorithm in the MapReduce framework. Compared with the traditional method, this method has better speedup and extensibility.
【作者单位】: 山西师范大学数学与计算机科学学院;
【基金】:山西省自然科学基金(2015011040)
【分类号】:TP311.13
【正文快照】: 在数据挖掘中,聚类是重要的数据分析方法之一,它是在大量模式、样本点以及对象中发现自然分组的过程.在统计学、模式识别、信息检索、机器学习等广泛的领域都扮演着重要的角色.然而,由于大数据体量巨大、元素复杂,传统的统计工具和管理系统已经很难适应.一方面,数据集主要存储

【相似文献】

相关期刊论文 前10条

1 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期

2 司方豪;钟春琳;;使用MapReduce提高多路数组聚集效率[J];电脑编程技巧与维护;2014年10期

3 翟东升;蔡万江;陈晨;黄鲁成;赵京;;基于MapReduce构建专利技术功效图的研究[J];情报杂志;2013年06期

4 贾瑞玉;刘范范;潘雯雯;王伟东;;基于MapReduce模型的并行量子进化算法[J];计算机工程;2012年08期

5 亢丽芸;王效岳;白如江;;MapReduce原理及其主要实现平台分析[J];现代图书情报技术;2012年02期

6 周涛;贺其备;黄光明;林和平;;基于MapReduce的海量图像处理模型的研究[J];信息技术;2013年11期

7 杨绍禹;王世卿;;MapReduce模型下数据隐私保护机制研究[J];计算机科学;2012年12期

8 黄志兰;丁圣勇;杨国良;罗颂锋;;基于MapReduce的PCA异常流量检测系统实现[J];电信科学;2010年06期

9 窦蒙;闻立杰;王建民;闫志强;;基于MapReduce的海量事件日志并行转化算法[J];计算机集成制造系统;2013年08期

10 刘热;;基于MapReduce的大规模话题网络提取分析[J];淮海工学院学报(自然科学版);2014年02期

相关会议论文 前2条

1 郑宇瀚;郭燕慧;;一种针对流水线任务的云计算模型基于MapReduce的改进[A];2013年中国信息通信研究新进展论文集[C];2014年

2 华中杰;徐锡山;杨树强;田胜利;;MapReduce本地优先作业调度策略研究与实现[A];第九届中国通信学会学术年会论文集[C];2012年

相关硕士学位论文 前10条

1 王姗姗;MapReduce框架下并行有序决策树及有序决策森林[D];河北大学;2015年

2 金鹏;MapReduce框架下基于阈值约束的空间文本相似连接[D];燕山大学;2015年

3 周鸣爱;云计算中MapReduce高可用性和高效性的优化研究[D];河北工程大学;2015年

4 戴佳男;基于MapReduce模型的海量邮件社交关系分析研究[D];南京理工大学;2015年

5 闫晓妩;MapReduce下的约束频繁模式挖掘与任务调度[D];太原科技大学;2015年

6 王强;基于MapReduce的大数据增量处理研究[D];东北大学;2014年

7 魏博文;基于MapReduce的XML编码查询算法研究与实现[D];武汉纺织大学;2016年

8 张鹏;基于MapReduce的分布式社区发现算法研究[D];燕山大学;2016年

9 段秋丹;基于MapReduce的文献发现系统研究与设计[D];山东大学;2016年

10 李青;基于MapReduce的广告点击率预测系统设计与实现[D];云南大学;2016年



本文编号:1400170

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1400170.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b6a4e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com