基于MapReduce的改进k-means文本聚类算法
本文关键词:基于MapReduce的改进k-means文本聚类算法
更多相关文章: k-means算法 文本聚类 MapReduce
【摘要】:针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。
【作者单位】: 江苏科技大学计算机科学与工程学院;
【分类号】:TP391.1
【正文快照】: 0引言随着大数据的兴起,数据挖掘工作显得越发重要,传统的数据处理平台和数据处理方法受到了极大的挑战。通过分布式系统将任务分而治之是当前一个重要的研究方向,而任务调度,容错能力以及节点间的通信等问题则显得尤为重要。MapReduce是谷歌提出的用于处理大规模数据集的分布
【相似文献】
中国期刊全文数据库 前10条
1 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期
2 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
3 甘克勤;丛超;张宝林;孙旭凯;;基于划分的文本聚类算法在标准文献中的试验与对比研究[J];标准科学;2013年10期
4 莫紫娟;;试论短文本聚类算法在微博的应用[J];科技致富向导;2014年09期
5 史梦洁;;文本聚类算法综述[J];现代计算机(专业版);2014年03期
6 张书敏;;短文本聚类算法研究[J];科技致富向导;2013年09期
7 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期
8 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
9 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期
10 李岩;娄云;;文本聚类算法在舆情监控中的应用分析[J];电子设计工程;2013年01期
中国重要会议论文全文数据库 前1条
1 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国硕士学位论文全文数据库 前10条
1 范新梅;基于微博的舆情分析系统设计与实现[D];河北科技大学;2015年
2 程杨;中文短文本聚类算法的研究[D];吉林大学;2016年
3 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年
4 刘龙海;基于成对约束的半监督文本聚类算法研究[D];重庆大学;2011年
5 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
6 潘启蒙;文本聚类算法的研究与实现[D];吉林大学;2008年
7 郭增新;基于语义的文本聚类算法研究[D];西安电子科技大学;2012年
8 高利波;文本聚类算法的研究及应用[D];电子科技大学;2013年
9 马素琴;基于相似度的文本聚类算法研究及应用[D];江苏大学;2010年
10 翟献民;维吾尔语文本聚类算法研究[D];新疆大学;2013年
,本文编号:1258543
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1258543.html