基于Spark的大规模文本k-means并行聚类算法
本文关键词: k-means 并行化 文本聚类 Spark RDD Hadoop MapReduce 出处:《中文信息学报》2017年04期 论文类型:期刊论文
【摘要】:互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。
[Abstract]:Because of the rapid increase of Internet text data volume, the processing time of clustering operation is significantly longer. Although some researchers use the Hadoop architecture to study k-means parallelization, it is difficult to effectively meet the needs of k-means frequent iterations. Therefore, the execution efficiency is still not satisfactory. In this paper, a k-means text clustering parallelization algorithm based on a new generation of parallel computing system Spark is proposed, and the RDD programming model is used to fully meet the needs of frequent iterations of kmeans. The experimental results show that, For the same clustering text big data set and the same computing environment, the kmeans text clustering parallel algorithm based on Spark is obviously superior to the implementation based on Hadoop in speedup, expansibility and other main performance indexes. Therefore, it can better meet the needs of large-scale text data mining algorithms.
【作者单位】: 中国矿业大学物联网(感知矿山)研究中心;矿山互联网应用技术国家地方联合工程实验室;中国矿业大学信息与电气工程学院;
【基金】:国家自然科学基金(41302203)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 林春燕,朱东华;一种快速的文本聚类-分类法[J];计算机工程与科学;2004年07期
2 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期
3 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
4 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期
5 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期
6 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
7 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
8 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期
9 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期
10 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期
相关会议论文 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
8 邱立坤;程葳;龙志yN;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
10 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前3条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
相关硕士学位论文 前10条
1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年
2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年
3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年
4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年
5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年
6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年
7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年
8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年
9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年
10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年
,本文编号:1531160
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1531160.html