当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop的微博热点话题发现的聚类算法

发布时间:2018-11-29 13:39
【摘要】:针对海量微博数据无法高速、精准发现热点话题的问题,基于Hadoop大数据处理技术,提出了一种面向微博热点话题发现的文本聚类算法。利用大数据处理平台Hadoop下开源机器学习软件库Mahout,将文本聚类和热点话题相结合,对基于余弦距离测度的K-means算法进行改进,通过对不同区间范围的余弦距离进行适当的增大或缩小,提高了微博热点话题聚类结果的簇内聚集度和簇间分离度。实验结果表明,采用修改余弦距离的改进的K-means算法,微博热点话题聚类结果的簇内距离减少了2.72%,簇间距离增大了4.12%,召回率和准确率也分别提高了7%和6%,有效的提高了微博热点话题发现的聚类质量。
[Abstract]:Aiming at the problem that massive Weibo data can not find hot topics accurately and high speed, a text clustering algorithm for hot topic discovery based on Hadoop big data technology is proposed in this paper. Using the open source machine learning software library Mahout, under big data processing platform Hadoop to combine text clustering with hot topic, the K-means algorithm based on cosine distance measure is improved. By properly increasing or narrowing the cosine distance between different ranges, the cluster clustering degree and the separation degree between clusters of Weibo hot topic clustering results are improved. The experimental results show that the improved K-means algorithm with modified cosine distance reduces the intra-cluster distance by 2.72 and increases the distance between clusters by 4.12. Recall rate and accuracy rate also increased by 7% and 6% respectively, which effectively improved the clustering quality of Weibo hot topic discovery.
【作者单位】: 河北工业大学计算机科学与软件学院;
【分类号】:TP311.13;TP391.1

【相似文献】

相关期刊论文 前10条

1 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期

2 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期

3 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期

4 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期

5 ;大数据不等于Hadoop[J];办公自动化;2014年06期

6 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期

7 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期

8 黄德才;陈欢;;Hadoop平台下海量数据排行榜过滤算法[J];计算机系统应用;2012年03期

9 周航;申秋慧;王迤冉;;基于Hadoop平台的任务调度方案分析[J];周口师范学院学报;2013年02期

10 陈吉荣;乐嘉锦;;基于Hadoop生态系统的大数据解决方案综述[J];计算机工程与科学;2013年10期

相关重要报纸文章 前3条

1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年

2 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年

3 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年

相关硕士学位论文 前10条

1 汲磊举;大数据环境下动车组故障关联关系分析关键技术研究与实现[D];北京交通大学;2016年

2 王郑委;基于大数据Hadoop平台的出租车载客热点区域挖掘研究[D];北京交通大学;2016年

3 张博洋;基于Hadoop的动车组故障诊断关键技术的研究与实现[D];北京交通大学;2016年

4 施云霄;Hadoop组件管理软件Data Hub的设计与实现[D];南京大学;2014年

5 宋莹玮;Hadoop云平台下基于本体的图像检索系统研究[D];吉林大学;2016年

6 王霄霄;基于Hadoop的电信云计算开放平台研究设计[D];南京邮电大学;2015年

7 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年

8 张丽云;基于Hadoop的企业知识管理系统的主要功能的研究与实现[D];东北师范大学;2014年

9 夏志刚;基于Hadoop的数字大棚云系统的设计和实现[D];大连理工大学;2014年

10 杨宁;基于Hadoop平台的广告检测系统研究与实现[D];复旦大学;2012年



本文编号:2365141

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2365141.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户70454***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com