基于Hadoop的微博热点话题发现的聚类算法
[Abstract]:Aiming at the problem that massive Weibo data can not find hot topics accurately and high speed, a text clustering algorithm for hot topic discovery based on Hadoop big data technology is proposed in this paper. Using the open source machine learning software library Mahout, under big data processing platform Hadoop to combine text clustering with hot topic, the K-means algorithm based on cosine distance measure is improved. By properly increasing or narrowing the cosine distance between different ranges, the cluster clustering degree and the separation degree between clusters of Weibo hot topic clustering results are improved. The experimental results show that the improved K-means algorithm with modified cosine distance reduces the intra-cluster distance by 2.72 and increases the distance between clusters by 4.12. Recall rate and accuracy rate also increased by 7% and 6% respectively, which effectively improved the clustering quality of Weibo hot topic discovery.
【作者单位】: 河北工业大学计算机科学与软件学院;
【分类号】:TP311.13;TP391.1
【相似文献】
相关期刊论文 前10条
1 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期
2 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期
3 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期
4 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期
5 ;大数据不等于Hadoop[J];办公自动化;2014年06期
6 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期
7 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期
8 黄德才;陈欢;;Hadoop平台下海量数据排行榜过滤算法[J];计算机系统应用;2012年03期
9 周航;申秋慧;王迤冉;;基于Hadoop平台的任务调度方案分析[J];周口师范学院学报;2013年02期
10 陈吉荣;乐嘉锦;;基于Hadoop生态系统的大数据解决方案综述[J];计算机工程与科学;2013年10期
相关重要报纸文章 前3条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
3 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
相关硕士学位论文 前10条
1 汲磊举;大数据环境下动车组故障关联关系分析关键技术研究与实现[D];北京交通大学;2016年
2 王郑委;基于大数据Hadoop平台的出租车载客热点区域挖掘研究[D];北京交通大学;2016年
3 张博洋;基于Hadoop的动车组故障诊断关键技术的研究与实现[D];北京交通大学;2016年
4 施云霄;Hadoop组件管理软件Data Hub的设计与实现[D];南京大学;2014年
5 宋莹玮;Hadoop云平台下基于本体的图像检索系统研究[D];吉林大学;2016年
6 王霄霄;基于Hadoop的电信云计算开放平台研究设计[D];南京邮电大学;2015年
7 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年
8 张丽云;基于Hadoop的企业知识管理系统的主要功能的研究与实现[D];东北师范大学;2014年
9 夏志刚;基于Hadoop的数字大棚云系统的设计和实现[D];大连理工大学;2014年
10 杨宁;基于Hadoop平台的广告检测系统研究与实现[D];复旦大学;2012年
,本文编号:2365141
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2365141.html