云计算环境下基于代表点增量层次密度聚类的微博事件检测及跟踪
本文选题:微博 切入点:事件检测 出处:《计算机应用》2013年12期 论文类型:期刊论文
【摘要】:为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法。首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIHDBSCAN)算法抽取关键词,最终实现新闻事件的检测和跟踪。针对单一节点无法快速高效地处理海量微博数据的问题,将算法部署在云计算平台Hadoop上。通过在新浪微博平台上获取的真实数据进行实验,结果表明,所提出的权值计算方法比TF-IDF和UF-ITUF有更高的性能,并且云框架的使用较好地提高了处理速度,适合用于海量数据的分析和挖掘。
[Abstract]:In order to extract news events from a large amount of real-time information generated from Weibo's service platform, a complete algorithm for the detection and tracking of Weibo events in cloud computing environment is proposed. Firstly, a new method of weight calculation based on Weibo forwarding number and comment number is adopted. Weibo text is represented as vector space model, and then the RIHDBSCAN-based incremental hierarchical density clustering algorithm based on representative points is used to extract keywords. Finally, the detection and tracking of news events will be realized. Aiming at the problem that a single node can not deal with mass Weibo data quickly and efficiently, the algorithm will be deployed on the cloud computing platform Hadoop. The results show that the proposed method has higher performance than TF-IDF and UF-ITUF, and the use of cloud framework can improve the processing speed and is suitable for mass data analysis and mining.
【作者单位】: 信息物理社会可信服务计算教育部重点实验室(重庆大学);重庆大学计算机学院;
【基金】:国家自然科学基金资助项目(61103114) 国家科技支撑计划项目(2012BAH19F00) 中央高校基本科研业务基金资助项目(106112013CDJZR185502) 重庆市高等教育教学改革研究重点项目(112023)
【分类号】:TP393.092
【参考文献】
相关期刊论文 前4条
1 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
2 倪维健;黄亚楼;李飞;刘赏;;一种基于加权多代表点的层次聚类算法[J];计算机科学;2005年05期
3 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
4 马帅,王腾蛟,唐世渭,杨冬青,高军;一种基于参考点和密度的快速聚类算法[J];软件学报;2003年06期
【共引文献】
相关期刊论文 前10条
1 李玉擰;;基于最小树切割的自适应聚类方法[J];北京工业大学学报;2007年03期
2 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
3 王安志;李明东;李超;;各种聚类算法及改进算法的研究[J];电脑知识与技术;2008年25期
4 李雄飞;孙涛;武佳薇;;对象间矢量感应聚类算法[J];电子学报;2011年06期
5 陈宇;;聚类算法研究[J];福建电脑;2007年07期
6 陶运信;皮德常;;一种快速移动对象轨道聚类算法[J];高技术通讯;2010年01期
7 潘大庆;;基于层次聚类的微博敏感话题检测算法研究[J];广西民族大学学报(自然科学版);2012年04期
8 史科蕾;曹军杰;;浅析科技项目查重方法的研究与现状[J];中国科教创新导刊;2013年13期
9 徐海啸;麻婧;吴旗;;DBSCAN算法在高性能计算中心用户分类的应用研究[J];吉林大学学报(信息科学版);2013年05期
10 王晓燕;;常用的聚类算法及改进算法的研究[J];办公自动化;2013年18期
相关会议论文 前7条
1 ;A Hybrid Clustering Algorithm Based on Grid Density and Rough Sets[A];第二十七届中国控制会议论文集[C];2008年
2 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 刘彤;孙永香;张振洪;;一种有效的基于密度和层次的聚类算法[A];2007'仪表,,自动化及先进集成技术大会论文集(一)[C];2007年
4 康卫鲜;叶德谦;;基于CURE的聚类算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 葛鹏程;李建中;张兆功;何震瀛;;一种基于势能的快速聚类算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
7 朱浩然;梁循;马跃峰;纪阳;李启东;马超;;金融领域中文微博情感分析[A];第八届(2013)中国管理学年会论文集(选编)[C];2013年
相关博士学位论文 前10条
1 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
2 吕青;思维进化和支持向量机理论及其在炼焦配煤优化中的应用研究[D];太原理工大学;2011年
3 郁继锋;基于数据挖掘的Web应用入侵异常检测研究[D];华中科技大学;2011年
4 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
5 季民;海洋渔业GIS时空数据组织与分析[D];山东科技大学;2004年
6 李洁;基于自然计算的模糊聚类新算法研究[D];西安电子科技大学;2004年
7 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
8 王天柱;变形物体碰撞检测技术研究[D];吉林大学;2006年
9 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
10 冯永;基于计算智能的聚类技术及其应用研究[D];重庆大学;2006年
相关硕士学位论文 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 张进;我国施工劳动生产率管理研究[D];大连理工大学;2010年
3 杨建红;基于密度的聚类算法研究[D];长春工业大学;2010年
4 刘继勇;网络舆情预警辅助决策支持系统模型及关键技术研究[D];石家庄经济学院;2010年
5 王小姣;聚类分析及其在Web日志挖掘中的应用研究[D];山东师范大学;2011年
6 丁若尧;基于博客的网络话题发现及追踪的研究[D];北京交通大学;2011年
7 许芳芳;基于DBSCAN优化算法的Web文本聚类研究[D];华东师范大学;2011年
8 康海源;基于密度和网格相结合的聚类算法及其在图像分割中的应用[D];中北大学;2011年
9 左浩;模糊聚类与粒子群算法在图像分割中的应用研究[D];江西理工大学;2011年
10 周方;面向智能信息检索技术的Web挖掘关键技术的研究[D];内蒙古农业大学;2011年
【二级参考文献】
相关期刊论文 前7条
1 周水庚,周傲英,曹晶;基于数据分区的DBSCAN算法[J];计算机研究与发展;2000年10期
2 周傲英,周水庚,曹晶,范晔,胡运发;Approaches for Scaling DBSCAN Algorithm to Large Spatial Databases[J];Journal of Computer Science and Technology;2000年06期
3 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
4 曹鹏;李静远;满彤;刘悦;程学旗;;Twitter中近似重复消息的判定方法研究[J];中文信息学报;2011年01期
5 周水庚,周傲英,金文,范晔,钱卫宁;FDBSCAN:一种快速 DBSCAN算法(英文)[J];软件学报;2000年06期
6 崔争艳;;基于语义的微博短信息分类[J];现代计算机(专业版);2010年08期
7 蔡晓婷;;突发性事件中的微博客传播[J];新闻爱好者;2010年11期
【相似文献】
相关期刊论文 前10条
1 蔡構;胡欣薇;;云计算在网络课程建设中的应用探讨[J];电子商务;2010年03期
2 徐格静;丁函;王毅;;云计算与网格计算分析比较[J];今日科苑;2010年24期
3 王威;;中小企业如何加强云安全措施[J];企业家天地(理论版);2011年06期
4 赵梦龙;龙士工;刘春英;;基于HITS算法的云化模型[J];微计算机信息;2009年30期
5 崔文;王国勇;;基于校园网的云计算应用初探[J];微计算机信息;2010年18期
6 刘金;;Web服务在网格和云中的应用[J];湖南电力;2010年03期
7 周鹏;李英;李志蜀;;大学计算机网络课程教学模式探析[J];天中学刊;2010年05期
8 杨斌;刘海涛;;云计算对移动互联网发展的助推作用[J];电信工程技术与标准化;2010年12期
9 高宏卿;翟炎杰;郭文鹭;;基于云计算的反垃圾邮件系统研究[J];河南师范大学学报(自然科学版);2011年02期
10 俞华锋;;基于效益函数的云计算调度算法的研究[J];科技信息;2011年03期
相关会议论文 前10条
1 崔海东;;一种业务网架构的网格云模型[A];中国通信学会信息通信网络技术委员会2009年年会论文集(上册)[C];2009年
2 周相兵;马洪江;杨兴江;;一种基于云计算的语义Web服务组合模型研究[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年
3 田s
本文编号:1595086
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1595086.html