Hadoop平台的微博热点事件挖掘
本文关键词:Hadoop平台的微博热点事件挖掘
【摘要】:微博作为一种新兴的网络社交服务,其即时通讯功能强大,用户可利用各种手段在微博上实时、快捷地发布社会热点事件.但是微博平台在短时间内发布大量信息的特点在一定程度上造成了信息的碎片化,而且迅速的信息更新速度易造成重要信息的不易检索.本文采用Hadoop平台,利用其在大数据挖掘方面的优势,提出挖掘微博中热点词的分布式算法,提取热点词组织热点事件,方便用户查询.此外提出了线性时间复杂度的检测算法,检测热点事件的爆发时间段.文中采用Twitter和新浪微博上的数据集作为测试样本,进行了大量的实验,实验结果表明本文算法能有效的提取微博中的热点事件.
【作者单位】: 厦门大学信息科学与技术学院;厦门大学深圳研究院;仟首网络科技有限公司;
【关键词】: 微博 Hadoop 分布式 热点事件
【基金】:国家自然科学基金项目(61102136,61001013)资助 福建省自然科学基金项目(2011J05158)资助 深圳市科技创新基础研究项目(JCYJ20120618155655087)资助
【分类号】:TP393.092
【正文快照】: 1引言微博作为一种新兴的开放式互联网社交服务,有以下特点:传播受众群体的广泛性;传播途径的草根性以及传播内容的原创性.其即时通讯功能十分强大,可利用各种手段实时、快捷、现场发布大的突发事件或引起全球关注的大事.然而,微博平台短时间内发布较大量信息的特点在一定程
【参考文献】
中国期刊全文数据库 前3条
1 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
2 韩忠明;陈妮;乐嘉锦;段大高;孙践知;;面向热点话题时间序列的有效聚类算法研究[J];计算机学报;2012年11期
3 李劲;张华;吴浩雄;向军;;基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J];计算机应用;2012年08期
【共引文献】
中国期刊全文数据库 前10条
1 王立才;孟祥武;张玉洁;;移动网络服务中基于认知心理学的用户偏好提取方法[J];电子学报;2011年11期
2 张引;张斌;高克宁;郭朋伟;孙达明;;面向自主意识的标签个性化推荐方法研究[J];电子学报;2012年12期
3 黄世平;黄晋;陈健;汤庸;;自动建立信任的防攻击推荐算法研究[J];电子学报;2013年02期
4 温源;王星;刘云;行新香;;一种基于PDBMLCA聚类的网络突发事件发现算法[J];北京交通大学学报;2013年02期
5 江雨燕;李平;王清;;基于共享背景主题的Labeled LDA模型[J];电子学报;2013年09期
6 吴振宇;胡军;李德毅;;社会标注系统幂律特性分析[J];复杂系统与复杂性科学;2014年02期
7 江林升;张春霞;;含关键字的新浪微博获取与舆情分析[J];宝鸡文理学院学报(自然科学版);2014年01期
8 魏萌;杨文涛;;基于关键词的微博热点话题实时检测方法[J];计算机与现代化;2013年10期
9 张武强;穆瑞辉;;基于Dirichlet过程的层次话题模型研究[J];科学技术与工程;2013年27期
10 闫光辉;赵红运;任亚缙;陈勇;;基于时间特性的微博热门话题检测算法研究[J];计算机应用研究;2014年01期
中国重要会议论文全文数据库 前1条
1 彭楠峗;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前4条
1 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
2 王立才;上下文感知推荐系统若干关键技术研究[D];北京邮电大学;2012年
3 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
4 王龙;教育资源推荐服务中若干关键技术的研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 陈诚;个性化农业信息推送技术研究[D];湖南农业大学;2012年
2 鲁一杰;大规模新闻网络视频话题检测与跟踪技术研究[D];西南交通大学;2012年
3 王政霄;基于微博的热点事件挖掘与情感分析[D];上海交通大学;2013年
4 王伟;Web挖掘技术及其在互联网中的应用研究[D];山东大学;2013年
5 郭阿为;时序网络热点话题建模与分析[D];河北师范大学;2013年
6 姚海波;微博热点话题检测与趋势预测研究[D];华南理工大学;2013年
7 吴登能;面向移动互联网的个性化新闻推荐算法研究[D];杭州师范大学;2013年
8 李玉翔;基于网络社区的用户兴趣建模与推荐技术研究[D];解放军信息工程大学;2013年
9 张思龙;微博热点话题预判技术研究[D];解放军信息工程大学;2013年
10 苏其龙;微博新词发现研究[D];哈尔滨工业大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 李斌,谭立湘,章劲松,庄镇泉;面向数据挖掘的时间序列符号化方法研究[J];电路与系统学报;2000年02期
2 高凯;;搜索引擎中信息动态采集策略的研究[J];电子学报;2007年10期
3 刘铭;王晓龙;刘远超;;基于主题分析的文本分割技术研究[J];电子学报;2009年02期
4 詹艳艳;徐荣聪;陈晓云;;基于斜率提取边缘点的时间序列分段线性表示方法[J];计算机科学;2006年11期
5 杨一鸣;潘嵘;潘嘉林;杨强;李磊;;时间序列分类问题的算法比较[J];计算机学报;2007年08期
6 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
7 李爱国,覃征;在线分割时间序列数据[J];软件学报;2004年11期
8 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
9 肖宇;于剑;;基于近邻传播算法的半监督聚类[J];软件学报;2008年11期
10 戴东波;汤春蕾;熊峗;;基于整体和局部相似性的序列聚类算法[J];软件学报;2010年04期
【相似文献】
中国期刊全文数据库 前10条
1 王鼎云;;对微博的发展状况和趋势的冷思考[J];时代教育(教育教学);2011年01期
2 王艳;;Twitter技术及其在情景教育中的应用[J];中国西部科技;2010年16期
3 李士奇;;微博使用者应具备的基本素养[J];科教导刊(上旬刊);2011年03期
4 张来勇;;浅析移动互联网技术的教育应用[J];中国信息技术教育;2011年Z1期
5 刘颖录;;浅析新网络时代的微博传播[J];商业文化(上半月);2011年05期
6 ;分布式漏洞扫描技术与系统——RJ-iToP助您明察IT系统安全状态[J];计算机与网络;2005年17期
7 贺耿;罗晓奔;;P2P网络中基于用户行为的分布式信任模型研究[J];计算机与数字工程;2006年06期
8 霍林;覃海生;;基于分布式的远程网络信息管理系统的一种内网数据安全保护方法[J];广西大学学报(自然科学版);2006年03期
9 唐峻;;网格技术在P2P系统中的应用[J];福建电脑;2006年12期
10 高勇;赵振东;娄云永;;无尺度网络中集散节点控制策略的研究[J];计算机工程与应用;2009年34期
中国重要会议论文全文数据库 前10条
1 刘辉兰;李陶深;葛志辉;;基于代理的分布式入侵检测系统中网络代理的相关技术研究[A];广西计算机学会2005年学术年会论文集[C];2005年
2 周详;王龙明;;建立分布式防护的安全体系[A];中国烟草行业信息化研讨会论文集[C];2004年
3 高长寿;陈定方;郭蕴华;周丽琨;;分布式路由器级拓扑发现技术研究[A];2005年十二省区市机械工程学会学术年会论文集(湖北专集)[C];2005年
4 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 曾明霏;李陶深;;一种分布式网络编码的组播路由算法构想[A];广西计算机学会2007年年会论文集[C];2007年
6 王海威;王琰;;利用Web应用技术向分布式三层结构扩展[A];2003年内蒙古自治区自然科学学术年会优秀论文集[C];2003年
7 李鹏;王晟;;基于Stackelberg的域间网络资源配置研究[A];中国通信学会第五届学术年会论文集[C];2008年
8 夏冰;夏敏捷;徐飞;郑秋生;;一种分布式安全评估主控中心的研究与设计[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
9 章洋;陈俊亮;;基于分布式事件的服务协同[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
10 魏征;吴刚;;FT-OSGi:一种容错的分布式OSGi设计与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
中国重要报纸全文数据库 前10条
1 盖俊飞 林楠;分布式ISA防火墙与服务器的配置[N];电脑报;2003年
2 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年
3 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年
4 陈乐;分布式三层易管理[N];中国计算机报;2002年
5 任续烨;一个端口一个关[N];中国计算机报;2004年
6 乐;分布式三层网络的构建[N];中国电脑教育报;2002年
7 谢厚亮 刘伟跃;构建分布式超级计算机[N];计算机世界;2005年
8 周斌;分布式架构在电信业的应用[N];人民邮电;2004年
9 ;互盈 分布式教育资源网解决方案[N];中国计算机报;2002年
10 ;启明星辰推出分布式漏洞扫描系统[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 傅涛;基于数据挖掘的分布式网络入侵协同检测系统研究及实现[D];南京理工大学;2008年
2 常光辉;大规模分布式可信监控系统研究[D];重庆大学;2011年
3 曹晓阳;面向对象的中间件技术在企业环境中的应用研究——CORBA技术应用研究[D];电子科技大学;2003年
4 王嵩;P2P媒体服务系统研究[D];中国科学技术大学;2010年
5 王晋;一种基于移动代理的自适应的分布式入侵检测系统的架构与实施[D];中国科学院研究生院(软件研究所);2005年
6 刘棣华;网络入侵检测系统及其自适应性的研究与实现[D];东华大学;2009年
7 周世杰;对等计算中的分布式路由算法及其安全性研究[D];电子科技大学;2004年
8 滕少华;基于对象监控的分布式协同入侵检测[D];广东工业大学;2008年
9 张建伟;身份与位置标识分离映射解析关键技术研究[D];解放军信息工程大学;2010年
10 吕晓鹏;P2P技术在IPv4/IPv6混合网中应用的关键问题研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 郑大志;基于Web服务和CORBA的分布式网络管理体系结构研究[D];武汉科技大学;2003年
2 黄鲲;一种分布式入侵监测系统的研究[D];昆明理工大学;2004年
3 刘涛;移动计算分布式路由算法研究[D];天津大学;2004年
4 王兆龙;一种整合防火墙技术的分布式计费系统的设计与实现[D];吉林大学;2006年
5 陈桐桐;基于OVAL的分布式漏洞检测系统设计与实现[D];西北大学;2011年
6 啜俊娜;基于Hadoop的分布式文件存储服务平台设计与实现[D];浙江大学;2012年
7 李洪浩;分布式广域网网络信息监控系统研究与实现[D];四川大学;2003年
8 韩久学;基于Linux的分布式智能邮件系统的研究与实现[D];大连海事大学;2004年
9 金铭月;基于SOAP的分布式工作流管理系统研究[D];哈尔滨理工大学;2005年
10 魏星;MANET环境中基于OLSR的完全分布式证书中心的设计与实现[D];湖南大学;2005年
,本文编号:585660
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/585660.html