基于微博的突发事件检测方法研究
本文关键词:基于微博的突发事件检测方法研究,由笔耕文化传播整理发布。
【摘要】:随着互联网技术的飞速发展,新闻、论坛、微博等一些新兴的互联网服务已经成为人们传播以及获取信息的重要平台。尤其是近几年来,微博的发展正异军突起,并且凭借其实时性和便捷性受到广大用户的喜爱。微博上随时随地的动态信息使得微博成为把握社会脉搏的有力工具,因此对微博中海量信息进行事件挖掘,及时发现社会动态对社会的稳定和公众的利益有着重要的影响。本文的研究以微博为平台,以Twitter数据为基础,对微博中的突发事件进行检测与追踪。本文的工作主要分为以下几个方面:首先,选取合适的分词工具,本文选用ansj做为本文的中文分词工具,并构建自定义用户词典和停用词词库。根据突发事件的特性,设计表结构,建立与突发事件相关的表。其次,将Twitter测试数据集中的数据按照时间顺序划分到不同的时间窗中,对单位时间窗中的数据集进行预处理,得到新的数据集。提取新数据集中的时间信息和内容信息,使用分词工具对新数据集中的内容进行分词,去除停用词,并将分词过程中无意义的词加入停用词库。然后进行突发特征词的提取,并基于词共现技术构建突发词的相似度矩阵,记录突发词的突发时间区间。最后,使用自底向上的凝聚式层次聚类算法,以突发词集合和相似度矩阵为输入进行聚类,得到一颗由突发词组成的二叉树,并采用合适的阈值对二叉树进行切分,得到相关的事件簇,将事件簇中的相似事件进行合并并与突发时间区间相对应,最终得到准确的突发事件和对应的突发时间。本文基于上述工作实现了突发事件检测系统。使用改进的BBW(BasicBurst Weight)算法对突发词进行提取,进一步提升了突发特征词提取的准确性。最后在Twitter数据集上进行实例验证测试,分析了该系统的有效性和真实性。
【关键词】:微博 时间窗 突发词 突发时间 层次聚类
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP393.092
【目录】:
- 中文摘要3-4
- Abstract4-9
- 第一章 绪论9-16
- 1.1 研究背景与意义9-10
- 1.2 国内外研究现状10-14
- 1.2.1 微博网络应用研究现状10-12
- 1.2.2 突发事件研究现状12-14
- 1.3 论文的主要工作14
- 1.4 文章结构14-16
- 第二章 相关理论基础16-22
- 2.1 相关概念定义16-17
- 2.1.1 事件的定义16-17
- 2.1.2 突发事件17
- 2.2 突发事件研究框架17-18
- 2.3 分词及分词工具18-19
- 2.3.1 分词18
- 2.3.2 分词工具18-19
- 2.4 聚类算法分析19-21
- 2.4.1 聚类19
- 2.4.2 聚类算法的分类19-21
- 2.5 本章小结21-22
- 第三章 突发事件特征提取22-30
- 3.1 突发事件研究方案22-24
- 3.2 数据预处理24-27
- 3.2.1 Twitter数据预处理24-26
- 3.2.2 构建专有名词库26
- 3.2.3 构建停用词库26-27
- 3.3 突发词提取27-29
- 3.3.1 基础权重27-28
- 3.3.2 突发权重28-29
- 3.4 本章小结29-30
- 第四章 突发事件检测30-40
- 4.1 凝聚式层次聚类算法30-31
- 4.2 突发词聚类31-35
- 4.2.1 构建相似度矩阵31-33
- 4.2.2 突发词聚类检测突发事件33-35
- 4.3 微博与事件建立关联35-39
- 4.3.1 确定突发时间区间35-36
- 4.3.2 相似事件合并36-38
- 4.3.3 微博与事件关联的建立38-39
- 4.4 本章小结39-40
- 第五章 数据结果分析40-47
- 5.1 实验环境配置40
- 5.2 实验数据集40-41
- 5.3 实验结果及分析41-46
- 5.4 本章小结46-47
- 第六章 总结与展望47-49
- 6.1 本文工作总结47
- 6.2 未来工作展望47-49
- 参考文献49-52
- 在学期间研究成果52-53
- 致谢53
【相似文献】
中国期刊全文数据库 前10条
1 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[J];计算机学报;2008年04期
2 史新宏,蔡伯根;高速公路自动事件检测算法[J];交通运输系统工程与信息;2001年04期
3 周林英;朱斌;赵忠杰;;基于支持向量机的高速公路事件检测算法[J];系统仿真技术;2010年03期
4 陈艳艳;田启华;;公交调度系统事件检测算法研究[J];北京工业大学学报;2011年12期
5 郝艳哲;;京秦高速公路视频事件检测系统应用[J];中国交通信息化;2013年04期
6 王闯舟;;提升事件检测的商业价值[J];软件世界;2007年20期
7 王彩琴;;基于智能分析的高速公路事件检测系统的研究与开发[J];浙江统计;2007年11期
8 王颖颖;张峗;胡乃静;;在线新事件检测系统中的性能提升策略[J];计算机工程;2008年15期
9 仓玉;洪宇;姚建民;朱巧明;;基于时序话题模型的新事件检测[J];智能计算机与应用;2011年03期
10 楼晓俊;鲍必赛;刘海涛;;分布式信息融合的物联网事件检测方法[J];南京邮电大学学报(自然科学版);2012年01期
中国重要会议论文全文数据库 前10条
1 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 刘霄;邵健;庄越挺;;基于主题模型的网络突发热点事件检测[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
3 胡佳锋;金蓓弘;陈海彪;;空间事件检测的加速策略研究[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
4 万涛;陈学武;王川久;;高速公路事件自动检测算法研究综述[A];第一届中国智能交通年会论文集[C];2005年
5 张阔;李涓子;吴刚;;基于关键词元的话题内事件检测[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 覃频频;许登元;姚起宏;黄大明;;基于表决融合的高速公路事件检测算法融合[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年
7 陈俊;李国辉;;拥挤视频监控中的事件检测[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
8 张永忠;赵静;;基于事件检测算法的交通数据分析系统[A];中国计量协会冶金分会2008年会论文集[C];2008年
9 刘海龙;李战怀;陈群;;RFID供应链系统中的在线复杂事件检测方法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 周春姐;孟小峰;文洁;;Flickr中的复合事件检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国重要报纸全文数据库 前2条
1 王闯舟;事件检测提升服务的商业价值[N];计算机世界;2006年
2 杭州海康威视数字技术股份有限公司 浦世亮;IVS技术在城市安防系统中的应用[N];计算机世界;2008年
中国博士学位论文全文数据库 前4条
1 刘昌余;多媒体事件检测中的关键技术研究[D];华南理工大学;2015年
2 覃频频;基于信息融合的高速公路事件检测建模与仿真[D];西南交通大学;2007年
3 余柳;基于移动源数据的城市快速交通事件检测W-CUSUM算法与评价[D];北京交通大学;2010年
4 柯佳;基于语义的视频事件检测分析方法研究[D];江苏大学;2013年
中国硕士学位论文全文数据库 前10条
1 裴孝中;行车噪声环境下的快速声学事件检测方法研究[D];哈尔滨工业大学;2015年
2 熊伟晴;基于位置信息的事件检测[D];哈尔滨工业大学;2015年
3 李旭;面向多来源新闻的领域事件分析[D];浙江大学;2015年
4 陈斌;基于云的复杂事件检测服务[D];浙江大学;2015年
5 肖军;基于车检器数据的高速公路事件检测可靠性提升技术研究[D];重庆大学;2015年
6 孙方园;基于图的中文微博灾难事件检测[D];浙江大学;2016年
7 赵伟;足球视频精彩事件检测算法研究[D];北京理工大学;2016年
8 张玉;基于微博的突发事件检测方法研究[D];兰州大学;2016年
9 周林英;基于支持向量机的高速公路事件检测算法[D];长安大学;2009年
10 龙睿;针对微博数据的事件检测、跟踪及摘要生成[D];上海交通大学;2012年
本文关键词:基于微博的突发事件检测方法研究,,由笔耕文化传播整理发布。
本文编号:265746
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/265746.html