实时流大数据环境下突发事件动态监测的研究与应用

发布时间:2021-11-11 20:43
  突发事件,即意外性突然发生的重大敏感事件,不仅仅会影响人们的日常生活,更有可能造成严重的社会危害。对于突发事件的报道,传统的新闻媒体需要保证信息的准确性和真实性,往往存在一些滞后。新浪微博作为一种分享、传播和获取简短实时信息的交流平台,拥有着大量的移动端在线用户,保证了对突发事件的即时报道,且更容易形成社会话题,引起人们的激烈讨论。为了更好的应对突发事件,从海量的信息流中监测出突发事件具有重大的意义。通过对突发事件准确、及时的报道,有关部门可以快速的采取应对措施,避免引起社会恐慌。民众能够了解突发事件的性质,提前做好应对措施。基于上述分析,在调查研究了突发事件监测技术与聚类相关文献后,利用Storm分布式计算框架在处理实时流数据下的高效性,面对时时刻刻不断生成的微博数据流,提出了一种高效的在线分布式突发事件监测模型。该模型首先利用Kafka进行管道数据流的可靠传输,在Storm框架下利用时间窗口机制对时间窗内的数据进行相应操作,实现了突发事件的持续监测。首先通过适当的措施对文本数据流进行过滤分析;接着,改进关键词选取权重,完成突发事件监测模型的优化,实现对单位时间内的突发词进行提取。最... 

【文章来源】:内蒙古科技大学内蒙古自治区

【文章页数】:44 页

【学位级别】:硕士

【部分图文】:

实时流大数据环境下突发事件动态监测的研究与应用


图2.1分布式爬虫的架构

样本,数据,文本,链接


内蒙古科技大学硕士学位论文-8-的微博数据量。(3)针对上述两种方法造成重复爬取的失误,同时为了节约在次基础上占用的系统内存,采用set+md5的方法过滤重复的URL链接,将每一个URL链接通过md5转换成一个128位的字符串,借助set集合不可重复的特性,可以在一定程度上实现URL的最大化去重操作。2.1.4新浪微博数据结构分析采用上述的分布式爬取框架,总共爬取2020年1月8号和9号两天401.3K的数据量,存储到MongoDB数据库中。后续的相关实验均基于该数据进行验证分析。其爬取的样本实例如下所示。图2.2新浪微博数据样本图2.2新浪微博数据预处理新浪微博中存储着海量的数据信息,其中包含着大量的垃圾信息,比如推销广告信息、机器发表的无用信息以及一些水军等恶意新浪微博文本等。正常的新浪微博文本中往往也包含着@、情感符号以及URL链接等。在针对新浪微博数据进行突发事件的检测时,在Kafka推送数据流后,需要在Storm的Spout中提前对新浪微博数据进行适当的预处理操作,保证在此后的数据处理中更加可靠。2.2.1新浪微博文本过滤

经纬度,地理位置,信息,时间窗口


内蒙古科技大学硕士学位论文-17-图3.2经纬度获取地理位置信息其相对应的TF-IDF公式为:tfidf(α-1×α))(tnnwcwct++=(式3.2)(式3.2中),α代表该词t在基础权重值,cn代表了一个时间窗口n下出现该词频次最多的发博城市数量,ct表示时间窗口n下与该词相关的所有城市总数。Wn代表了该时间窗口n下关于t的词频,Wt代表了时间窗口n下的最大的词频数目。该方法有效的弥补了传统的TF-IDF算法在对于新浪微博短文本突发事件关键词提取上的不足,避免了因新浪微博明星的相关事件,造成各地粉丝发博短时间内集体发博,造成一个无用关键词的权重增加,同时也借助地域的扩散比例,更好的区别出了类似明星事件的话题与突发事件的话题。3.3突发词集的提取单位时间窗口内的突发词,满足以下几个特点:(1)一个词语在一个时间窗口内突然高频次出现,(2)该词不局限于在同一条微博文本中重复出现,而是与该词相关的相关微博文本在该时间窗内占有较大的比例,(3)在之前的时间窗口内,该词及与该词相关的文本占比较低。基于突发词的特征,本文从词频热度、词频增长率和词频重要度等多种特征来获取突发特征词。

【参考文献】:
期刊论文
[1]基于多种词特征的微博突发事件检测方法[J]. 张仰森,段宇翔,王建,吴云芳.  电子学报. 2019(09)
[2]基于突发词地域分析的微博突发事件检测方法[J]. 张雄宝,陆向艳,练凯迪,刘峻,刘正平.  情报杂志. 2017(03)
[3]基于突发主题词和凝聚式层次聚类的微博突发事件检测研究[J]. 丁晟春,龚思兰,李红梅.  现代图书情报技术. 2016(Z1)
[4]基于突发词H指数的微博突发事件检测算法研究[J]. 张晓霞,王名扬,贾冲冲,董煦.  情报杂志. 2015(02)
[5]面向大规模微博消息流的突发话题检测[J]. 申国伟,杨武,王巍,于淼.  计算机研究与发展. 2015(02)
[6]融合用户情感的在线突发事件识别研究[J]. 尉永清,杨玉珍,费绍栋,朱振方.  情报理论与实践. 2015(02)
[7]基于突发词项频域分析的微博突发事件检测[J]. 赵洁,马铮,周晓峰,金培权.  情报理论与实践. 2015(01)
[8]基于爆发词识别的微博突发事件监测方法研究[J]. 陈国兰.  情报杂志. 2014(09)
[9]基于突发词聚类的微博突发事件检测方法[J]. 郭跇秀,吕学强,李卓.  计算机应用. 2014(02)
[10]一种基于情感符号的在线突发事件检测方法[J]. 张鲁民,贾焰,周斌,赵金辉,洪锋.  计算机学报. 2013(08)

硕士论文
[1]基于用户反馈信息的新闻推荐系统设计与实现[D]. 何希真.山东师范大学 2015
[2]基于论坛的突发事件检测与跟踪[D]. 王堃宇.兰州大学 2015
[3]突发事件微博新话题检测与跟踪系统的设计与实现[D]. 葛高飞.北京邮电大学 2014



本文编号:3489496

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3489496.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c23c9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com