实时流大数据环境下突发事件动态监测的研究与应用
发布时间:2021-11-11 20:43
突发事件,即意外性突然发生的重大敏感事件,不仅仅会影响人们的日常生活,更有可能造成严重的社会危害。对于突发事件的报道,传统的新闻媒体需要保证信息的准确性和真实性,往往存在一些滞后。新浪微博作为一种分享、传播和获取简短实时信息的交流平台,拥有着大量的移动端在线用户,保证了对突发事件的即时报道,且更容易形成社会话题,引起人们的激烈讨论。为了更好的应对突发事件,从海量的信息流中监测出突发事件具有重大的意义。通过对突发事件准确、及时的报道,有关部门可以快速的采取应对措施,避免引起社会恐慌。民众能够了解突发事件的性质,提前做好应对措施。基于上述分析,在调查研究了突发事件监测技术与聚类相关文献后,利用Storm分布式计算框架在处理实时流数据下的高效性,面对时时刻刻不断生成的微博数据流,提出了一种高效的在线分布式突发事件监测模型。该模型首先利用Kafka进行管道数据流的可靠传输,在Storm框架下利用时间窗口机制对时间窗内的数据进行相应操作,实现了突发事件的持续监测。首先通过适当的措施对文本数据流进行过滤分析;接着,改进关键词选取权重,完成突发事件监测模型的优化,实现对单位时间内的突发词进行提取。最...
【文章来源】:内蒙古科技大学内蒙古自治区
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
图2.1分布式爬虫的架构
内蒙古科技大学硕士学位论文-8-的微博数据量。(3)针对上述两种方法造成重复爬取的失误,同时为了节约在次基础上占用的系统内存,采用set+md5的方法过滤重复的URL链接,将每一个URL链接通过md5转换成一个128位的字符串,借助set集合不可重复的特性,可以在一定程度上实现URL的最大化去重操作。2.1.4新浪微博数据结构分析采用上述的分布式爬取框架,总共爬取2020年1月8号和9号两天401.3K的数据量,存储到MongoDB数据库中。后续的相关实验均基于该数据进行验证分析。其爬取的样本实例如下所示。图2.2新浪微博数据样本图2.2新浪微博数据预处理新浪微博中存储着海量的数据信息,其中包含着大量的垃圾信息,比如推销广告信息、机器发表的无用信息以及一些水军等恶意新浪微博文本等。正常的新浪微博文本中往往也包含着@、情感符号以及URL链接等。在针对新浪微博数据进行突发事件的检测时,在Kafka推送数据流后,需要在Storm的Spout中提前对新浪微博数据进行适当的预处理操作,保证在此后的数据处理中更加可靠。2.2.1新浪微博文本过滤
内蒙古科技大学硕士学位论文-17-图3.2经纬度获取地理位置信息其相对应的TF-IDF公式为:tfidf(α-1×α))(tnnwcwct++=(式3.2)(式3.2中),α代表该词t在基础权重值,cn代表了一个时间窗口n下出现该词频次最多的发博城市数量,ct表示时间窗口n下与该词相关的所有城市总数。Wn代表了该时间窗口n下关于t的词频,Wt代表了时间窗口n下的最大的词频数目。该方法有效的弥补了传统的TF-IDF算法在对于新浪微博短文本突发事件关键词提取上的不足,避免了因新浪微博明星的相关事件,造成各地粉丝发博短时间内集体发博,造成一个无用关键词的权重增加,同时也借助地域的扩散比例,更好的区别出了类似明星事件的话题与突发事件的话题。3.3突发词集的提取单位时间窗口内的突发词,满足以下几个特点:(1)一个词语在一个时间窗口内突然高频次出现,(2)该词不局限于在同一条微博文本中重复出现,而是与该词相关的相关微博文本在该时间窗内占有较大的比例,(3)在之前的时间窗口内,该词及与该词相关的文本占比较低。基于突发词的特征,本文从词频热度、词频增长率和词频重要度等多种特征来获取突发特征词。
【参考文献】:
期刊论文
[1]基于多种词特征的微博突发事件检测方法[J]. 张仰森,段宇翔,王建,吴云芳. 电子学报. 2019(09)
[2]基于突发词地域分析的微博突发事件检测方法[J]. 张雄宝,陆向艳,练凯迪,刘峻,刘正平. 情报杂志. 2017(03)
[3]基于突发主题词和凝聚式层次聚类的微博突发事件检测研究[J]. 丁晟春,龚思兰,李红梅. 现代图书情报技术. 2016(Z1)
[4]基于突发词H指数的微博突发事件检测算法研究[J]. 张晓霞,王名扬,贾冲冲,董煦. 情报杂志. 2015(02)
[5]面向大规模微博消息流的突发话题检测[J]. 申国伟,杨武,王巍,于淼. 计算机研究与发展. 2015(02)
[6]融合用户情感的在线突发事件识别研究[J]. 尉永清,杨玉珍,费绍栋,朱振方. 情报理论与实践. 2015(02)
[7]基于突发词项频域分析的微博突发事件检测[J]. 赵洁,马铮,周晓峰,金培权. 情报理论与实践. 2015(01)
[8]基于爆发词识别的微博突发事件监测方法研究[J]. 陈国兰. 情报杂志. 2014(09)
[9]基于突发词聚类的微博突发事件检测方法[J]. 郭跇秀,吕学强,李卓. 计算机应用. 2014(02)
[10]一种基于情感符号的在线突发事件检测方法[J]. 张鲁民,贾焰,周斌,赵金辉,洪锋. 计算机学报. 2013(08)
硕士论文
[1]基于用户反馈信息的新闻推荐系统设计与实现[D]. 何希真.山东师范大学 2015
[2]基于论坛的突发事件检测与跟踪[D]. 王堃宇.兰州大学 2015
[3]突发事件微博新话题检测与跟踪系统的设计与实现[D]. 葛高飞.北京邮电大学 2014
本文编号:3489496
【文章来源】:内蒙古科技大学内蒙古自治区
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
图2.1分布式爬虫的架构
内蒙古科技大学硕士学位论文-8-的微博数据量。(3)针对上述两种方法造成重复爬取的失误,同时为了节约在次基础上占用的系统内存,采用set+md5的方法过滤重复的URL链接,将每一个URL链接通过md5转换成一个128位的字符串,借助set集合不可重复的特性,可以在一定程度上实现URL的最大化去重操作。2.1.4新浪微博数据结构分析采用上述的分布式爬取框架,总共爬取2020年1月8号和9号两天401.3K的数据量,存储到MongoDB数据库中。后续的相关实验均基于该数据进行验证分析。其爬取的样本实例如下所示。图2.2新浪微博数据样本图2.2新浪微博数据预处理新浪微博中存储着海量的数据信息,其中包含着大量的垃圾信息,比如推销广告信息、机器发表的无用信息以及一些水军等恶意新浪微博文本等。正常的新浪微博文本中往往也包含着@、情感符号以及URL链接等。在针对新浪微博数据进行突发事件的检测时,在Kafka推送数据流后,需要在Storm的Spout中提前对新浪微博数据进行适当的预处理操作,保证在此后的数据处理中更加可靠。2.2.1新浪微博文本过滤
内蒙古科技大学硕士学位论文-17-图3.2经纬度获取地理位置信息其相对应的TF-IDF公式为:tfidf(α-1×α))(tnnwcwct++=(式3.2)(式3.2中),α代表该词t在基础权重值,cn代表了一个时间窗口n下出现该词频次最多的发博城市数量,ct表示时间窗口n下与该词相关的所有城市总数。Wn代表了该时间窗口n下关于t的词频,Wt代表了时间窗口n下的最大的词频数目。该方法有效的弥补了传统的TF-IDF算法在对于新浪微博短文本突发事件关键词提取上的不足,避免了因新浪微博明星的相关事件,造成各地粉丝发博短时间内集体发博,造成一个无用关键词的权重增加,同时也借助地域的扩散比例,更好的区别出了类似明星事件的话题与突发事件的话题。3.3突发词集的提取单位时间窗口内的突发词,满足以下几个特点:(1)一个词语在一个时间窗口内突然高频次出现,(2)该词不局限于在同一条微博文本中重复出现,而是与该词相关的相关微博文本在该时间窗内占有较大的比例,(3)在之前的时间窗口内,该词及与该词相关的文本占比较低。基于突发词的特征,本文从词频热度、词频增长率和词频重要度等多种特征来获取突发特征词。
【参考文献】:
期刊论文
[1]基于多种词特征的微博突发事件检测方法[J]. 张仰森,段宇翔,王建,吴云芳. 电子学报. 2019(09)
[2]基于突发词地域分析的微博突发事件检测方法[J]. 张雄宝,陆向艳,练凯迪,刘峻,刘正平. 情报杂志. 2017(03)
[3]基于突发主题词和凝聚式层次聚类的微博突发事件检测研究[J]. 丁晟春,龚思兰,李红梅. 现代图书情报技术. 2016(Z1)
[4]基于突发词H指数的微博突发事件检测算法研究[J]. 张晓霞,王名扬,贾冲冲,董煦. 情报杂志. 2015(02)
[5]面向大规模微博消息流的突发话题检测[J]. 申国伟,杨武,王巍,于淼. 计算机研究与发展. 2015(02)
[6]融合用户情感的在线突发事件识别研究[J]. 尉永清,杨玉珍,费绍栋,朱振方. 情报理论与实践. 2015(02)
[7]基于突发词项频域分析的微博突发事件检测[J]. 赵洁,马铮,周晓峰,金培权. 情报理论与实践. 2015(01)
[8]基于爆发词识别的微博突发事件监测方法研究[J]. 陈国兰. 情报杂志. 2014(09)
[9]基于突发词聚类的微博突发事件检测方法[J]. 郭跇秀,吕学强,李卓. 计算机应用. 2014(02)
[10]一种基于情感符号的在线突发事件检测方法[J]. 张鲁民,贾焰,周斌,赵金辉,洪锋. 计算机学报. 2013(08)
硕士论文
[1]基于用户反馈信息的新闻推荐系统设计与实现[D]. 何希真.山东师范大学 2015
[2]基于论坛的突发事件检测与跟踪[D]. 王堃宇.兰州大学 2015
[3]突发事件微博新话题检测与跟踪系统的设计与实现[D]. 葛高飞.北京邮电大学 2014
本文编号:3489496
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3489496.html