基于Spark的突发事件检测实现研究
发布时间:2017-08-23 04:37
本文关键词:基于Spark的突发事件检测实现研究
更多相关文章: 突发事件检测 Spark并行计算 Hadoop MapReduce 大数据分析 LDA主题模型
【摘要】:网络信息流中包含着显式或隐式的突发事件,从这些海量信息流中检测或预测突发事件具有重大意义。通过检测或预测出突发事件,有关应急部门可以做好充足准备和应对策略,将损失降到最低;普通用户可以沉着应对突发事件,不至于扩大突发事件的危害性,增加不必要心理压力。与突发事件有关的研究在国内外屡见不鲜,已取得不少成果。但目前的研究主要局限于突发事件自身特色的理论方面,在检测和预测等技术方面虽有但不多。特别是大数据环境下的突发事件检测和预测技术研究更是凤毛麟角。本文想要解决的问题是“如何在大数据环境下的网络信息中准确、快速地检测出突发事件”。该问题可分解为两个子问题,一是在大数据环境下如何从网络信息中准确地检测出突发事件,二是如何快速地检测出突发事件。针对两个子问题,本文先分析了突发事件检测的相关理论与主要技术,然后对大数据环境下的突发事件检测模型和方法进行研究,具体包括以下4个方面:(1)论述了突发事件、突发事件检测及大数据并行计算等相关概念与技术;(2)以perplexity(困惑度)作为主要评价指标,分析了PLSI、LDA(?)HDP等基于概率生成的主题模型的优缺点;(3)提出突发事件并行检测模型,以适应大数据环境下准确、快速地检测突发事件;(4)利用Yahoo news新闻与新浪微博两种不同类型数据源进行实证研究。本文主要研究成果是提出了突发事件并行检测模型,使得该模型能够胜任大数据环境下突发事件检测任务。该并行模型分为4个步骤,分别是语料并行预处理、突发词并行检测、潜在突发文本并行过滤和LDA主题并行抽取。该并行模型可在当前最流行的快数据处理平台Spark上执行。上述的并行检测模型,应用于实际业务中就形成并行检测系统。本文的并行检测系统就运行于Spar k平台。此外,本文对并行检测模型进行了实证研究。通过Yahoo news新闻与新浪微博两种不同类型数据源的实证研究,表明本文所提的突发事件并行检测模型(方法)具有较高的准确性和较好的可扩展性。具体的实证研究工作是:(1)在Yahoo news新闻数据源方面,主要做了突发事件检测准确性实验;概述了全部数据的检测实验并具体阐述了4月、5月、6月的检测实验,通过实验表明本文所提的突发事件并行检测模型准确率P、召回率R和调和平均值F分别可达84.62%、78.57%和81.48%。(2)在新浪微博数据源方面,进行了加速比和可扩展比的有效性实验;对突发事件并行检测系统中耗时最长的LDA主题并行抽取模块,进行了LDA迭代次数、LDA主题数、Spark分区数和运行Spark的硬件平台使用情况等实证研究。
【关键词】:突发事件检测 Spark并行计算 Hadoop MapReduce 大数据分析 LDA主题模型
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:G206;G353.1
【目录】:
- 摘要5-7
- Abstract7-14
- 第一章 绪论14-20
- 1.1 研究背景与意义14-17
- 1.1.1 研究背景14-15
- 1.1.2 研究意义15-17
- 1.2 研究思路与方法17-18
- 1.3 主要工作18
- 1.4 论文的组织结构18-20
- 第二章 文献综述20-38
- 2.1 突发事件相关研究20-22
- 2.1.1 突发事件概念20-21
- 2.1.2 突发事件特征21
- 2.1.3 突发事件生命周期21-22
- 2.2 突发事件检测相关工作与技术研究22-34
- 2.2.1 突发事件检测相关工作22-24
- 2.2.2 突发词检测技术研究24-26
- 2.2.3 文本主题抽取技术研究26-34
- 2.3 大数据并行计算相关工作与技术研究34-38
- 2.3.1 大数据并行计算相关工作34-35
- 2.3.2 Hadoop MapReduce和Spark系统评估35-38
- 第三章 突发事件并行检测模型研究38-50
- 3.1 模型总体框架38-39
- 3.2 语料并行预处理39-41
- 3.2.1 英文语料并行预处理39-41
- 3.2.2 中文语料并行预处理41
- 3.3 突发词并行检测模块41-44
- 3.3.1 突发词并行检测算法41-43
- 3.3.2 突发词并行检测参数说明43-44
- 3.3.3 复杂度分析44
- 3.4 潜在突发文本并行过滤44-45
- 3.4.1 潜在突发文本并行过滤算法44-45
- 3.4.2 复杂度分析45
- 3.5 LDA主题并行抽取模块45-49
- 3.5.1 LDA主题并行抽取算法45-47
- 3.5.2 LDA主题并行抽取参数说明47-48
- 3.5.3 复杂度分析48-49
- 3.6 本章小结49-50
- 第四章 突发事件并行检测实证研究50-80
- 4.1 新闻数据源检测实证研究50-73
- 4.1.1 新闻数据来源50-51
- 4.1.2 新闻数据源检测结果与分析51-73
- 4.2 微博数据源检测实证研究73-79
- 4.2.1 数据来源与硬件配置73-74
- 4.2.2 实验结果与分析74-79
- 4.3 本章小结79-80
- 第五章 总结与展望80-82
- 5.1 本文主要工作80-81
- 5.2 研究展望81-82
- 参考文献82-87
- 致谢87-88
- 附录A LDA主题并行抽取MAP操作算法88-89
- 附录B LDA主题并行抽取REDUCE操作算法89-90
- 附录C 科研成果与学术活动90-91
【参考文献】
中国期刊全文数据库 前10条
1 卓可秋;童国平;虞为;;一种基于Spark的论文相似性快速检测方法[J];图书情报工作;2015年11期
2 卓可秋;虞为;苏新宁;;突发事件检测的MapReduce并行化实现[J];现代图书情报技术;2015年02期
3 熊光清;;网络突发事件应对中存在的问题及解决方略[J];哈尔滨工业大学学报(社会科学版);2014年04期
4 李纲;陈t熀,
本文编号:723021
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/723021.html