当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于频繁子图模式挖掘的群体性抗议事件检测与预测技术研究

发布时间:2020-06-05 19:18
【摘要】:群体性抗议事件是指一定社会群体,为表达对政府、政治人物或某些大型组织(如企业)的政策、规定或行为的反对意见,在特定时间地点预谋性或自发性聚集,并以游行、静坐、罢工、罢课、罢市、占领等形式开展的抗议活动。鉴于群体性抗议事件频繁出现的案例、高昂的社会成本,全球各个国家政府机构都十分重视对这类公共安全事件管控与决策能力的提升,并且投入了大量人力物力研究和把握这类事件的内在演变机理和早期检测与预警机制。2013年以来,全球整合新闻事件数据库GDELT宣布正式对全球开放,其自动编码入库了从1979年至今全球新闻资讯、电视广播、报纸甚至学术论文中提到的所有冲突与调解事件数据,监测了几乎全球每个国家,涵盖100多种语言,为基于数据挖掘和机器学习方法研究群体性抗议事件提供了丰富的数据基础。本文基于GDELT开源大数据,研究基于频繁子图模式挖掘的群体性抗议事件检测与预测技术,主要进行了以下四个方面的研究工作。第一,构建了基于Hadoop+Hive+Spark SQL大数据架构的GDELT大数据仓库。GDELT作为目前世界上最大的冲突与调解事件数据源,目前其全表原始数据记录数已超过20亿条,数据规模达到7.5TB,如何采集、存储、查询这些数据是最基础的工作。本文首先对GDELT的数据进行了实时采集并存储到HDFS分布式文件存储系统中,接着利用Hive完成原始数据的高性能ETL(抽取、转换、加载),将GDELT数据加载到Hive数据仓库中;考虑到Hive数据仓库的“惰性计算”特性使得其实时查询效果不好,进一步利用Spark SQL内存计算引擎外挂GDELT数据仓库,并通过ThriftServer提供统一的访问接口,大大增强了GDELT大数据仓库的实用性。第二,提出了两个大规模频繁子图并行挖掘算法:面向图集的PTrGraM算法和面向单个大图的SSiGraM算法。本文采用频繁子图挖掘方法从GDELT大数据中发掘特征模式,而目前频繁子图挖掘算法均是单机串行执行,无法有效满足大规模输入图及低阈值模式挖掘的需求,因此提出并行化挖掘频繁子图。考虑到面向图集的频繁子图挖掘算法其复杂度相对较低,提出了基于单机多线程的图集上频繁子图并行挖掘算法PTrGraM;面向单个大图的频繁子图挖掘复杂性更高,考虑在多台计算机上进行分布式挖掘,进而提出了基于Spark计算框架的单个大图上频繁子图分布式挖掘算法SSiGraM,算法实现子图分布式扩展和支持度分布式计算并引入了三种优化策略,最后在不同密度的四个大图上验证了该算法的性能。第三,提出了基于频繁子图特征工程的群体性抗议事件检测方法。针对目前基于启发式的特征选择策略在可区分性和可解释性方面的不足,提出使用面向图集的频繁子图来对群体性抗议事件中的参与主体交互模式进行描述,并且提出了一种频繁子图特征区分能力度量指标ISDP,最后使用强分类器SVM和集成学习分类器Adaboost、GradientBoosting三种分类器进行调优学习子图特征,训练事件检测模型。实验聚焦历史上权威报道过的造成重大影响的群体性抗议事件,在“占中”和“占领华尔街”两个数据集上验证了检测模型的有效性。第四,提出了基于隐式半马尔科夫模型(HSMM)的群体性抗议事件预测框架。针对群体性抗议事件的多阶段演化特性,提出了一种基于隐式半马尔科夫模型的群体性抗议事件预测框架,包含四个主要步骤:Ground-Truth抽取、BoEAG特征抽取、HSMM模型训练和序列分类在线测试。通过该预测框架,可以针对某个国家或地区,从GDELT数据中自动抽取其历史上发生的大量群体性抗议的事件关联图词袋特征BoEAG,并利用HSMM模型学习其发展演化的规律,最后通过贝叶斯决策序列分类预测将来某个时间段事件发生的可能性。在实验部分,结合东南亚五个国家:泰国、印尼、马来西亚、菲律宾和柬埔寨的测试数据集,比较了HSMM模型、HMM模型、Logistic回归和Baseline四种方法在群体性抗议事件预测任务中的有效性。综上所述,本文针对群体性抗议事件检测与预测这一问题,基于全球整合新闻事件数据库,首先构建可靠易用的大数据仓库,然后从中挖掘频繁子图特征模式,最后基于特征学习训练群体性抗议事件检测模型与预测模型,实现了开源大数据全链条的数据ETL、特征挖掘与分析应用,为基于数据挖掘和机器学习相关方法分析使用GDELT数据乃至其他大数据源提供了一种可行方案,具有重要的理论意义与应用价值。
【学位授予单位】:国防科技大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP311.13;D631.43

【相似文献】

相关期刊论文 前10条

1 苑春佼;;《吉祥多子图》临摹[J];大众文艺;2018年10期

2 鲁宗贵;;吉祥多子图页[J];中国书画;2018年09期

3 印安涛;钱钢;施欢欢;;在复杂网络中查找k个有限重叠的密集子图[J];计算机应用与软件;2016年12期

4 鲁宗贵;;吉祥多子图[J];文艺研究;2017年03期

5 梁瑶;;吉祥多子图[J];美与时代(中);2017年06期

6 鲁宗贵;;《吉祥多子图》[J];老年教育(书画艺术);2016年01期

7 王苗苗;;《吉祥多子图》[J];明日风尚;2016年08期

8 周姗;;《吉祥多子图》[J];参花(上);2016年06期

9 杨利民;图K_n~k和C_n~t的理想子图的计数[J];大理师专学报(自然科学版);1995年01期

10 陈赐平;;带亏数的[1,n]-子图[J];北京农业工程大学学报;1987年03期

相关会议论文 前9条

1 刘桂珍;徐周波;;最大公共子图问题的约束符号求解技术[A];广西计算机学会2016年学术年会论文集[C];2016年

2 徐以凡;;层分解和子图识别问题[A];2001年全国数学规划及运筹研讨会论文集[C];2001年

3 吴卫江;李国和;;Apriori算法思想在频繁子图挖掘中应用的研究[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年

4 陶剑文;丁佩芬;赵杰煜;;csgIndex:一种可扩展的对比子图索引模型[A];第二十七届中国控制会议论文集[C];2008年

5 陈荣斯;;非正则冠状系统[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年

6 吴颖华;周皓峰;袁晴晴;洪铭胜;汪卫;施伯乐;;Topology:一个快速的频繁连通子图的挖掘算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

7 韩璐;王朝坤;阮文静;欧晓平;仇萍;;基于MapReduce的不确定子图查询处理[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

8 周杨;王峰;;FSM——基于子图同构和结构同构的频繁子图挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

9 张丽丽;殷兆麟;张爱娟;王竹晓;;以结点为中心的WordNet子图的可视化[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年

相关重要报纸文章 前1条

1 王圣立;“五子图”罐再现成化风彩[N];中国商报;2003年

相关博士学位论文 前10条

1 乔凤才;基于频繁子图模式挖掘的群体性抗议事件检测与预测技术研究[D];国防科技大学;2018年

2 买吐肉孜·买司地克(Metrose Metsidik);带子图及其部分对偶若干性质的刻画[D];厦门大学;2017年

3 蔺厚元;禁用子图与图的哈密尔顿性[D];华中师范大学;2012年

4 李斌龙;重子图条件下图的Hamilton性及相关问题[D];西北工业大学;2016年

5 毛玲;基于层次因子图的心电图自动诊断方法研究[D];国防科学技术大学;2009年

6 崔庆;Tutte子图方法及其应用[D];南开大学;2009年

7 邹磊;图数据库中的子图查询算法研究[D];华中科技大学;2009年

8 崔耀祖;基于复杂网络边的密度探索社团结构算法研究[D];大连理工大学;2016年

9 吴云建;一致星因子图与笼的连通性[D];南开大学;2009年

10 马登举;曲面的极小禁用子图与图的亏格[D];华东师范大学;2011年

相关硕士学位论文 前10条

1 王广香;基于频繁结构的大规模动态图子图查询方法研究[D];辽宁大学;2019年

2 贾春杰;大规模动态标签图Top-K兴趣子图查询方法研究[D];辽宁大学;2019年

3 李荣荣;分布式环境下大规模图数据的密集子图发现方法研究[D];北京交通大学;2019年

4 黄睿智;不确定图下的稠密子图挖掘研究[D];浙江工业大学;2018年

5 黄子扬;图在点度数限制下的大导出子图[D];中国科学技术大学;2019年

6 窦建凯;单图中子图大小相关的近似频繁子图挖掘[D];华东师范大学;2019年

7 闫靓;稳定频繁子图挖掘算法研究[D];辽宁大学;2018年

8 刘钟凌;顶点加权图的最密集子图算法设计与实现[D];广州大学;2018年

9 邹艳梅;关于图的Hamilton性的禁用子图条件[D];华东师范大学;2018年

10 姜丽雁;大规模动态有向标签图子图查询方法研究[D];辽宁大学;2018年



本文编号:2698493

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2698493.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ddd1a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com