基于微博流的灾害信息提取系统设计与实现
发布时间:2022-10-22 18:31
社交媒体能够满足人们的信息和情感需求,而当发生灾害时,这种需求会变得更加迫切,并且从整体上来说,社交媒体提供的数据是动态、实时的、由用户自发产生的。作为社交媒体的代表,微博可以在实时信息和情感两个方面作为传统灾害信息提取方法的一个重要补充。灾害相关微博数据的处理是一种对时效性非常敏感的数据处理任务,其需求者往往期望能够尽快地获知被处理的数据和处理的结果。因此,考虑到微博数据具有流数据的性质,本文面向中文微博领域,围绕微博数据的获取、预处理、信息提取、提取结果统计、统计结果可视化的完整流程,设计并实现了基于微博流的灾害信息提取系统,该系统在微博数据获取引擎和微博分析引擎的支持下提供灾害相关微博流数据的信息提取功能。在灾害微博数据的获取和预处理方面,本文针对微博数据的特点,设计并实现了微博抓取策略和预处理方法。首先以爬虫的方式抓取灾害相关的新浪微博数据,提供了微博用户主页数据、微博搜索结果历史数据、微博搜索结果实时数据三种数据获取途径;然后对抓取到的灾害微博数据进行预处理,包括数据清洗、中文分词等,为信息提取准备好数据来源。在灾害微博信息提取方面,本文提出了灾害相关微博数据的文本分类和情感...
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 微博在灾害中的应用研究现状
1.2.2 灾害相关微博处理系统研究现状
1.3 主要研究内容
1.4 论文组织结构
第二章 相关背景知识简介
2.1 微博平台和微博数据的特点
2.2 文本分析的基础模型
2.2.1 词向量的概念
2.2.2 统计语言模型和N-gram模型
2.2.3 神经概率语言模型
2.2.4 Word2Vec词向量模型
2.3 流处理相关框架
2.3.1 Kafka分布式消息系统
2.3.2 Spark流处理引擎
2.4 本章小结
第三章 灾害微博数据的获取和预处理
3.1 微博数据获取引擎
3.2 微博数据获取
3.2.1 模拟登陆
3.2.2 用户主页抓取
3.2.3 微博搜索抓取
3.3 微博数据预处理
3.3.1 数据清洗
3.3.2 中文分词
3.4 微博数据的存储
3.5 本章小结
第四章 灾害微博信息提取方法
4.1 微博分析引擎
4.2 文本分类
4.2.1 FastText文本分类模型
4.2.2 分类模型训练和预测流程
4.2.3 文本分类相关任务
4.3 情感分析
4.3.1 情感词的匹配和统计
4.3.2 情感倾向的计算
4.3.3 情感分析词表构建任务
4.4 方法评价
4.4.1 实验数据
4.4.2 评价指标
4.4.3 评价结果
4.5 本章小结
第五章 基于微博流的灾害信息提取系统
5.1 系统架构设计
5.2 原型系统实现
5.3 灾害信息提取流程
5.3.1 灾害相关搜索关键词提取
5.3.2 信息提取和结果统计
5.4 可视化和结果展示
5.5 本章小结
第六章 总结和展望
6.1 总结
6.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]基于微博大数据的城市内涝灾害的灾情及公众情绪研究——以南京市为例[J]. 吴先华,肖杨,王国复,马廷淮,吉中会. 灾害学. 2018(03)
[2]微博中蕴含台风灾害损失信息识别和分类方法[J]. 杨腾飞,解吉波,李振宇,李国庆. 地球信息科学学报. 2018(07)
[3]基于微博数据挖掘的九寨沟7.0级地震灾情时空特征分析[J]. 曹彦波,毛振江. 中国地震. 2017(04)
[4]基于微博的安全事件实时监测框架研究[J]. 李凌云,敖吉,乔治,李剑. 信息网络安全. 2015(01)
[5]基于情感分析的灾害网络舆情研究——以雅安地震为例[J]. 刘雯,高峰,洪凌子. 图书情报工作. 2013(20)
[6]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
[7]基于层叠隐马模型的汉语词法分析[J]. 刘群,张华平,俞鸿魁,程学旗. 计算机研究与发展. 2004(08)
[8]数据质量和数据清洗研究综述[J]. 郭志懋,周傲英. 软件学报. 2002(11)
[9]相对程度副词与绝对程度副词[J]. 张桂宾. 华东师范大学学报(哲学社会科学版). 1997(02)
博士论文
[1]社交媒体在巨灾风险治理中的作用研究[D]. 邝启宇.西南财经大学 2014
硕士论文
[1]微博数据挖掘可视化系统的设计与实现[D]. 王婧雅.吉林大学 2017
[2]基于图的中文微博灾难事件检测[D]. 孙方园.浙江大学 2016
[3]微博数据提取及话题检测方法研究[D]. 邱洋.大连理工大学 2013
[4]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
[5]文本聚类分析效果评价及文本表示研究[D]. 周昭涛.中国科学院研究生院(计算技术研究所) 2005
本文编号:3696642
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 微博在灾害中的应用研究现状
1.2.2 灾害相关微博处理系统研究现状
1.3 主要研究内容
1.4 论文组织结构
第二章 相关背景知识简介
2.1 微博平台和微博数据的特点
2.2 文本分析的基础模型
2.2.1 词向量的概念
2.2.2 统计语言模型和N-gram模型
2.2.3 神经概率语言模型
2.2.4 Word2Vec词向量模型
2.3 流处理相关框架
2.3.1 Kafka分布式消息系统
2.3.2 Spark流处理引擎
2.4 本章小结
第三章 灾害微博数据的获取和预处理
3.1 微博数据获取引擎
3.2 微博数据获取
3.2.1 模拟登陆
3.2.2 用户主页抓取
3.2.3 微博搜索抓取
3.3 微博数据预处理
3.3.1 数据清洗
3.3.2 中文分词
3.4 微博数据的存储
3.5 本章小结
第四章 灾害微博信息提取方法
4.1 微博分析引擎
4.2 文本分类
4.2.1 FastText文本分类模型
4.2.2 分类模型训练和预测流程
4.2.3 文本分类相关任务
4.3 情感分析
4.3.1 情感词的匹配和统计
4.3.2 情感倾向的计算
4.3.3 情感分析词表构建任务
4.4 方法评价
4.4.1 实验数据
4.4.2 评价指标
4.4.3 评价结果
4.5 本章小结
第五章 基于微博流的灾害信息提取系统
5.1 系统架构设计
5.2 原型系统实现
5.3 灾害信息提取流程
5.3.1 灾害相关搜索关键词提取
5.3.2 信息提取和结果统计
5.4 可视化和结果展示
5.5 本章小结
第六章 总结和展望
6.1 总结
6.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]基于微博大数据的城市内涝灾害的灾情及公众情绪研究——以南京市为例[J]. 吴先华,肖杨,王国复,马廷淮,吉中会. 灾害学. 2018(03)
[2]微博中蕴含台风灾害损失信息识别和分类方法[J]. 杨腾飞,解吉波,李振宇,李国庆. 地球信息科学学报. 2018(07)
[3]基于微博数据挖掘的九寨沟7.0级地震灾情时空特征分析[J]. 曹彦波,毛振江. 中国地震. 2017(04)
[4]基于微博的安全事件实时监测框架研究[J]. 李凌云,敖吉,乔治,李剑. 信息网络安全. 2015(01)
[5]基于情感分析的灾害网络舆情研究——以雅安地震为例[J]. 刘雯,高峰,洪凌子. 图书情报工作. 2013(20)
[6]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
[7]基于层叠隐马模型的汉语词法分析[J]. 刘群,张华平,俞鸿魁,程学旗. 计算机研究与发展. 2004(08)
[8]数据质量和数据清洗研究综述[J]. 郭志懋,周傲英. 软件学报. 2002(11)
[9]相对程度副词与绝对程度副词[J]. 张桂宾. 华东师范大学学报(哲学社会科学版). 1997(02)
博士论文
[1]社交媒体在巨灾风险治理中的作用研究[D]. 邝启宇.西南财经大学 2014
硕士论文
[1]微博数据挖掘可视化系统的设计与实现[D]. 王婧雅.吉林大学 2017
[2]基于图的中文微博灾难事件检测[D]. 孙方园.浙江大学 2016
[3]微博数据提取及话题检测方法研究[D]. 邱洋.大连理工大学 2013
[4]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
[5]文本聚类分析效果评价及文本表示研究[D]. 周昭涛.中国科学院研究生院(计算技术研究所) 2005
本文编号:3696642
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3696642.html
最近更新
教材专著