互联网突发事件知识库构建
发布时间:2022-12-22 06:54
突发事件以其突发性、破坏性时刻威胁着社会的安康稳定,突发事件舆情更是考验着相关部门的应急管理能力与执政水平。当今社会,互联网给予了每个人话语权,逐渐成为事件舆论的主要阵地。这使得互联网蕴含着大量有价值的突发事件相关知识,然而这种战略性资源却没有得到有效的挖掘与利用。知识库作为一种管理知识的工具,能够实现对海量知识的高效管理,有效缓解“海量信息”与“知识匮乏”的矛盾问题。现有的知识库大多数面向通用开放领域,针对特定领域的知识库则需要专门构建。本文面向突发事件领域,构建互联网突发事件知识库,为突发事件相关知识的挖掘、存储与管理提供一种新的思路。主要研究内容如下:(1)突发事件数据采集与处理。利用Python网络爬虫,结合Selenium自动化工具、Scrapy框架,采集新浪微博和百度贴吧两个社交网络平台上的突发事件信息,形成初步的事件信息库。对采集的源数据进行数据清洗、中文分词、停用词过滤等一系列预处理操作。制定基于事件句的数据选择策略以选择出优质数据,使用BIO标注体系对突发事件的涉事对象进行标注,形成包含涉事人员(PER)、涉事组织机构(ORG)两类实体以及非实体(O)的标注数据集。(...
【文章页数】:82 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 主要研究内容
1.4 论文组织结构
2 相关技术及理论介绍
2.1 网络爬虫
2.2 命名实体识别
2.3 本章小结
3 突发事件数据采集与处理
3.1 突发事件的采集
3.2 数据预处理
3.3 数据集分析与构造
3.4 本章小结
4 突发事件涉事对象识别
4.1 问题建模
4.2 基于BiLSTM-CRF的突发事件涉事对象识别模型
4.3 实验
4.4 本章小结
5 突发事件知识库构建及系统实现
5.1 需求分析
5.2 结构设计
5.3 功能模块设计
5.4 系统架构和实现
5.5 系统测试
5.6 本章小结
6 总结与展望
6.1 总结
6.2 展望
参考文献
作者简历
学位论文数据集
【参考文献】:
期刊论文
[1]数据标注研究综述[J]. 蔡莉,王淑婷,刘俊晖,朱扬勇. 软件学报. 2020(02)
[2]基于BERT的警情文本命名实体识别[J]. 王月,王孟轩,张胜,杜渂. 计算机应用. 2020(02)
[3]采用Transformer-CRF的中文电子病历命名实体识别[J]. 李博,康晓东,张华丽,王亚鸽,陈亚媛,白放. 计算机工程与应用. 2020(05)
[4]结合GAN与BiLSTM-Attention-CRF的领域命名实体识别[J]. 张晗,郭渊博,李涛. 计算机研究与发展. 2019(09)
[5]面向多数据源的网络爬虫实现技术及应用[J]. 曾健荣,张仰森,郑佳,黄改娟,陈若愚. 计算机科学. 2019(05)
[6]基于BILSTMCRF的知识图谱实体抽取方法[J]. 翟社平,段宏宇,李兆兆. 计算机应用与软件. 2019(05)
[7]基于WebMagic爬取技术的电力事故信息获取[J]. 党佩,阎光伟. 计算机技术与发展. 2019(06)
[8]基于Scrapy框架的爬虫和反爬虫研究[J]. 韩贝,马明栋,王得玉. 计算机技术与发展. 2019(02)
[9]一种基于Word2Vec的训练效果优化策略研究[J]. 王飞,谭新. 计算机应用与软件. 2018(01)
[10]基于SNA的突发事件网络舆情传播研究——以“魏则西事件”为例[J]. 王旭,孙瑞英. 情报科学. 2017(03)
博士论文
[1]基于领域本体的蒙医药学知识库构建与知识发现研究[D]. 鲍玉来.吉林大学 2018
[2]突发公共事件网络舆情演化研究[D]. 陈璟浩.武汉大学 2014
硕士论文
[1]节水知识库构建及社会化服务应用研究[D]. 景康.西安理工大学 2019
[2]面向司法领域的命名实体识别研究[D]. 林义孟.云南财经大学 2019
[3]基于BiLSTM-CRF的复杂中文命名实体识别研究[D]. 顾溢.南京大学 2019
[4]互联网违规广告监测系统的设计与开发[D]. 张文玄.中国矿业大学 2019
[5]基于时间线的历史知识库自动构建方法[D]. 刘乐.哈尔滨工业大学 2018
[6]昆明“3·01”暴恐事件中网络舆情应急处置案例研究[D]. 郑珊.电子科技大学 2017
[7]基于Scrapy框架的网络爬虫实现与数据抓取分析[D]. 安子建.吉林大学 2017
[8]大规模网络事件热度预测系统的设计与实现[D]. 苏晨吉.哈尔滨工业大学 2017
[9]基于Hadoop平台和隐马尔可夫模型的生物医学命名实体识别方法研究[D]. 李世超.西北农林科技大学 2017
[10]突发事件舆情案例建模研究[D]. 吴明静.天津大学 2017
本文编号:3723682
【文章页数】:82 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 主要研究内容
1.4 论文组织结构
2 相关技术及理论介绍
2.1 网络爬虫
2.2 命名实体识别
2.3 本章小结
3 突发事件数据采集与处理
3.1 突发事件的采集
3.2 数据预处理
3.3 数据集分析与构造
3.4 本章小结
4 突发事件涉事对象识别
4.1 问题建模
4.2 基于BiLSTM-CRF的突发事件涉事对象识别模型
4.3 实验
4.4 本章小结
5 突发事件知识库构建及系统实现
5.1 需求分析
5.2 结构设计
5.3 功能模块设计
5.4 系统架构和实现
5.5 系统测试
5.6 本章小结
6 总结与展望
6.1 总结
6.2 展望
参考文献
作者简历
学位论文数据集
【参考文献】:
期刊论文
[1]数据标注研究综述[J]. 蔡莉,王淑婷,刘俊晖,朱扬勇. 软件学报. 2020(02)
[2]基于BERT的警情文本命名实体识别[J]. 王月,王孟轩,张胜,杜渂. 计算机应用. 2020(02)
[3]采用Transformer-CRF的中文电子病历命名实体识别[J]. 李博,康晓东,张华丽,王亚鸽,陈亚媛,白放. 计算机工程与应用. 2020(05)
[4]结合GAN与BiLSTM-Attention-CRF的领域命名实体识别[J]. 张晗,郭渊博,李涛. 计算机研究与发展. 2019(09)
[5]面向多数据源的网络爬虫实现技术及应用[J]. 曾健荣,张仰森,郑佳,黄改娟,陈若愚. 计算机科学. 2019(05)
[6]基于BILSTMCRF的知识图谱实体抽取方法[J]. 翟社平,段宏宇,李兆兆. 计算机应用与软件. 2019(05)
[7]基于WebMagic爬取技术的电力事故信息获取[J]. 党佩,阎光伟. 计算机技术与发展. 2019(06)
[8]基于Scrapy框架的爬虫和反爬虫研究[J]. 韩贝,马明栋,王得玉. 计算机技术与发展. 2019(02)
[9]一种基于Word2Vec的训练效果优化策略研究[J]. 王飞,谭新. 计算机应用与软件. 2018(01)
[10]基于SNA的突发事件网络舆情传播研究——以“魏则西事件”为例[J]. 王旭,孙瑞英. 情报科学. 2017(03)
博士论文
[1]基于领域本体的蒙医药学知识库构建与知识发现研究[D]. 鲍玉来.吉林大学 2018
[2]突发公共事件网络舆情演化研究[D]. 陈璟浩.武汉大学 2014
硕士论文
[1]节水知识库构建及社会化服务应用研究[D]. 景康.西安理工大学 2019
[2]面向司法领域的命名实体识别研究[D]. 林义孟.云南财经大学 2019
[3]基于BiLSTM-CRF的复杂中文命名实体识别研究[D]. 顾溢.南京大学 2019
[4]互联网违规广告监测系统的设计与开发[D]. 张文玄.中国矿业大学 2019
[5]基于时间线的历史知识库自动构建方法[D]. 刘乐.哈尔滨工业大学 2018
[6]昆明“3·01”暴恐事件中网络舆情应急处置案例研究[D]. 郑珊.电子科技大学 2017
[7]基于Scrapy框架的网络爬虫实现与数据抓取分析[D]. 安子建.吉林大学 2017
[8]大规模网络事件热度预测系统的设计与实现[D]. 苏晨吉.哈尔滨工业大学 2017
[9]基于Hadoop平台和隐马尔可夫模型的生物医学命名实体识别方法研究[D]. 李世超.西北农林科技大学 2017
[10]突发事件舆情案例建模研究[D]. 吴明静.天津大学 2017
本文编号:3723682
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3723682.html