基于网络媒体的食品安全数据采集与处理研究
发布时间:2024-06-04 22:20
食品安全作为关乎国计民生的重要社会问题,始终是业界的研究热点。随着信息技术的不断发展,研究怎样将相关技术手段应用于食品安全领域成为了一种新的研究思路。网络媒体作为一种公共数据源,其本身蕴含有丰富的各类信息。如果能利用技术手段从网络媒体中采集食品安全相关数据,并对其进行信息处理以发掘其内在价值,必将有利于解决食品安全问题,促进社会的稳定发展。本文以网络媒体中存在的食品安全文本数据作为研究对象,针对其数据采集与信息处理方法展开研究工作。首先分析了网络媒体中存在的食品安全数据的内容特点,然后制定评价标准对各种不同类型的食品安全数据进行评判,并以此为依据选定具体研究对象与数据采集来源;其次提出一种基于Scrapy的数据采集方案,详细阐述了其构建与实现方法,并利用该方案从选定网站中采集包括食品安全新闻报道、食品检测通告、食品安全刑事裁判文书在内的三种食品安全文本数据作为具体研究对象;然后介绍了针对食品安全数据的信息处理方法,主要内容包括数据预处理方法、基于BERT关键词嵌入的文本筛选方法、基于BiLSTMCRF的命名实体提取方法、基于正则表达式的信息提取方法以及基于Text Rank的文本摘要提...
【文章页数】:88 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 课题研究背景与意义
1.2 国内外研究现状
1.2.1 网络数据采集技术
1.2.2 信息处理技术
1.2.3 相关技术在食品安全领域的应用
1.3 本文主要研究内容与工作安排
第二章 食品安全数据采集方法研究
2.1 采集对象及来源确定
2.1.1 网络媒体中的食品安全数据类型分析
2.1.2 具体研究对象选择
2.1.3 数据采集来源选择
2.2 基于Scrapy的数据采集方案
2.2.1 Scrapy的结构与原理
2.2.2 基于Beautifulsoup4 的页面分析方法
2.2.3 爬虫整体设计
2.2.4 爬虫实现方法
2.3 采集成果展示
2.4 本章小结
第三章 食品安全信息处理方法研究
3.1 数据预处理方法
3.2 基于BERT关键词嵌入的文本筛选方法
3.2.1 基于TF-IDF的关键词提取方法
3.2.2 BERT词嵌入模型
3.2.3 文档向量计算方法
3.2.4 SVM分类器
3.2.5 实验及结果分析
3.3 基于BILSTM-CRF的命名实体提取方法
3.3.1 LSTM与 BiLSTM的结构与原理
3.3.2 CRF原理
3.3.3 BiLSTM-CRF命名实体提取模型
3.3.4 实验及结果分析
3.4 基于正则表达式的信息提取方法
3.4.1 正则表达式基本原理
3.4.2 正则表达式使用方法
3.4.3 提取效果及分析
3.5 基于Text Rank的文本摘要提取方法
3.5.1 Text Rank算法原理与使用步骤
3.5.2 提取效果及分析
3.6 本章小结
第四章 食品安全数据结构化处理及可视化方法研究
4.1 食品安全数据结构化处理方法
4.1.1 结构化模板设计
4.1.2 结构化处理流程
4.1.3 数据结构化效果
4.2 基于ECharts的可视化方案
4.2.1 ECharts基本特性与使用方法
4.2.2 食品安全新闻报道词云图构建方法
4.2.3 食品-非法添加剂关系图构建方法
4.2.4 食品安全违法事件地图构建方法
4.3 本章小结
第五章 总结与展望
5.1 工作总结
5.2 研究展望
参考文献
附录 A
附录 B
在学期间的研究成果
致谢
本文编号:3989250
【文章页数】:88 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 课题研究背景与意义
1.2 国内外研究现状
1.2.1 网络数据采集技术
1.2.2 信息处理技术
1.2.3 相关技术在食品安全领域的应用
1.3 本文主要研究内容与工作安排
第二章 食品安全数据采集方法研究
2.1 采集对象及来源确定
2.1.1 网络媒体中的食品安全数据类型分析
2.1.2 具体研究对象选择
2.1.3 数据采集来源选择
2.2 基于Scrapy的数据采集方案
2.2.1 Scrapy的结构与原理
2.2.2 基于Beautifulsoup4 的页面分析方法
2.2.3 爬虫整体设计
2.2.4 爬虫实现方法
2.3 采集成果展示
2.4 本章小结
第三章 食品安全信息处理方法研究
3.1 数据预处理方法
3.2 基于BERT关键词嵌入的文本筛选方法
3.2.1 基于TF-IDF的关键词提取方法
3.2.2 BERT词嵌入模型
3.2.3 文档向量计算方法
3.2.4 SVM分类器
3.2.5 实验及结果分析
3.3 基于BILSTM-CRF的命名实体提取方法
3.3.1 LSTM与 BiLSTM的结构与原理
3.3.2 CRF原理
3.3.3 BiLSTM-CRF命名实体提取模型
3.3.4 实验及结果分析
3.4 基于正则表达式的信息提取方法
3.4.1 正则表达式基本原理
3.4.2 正则表达式使用方法
3.4.3 提取效果及分析
3.5 基于Text Rank的文本摘要提取方法
3.5.1 Text Rank算法原理与使用步骤
3.5.2 提取效果及分析
3.6 本章小结
第四章 食品安全数据结构化处理及可视化方法研究
4.1 食品安全数据结构化处理方法
4.1.1 结构化模板设计
4.1.2 结构化处理流程
4.1.3 数据结构化效果
4.2 基于ECharts的可视化方案
4.2.1 ECharts基本特性与使用方法
4.2.2 食品安全新闻报道词云图构建方法
4.2.3 食品-非法添加剂关系图构建方法
4.2.4 食品安全违法事件地图构建方法
4.3 本章小结
第五章 总结与展望
5.1 工作总结
5.2 研究展望
参考文献
附录 A
附录 B
在学期间的研究成果
致谢
本文编号:3989250
本文链接:https://www.wllwen.com/guanlilunwen/xiangmuguanli/3989250.html