食品安全大数据监测分析系统研究开发
发布时间:2023-04-08 21:41
近年来发生了多起食品安全事件,这些事件在爆发后引起了大众和国家对食品安全问题的重视与担忧,食品安全成为人们关注的焦点。另一方面,伴随着我国互联网的高速发展,国内网民数量急剧增加,微博、微信、博客等媒体已经成为发布舆论的主要阵地,而相关的食品安全信息呈现出海量的数据规模、快速的数据流转、多样的数据类型和价值密度低这四大特征,并且在获取、存储、管理、分析等方面已经大大超出了传统数据库软件工具的能力,所以食品安全信息的监测分析对预防与监控食品安全事件的发生和发展有着重要的意义。本文首先介绍了食品安全大数据监测分析的研究背景和现状,阐述了设计大数据舆情监测分析系统的目的和意义。其次根据食品安全舆情的特点和系统需求进行技术选型与模块划分。之后在实现过程中采用基于Scrapy的主题爬虫程序收集微博上的与食品安全相关的舆情数据,搭建了 Hadoop与Spark相互结合的可用于对大量数据进行存储与研究的平台。本系统采取在多个本地节点上部署HDFS程序的方式来提供储存大量数据的能力,并通过专为大规模数据处理而设计的快速通用的计算引擎Spark对数据进行分析计算。分析计算包括基于K-means的话题发现与...
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 论文研究背景和意义
1.2 国内外研究现状
1.2.1 食品安全监测分析研究现状
1.2.2 文本情感分类研究现状
1.2.3 大数据框架研究现状
1.3 本文组织结构
2 理论基础和相关技术
2.1 Hadoop分布式系统
2.2 Spark计算框架
2.3 文本采集与预处理技术
2.3.1 文本采集
2.3.2 中文分词
2.3.3 停用词过滤
2.3.4 文本特征选择
2.4 聚类算法
2.5 Flume与Kafka技术
2.5.1 Kafka
2.5.2 Flume
2.6 Sqoop
2.7 本章小结
3 食品安全大数据监测分析系统需求分析
3.1 概述
3.2 系统功能性需求分析
3.2.1 数据爬取功能需求
3.2.2 数据存储功能需求
3.2.3 文本预处理功能需求
3.2.4 数据分析功能需求
3.2.5 Web展示功能需求
3.3 系统非功能性需求分析
3.3.1 高可扩展性需求
3.3.2 高可靠性需求
3.3.3 可维护性需求
3.3.4 安全性需求
3.3.5 易用性需求
3.4 本章小结
4 食品安全大数据监测分析系统设计与实现
4.1 系统架构设计
4.2 Hadoop平台设计与实现
4.3 Spark平台设计与实现
4.4 数据爬取功能设计与实现
4.5 数据存储功能设计与实现
4.5.1 Mysql存储
4.5.2 HDFS存储
4.6 文本预处理功能设计与实现
4.6.1 文本分词
4.6.2 文本去停用词
4.7 基于K-means的话题发现
4.8 Fasttext情感分类
4.9 Web应用展示功能设计与实现
4.10 本章小结
5 系统测试分析
5.1 系统功能性能测试
5.2 Fasttext性能测试
5.3 分布式平台可靠性测试
5.4 本章小结
6 总结与展望
6.1 研究工作总结
6.2 展望
参考文献
发表论文和科研情况说明
致谢
本文编号:3786520
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 论文研究背景和意义
1.2 国内外研究现状
1.2.1 食品安全监测分析研究现状
1.2.2 文本情感分类研究现状
1.2.3 大数据框架研究现状
1.3 本文组织结构
2 理论基础和相关技术
2.1 Hadoop分布式系统
2.2 Spark计算框架
2.3 文本采集与预处理技术
2.3.1 文本采集
2.3.2 中文分词
2.3.3 停用词过滤
2.3.4 文本特征选择
2.4 聚类算法
2.5 Flume与Kafka技术
2.5.1 Kafka
2.5.2 Flume
2.6 Sqoop
2.7 本章小结
3 食品安全大数据监测分析系统需求分析
3.1 概述
3.2 系统功能性需求分析
3.2.1 数据爬取功能需求
3.2.2 数据存储功能需求
3.2.3 文本预处理功能需求
3.2.4 数据分析功能需求
3.2.5 Web展示功能需求
3.3 系统非功能性需求分析
3.3.1 高可扩展性需求
3.3.2 高可靠性需求
3.3.3 可维护性需求
3.3.4 安全性需求
3.3.5 易用性需求
3.4 本章小结
4 食品安全大数据监测分析系统设计与实现
4.1 系统架构设计
4.2 Hadoop平台设计与实现
4.3 Spark平台设计与实现
4.4 数据爬取功能设计与实现
4.5 数据存储功能设计与实现
4.5.1 Mysql存储
4.5.2 HDFS存储
4.6 文本预处理功能设计与实现
4.6.1 文本分词
4.6.2 文本去停用词
4.7 基于K-means的话题发现
4.8 Fasttext情感分类
4.9 Web应用展示功能设计与实现
4.10 本章小结
5 系统测试分析
5.1 系统功能性能测试
5.2 Fasttext性能测试
5.3 分布式平台可靠性测试
5.4 本章小结
6 总结与展望
6.1 研究工作总结
6.2 展望
参考文献
发表论文和科研情况说明
致谢
本文编号:3786520
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3786520.html