基于Spark的高校网络舆情实时分析与系统实现
发布时间:2024-05-28 04:14
随着网络科技的快速发展,网络媒体在人们的生活中扮演着越来越重要的角色,互联网已经成为庞大的公共信息分享平台。网民通过贴吧,微博,论坛等发表自己的意见和看法,其中不乏存在一些负面的、消极的评论,这些消极的评论可能会给高校乃至整个社会带来极大的负面影响和不稳定性。利用高校网络舆情实时分析系统能够对高校的相关舆情进行有效的分析与预警,以便高校制定相关的措施引导舆论的正确走向,及时的阻止错误言论的传播,对维护高校乃至整个社会的稳定具有重要的现实意义。此前已有不少学者对高校网络舆情监管进行了研究与探索,但相关研究多侧重于理论和机制分析,缺乏实际的分析手段和实证研究,难以有效支撑高校在各种突发舆情下的实际要求。本文利用大数据手段整合了数据采集、处理、分析以及可视化等技术,提出了基于Spark的高校网络舆情实时分析方法并进行技术实现,对中国三所高校在突发疫情防控中的网络舆情进行实时监测分析与预警,主要研究内容如下:(1)针对实际文本分类工程应用中传统计算模式的缺陷,基于Spark MLlib对增量贝叶斯算法进行改进,通过样本增量的方法对无标签数据进行拟合与筛选,以此来扩充训练样本的容量,而后使用新训...
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
本文编号:3983474
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图1.1论文组织架构图
基于Spark的高校网络舆情实时分析与系统实现5语言处理,可视化分析,针高校网络舆情进行实时分析和可视化,并进行实时预警。从实际开源项目中遇到的问题,从机器学习算法改进入手,提出基于SparkMLlib的分布式机器学习增量贝叶斯算法,应用于本舆情分析系统。1.4论文组织架构图1.....
图2.1通用网络爬虫工作原理[37]
基于Spark的高校网络舆情实时分析与系统实现8通用网络爬虫的工作原理如图2.1所示。图2.1通用网络爬虫工作原理[37](2)聚集网络爬虫[38],是基于主题关键字的爬虫,和通用网络爬虫不同的是,聚集网络爬虫只爬取与主题关键字想关的数据,并且会对采集到的URL数据进行过滤只保留....
图2.2聚集网络爬虫框架[37]
基于Spark的高校网络舆情实时分析与系统实现8通用网络爬虫的工作原理如图2.1所示。图2.1通用网络爬虫工作原理[37](2)聚集网络爬虫[38],是基于主题关键字的爬虫,和通用网络爬虫不同的是,聚集网络爬虫只爬取与主题关键字想关的数据,并且会对采集到的URL数据进行过滤只保留....
图2.3文档TF-IDF计算过程
基于Spark的高校网络舆情实时分析与系统实现11图2.3文档TF-IDF计算过程TF-IDF是舆情分类中非常常用的文本预处理基本步骤,使用了IF-IDF并标准化以后,我们就可以使用各个文本的词特征向量作为文本的特征,进行舆情分类或者聚类分析。2.3.2文本预处理文本预处理过程包....
本文编号:3983474
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3983474.html