基于校园网流量的舆情热词提取及分类研究

发布时间：2020-07-22 02:55

【摘要】：随着校园网的迅猛发展,高校校园网络舆情逐渐成为人们关注的热点。普通的社会舆情关注公众对社会事件的态度和意见,很难定位到具体的比如高校这样一个具体的物理区域。基于校园网流量的舆情热词提取可在海量的网络信息中及时发现校园舆论热点和师生对公众事件的情绪、态度,对提升高校管理,建设和谐校园具有重要意义。基于校园网流量的舆情热词提取及分类需要解决网络流量采集归档,基于网络流量的舆情原始数据的恢复和重构,舆情热词提取和分类等问题。本文的主要研究内容有以下几个方面:(1)网络流量采集归档方面,使用开源网络流量采集工具Bro实现了对湖北大学校园网流量的采集,解决了高速实时IPv4IPv6网络数据流量采集问题,并实现了对海量网络流量大数据的存储归档。(2)舆情原始数据的恢复和重构方面,HTTP页面根据Bro端直接恢复,HTTPS页面数据采用通用的爬虫应用框架Scrapy实现了对HTTPS网页的恢复和爬取,对HTTPS页面和HTTP页面的进行了统一的合并和重建。(3)舆情热词提取及分类方面,对网页正文进行了提取、去重、分词、关键词提取、分类等处理,并改进了正文提取算法,最后通过校园网流量分析系统进行展示。(4)参与设计并实现了一套校园网流量分析系统,并对采集的网络流量进行了分类、舆情数据重构、舆情热词提取。
【学位授予单位】：湖北大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP391.1;TP393.18
【图文】：

流量采集系统,流量,核心交换机,采集系统

流敦析展充逡逑图２－３流量采集系统部署逡逑如图２－３所示，ＩＰｖ４和ＩＰｖ６的流量通过核心交换机以端口镜像的方式采集到流量逡逑采集系统。采集系统提供数据接口，经过ＩＰｖ４网络向上层相关应用提供服务。逡逑１１逡逑

校园网,网络流量,流量,湖北大学

：邋Ａ邋．邋”邋＿邋：逡逑图２－４校园网流量采集实际部署逡逑如图２－４所示为校园网流量采集在湖北大学校园网网络中心的实际部署，目前采集逡逑了邋８个千兆接口的镜像流量，日均２．８Ｇｌｏｇ文件，上下行网络流量约８００Ｇ，月平局８０Ｇ逡逑ｌｏｇ文件，上下行总网络流量约１０Ｔ。逡逑２．５本章小结逡逑本章首先对开源网络流量采集工具Ｂｒｏ进行了介绍，并对其系统结构和采集原理进逡逑行了描述，最后介绍了其在湖北大学校园网的采集系统的部署。基于Ｂｒｏ工具的采集技逡逑术的实现有效解决了对高速实时ＩＰｖ４＆ＩＰｖ６网络数据流量的采集问题和海量网络流量逡逑大数据的存储归档问题，对校园网流量的采集是后续对其进行分析研宄的基础。逡逑１２逡逑

工作流程图,工作流程图,页面,网页下载

于收集特定主题的页面，从而减少网页下载量。聚焦爬虫的目的是有选择地找出与预先逡逑定义的主题相关的页面，从而大大节省了硬件和网络资源［２２］。逡逑两种典型的网络爬虫工作流程如图３－１所示［２３］。逡逑（邋开始逡逑逦３Ｔ逦逡逑广逦、逦！邋初始ＵＲＬ逡逑（邋开始邋）逦Ｌ逦逦逦逡逑——Ｅ３Ｚ逡逑初始ＵＲＬ逦｜邋获取网页逡逑ｉ页邋：士邋Ｉ邋Ｌ提士！：—１逡逑ｂ－ｒｒｒｒ—￣邋．．．．．．．．．邋逦：．Ｊ逦＇邋＂＂＂＂＂．．．牛逡逑逦＾逦逡逑｜＾提取：的狐＾｜逦｜根据需求提取信息１逡逑Ｘ’逦入逡逑是逦是逡逑一——±邋逦，邋？逡逑ｆ结束）逦ｃ曑Ｊ逡逑Ａ通用爬虫工作流程图逦Ｂ聚焦爬虫工作流程图逡逑图３－１通用爬虫和聚焦爬虫工作流程图逡逑１３逡逑

【参考文献】