基于校园网流量的舆情热词提取及分类研究
发布时间:2020-07-22 02:55
【摘要】:随着校园网的迅猛发展,高校校园网络舆情逐渐成为人们关注的热点。普通的社会舆情关注公众对社会事件的态度和意见,很难定位到具体的比如高校这样一个具体的物理区域。基于校园网流量的舆情热词提取可在海量的网络信息中及时发现校园舆论热点和师生对公众事件的情绪、态度,对提升高校管理,建设和谐校园具有重要意义。基于校园网流量的舆情热词提取及分类需要解决网络流量采集归档,基于网络流量的舆情原始数据的恢复和重构,舆情热词提取和分类等问题。本文的主要研究内容有以下几个方面:(1)网络流量采集归档方面,使用开源网络流量采集工具Bro实现了对湖北大学校园网流量的采集,解决了高速实时IPv4IPv6网络数据流量采集问题,并实现了对海量网络流量大数据的存储归档。(2)舆情原始数据的恢复和重构方面,HTTP页面根据Bro端直接恢复,HTTPS页面数据采用通用的爬虫应用框架Scrapy实现了对HTTPS网页的恢复和爬取,对HTTPS页面和HTTP页面的进行了统一的合并和重建。(3)舆情热词提取及分类方面,对网页正文进行了提取、去重、分词、关键词提取、分类等处理,并改进了正文提取算法,最后通过校园网流量分析系统进行展示。(4)参与设计并实现了一套校园网流量分析系统,并对采集的网络流量进行了分类、舆情数据重构、舆情热词提取。
【学位授予单位】:湖北大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;TP393.18
【图文】:
流敦析展充逡逑图2-3流量采集系统部署逡逑如图2-3所示,IPv4和IPv6的流量通过核心交换机以端口镜像的方式采集到流量逡逑采集系统。采集系统提供数据接口,经过IPv4网络向上层相关应用提供服务。逡逑11逡逑
:邋A邋.邋”邋_邋:逡逑图2-4校园网流量采集实际部署逡逑如图2-4所示为校园网流量采集在湖北大学校园网网络中心的实际部署,目前采集逡逑了邋8个千兆接口的镜像流量,日均2.8Glog文件,上下行网络流量约800G,月平局80G逡逑log文件,上下行总网络流量约10T。逡逑2.5本章小结逡逑本章首先对开源网络流量采集工具Bro进行了介绍,并对其系统结构和采集原理进逡逑行了描述,最后介绍了其在湖北大学校园网的采集系统的部署。基于Bro工具的采集技逡逑术的实现有效解决了对高速实时IPv4&IPv6网络数据流量的采集问题和海量网络流量逡逑大数据的存储归档问题,对校园网流量的采集是后续对其进行分析研宄的基础。逡逑12逡逑
于收集特定主题的页面,从而减少网页下载量。聚焦爬虫的目的是有选择地找出与预先逡逑定义的主题相关的页面,从而大大节省了硬件和网络资源[22]。逡逑两种典型的网络爬虫工作流程如图3-1所示[23]。逡逑(邋开始逡逑逦3T逦逡逑广逦、逦!邋初始URL逡逑(邋开始邋)逦L逦逦逦逡逑——E3Z逡逑初始URL逦|邋获取网页逡逑i页邋:士邋I邋L提士!:—1逡逑b-rrrr— ̄邋.........邋逦:.J逦'邋"""""...牛逡逑逦^逦逡逑|^提取:的狐^|逦|根据需求提取信息1逡逑X’逦入逡逑是逦是逡逑一——±邋逦,邋?逡逑f结束)逦c曑J逡逑A通用爬虫工作流程图逦B聚焦爬虫工作流程图逡逑图3-1通用爬虫和聚焦爬虫工作流程图逡逑13逡逑
本文编号:2765218
【学位授予单位】:湖北大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;TP393.18
【图文】:
流敦析展充逡逑图2-3流量采集系统部署逡逑如图2-3所示,IPv4和IPv6的流量通过核心交换机以端口镜像的方式采集到流量逡逑采集系统。采集系统提供数据接口,经过IPv4网络向上层相关应用提供服务。逡逑11逡逑
:邋A邋.邋”邋_邋:逡逑图2-4校园网流量采集实际部署逡逑如图2-4所示为校园网流量采集在湖北大学校园网网络中心的实际部署,目前采集逡逑了邋8个千兆接口的镜像流量,日均2.8Glog文件,上下行网络流量约800G,月平局80G逡逑log文件,上下行总网络流量约10T。逡逑2.5本章小结逡逑本章首先对开源网络流量采集工具Bro进行了介绍,并对其系统结构和采集原理进逡逑行了描述,最后介绍了其在湖北大学校园网的采集系统的部署。基于Bro工具的采集技逡逑术的实现有效解决了对高速实时IPv4&IPv6网络数据流量的采集问题和海量网络流量逡逑大数据的存储归档问题,对校园网流量的采集是后续对其进行分析研宄的基础。逡逑12逡逑
于收集特定主题的页面,从而减少网页下载量。聚焦爬虫的目的是有选择地找出与预先逡逑定义的主题相关的页面,从而大大节省了硬件和网络资源[22]。逡逑两种典型的网络爬虫工作流程如图3-1所示[23]。逡逑(邋开始逡逑逦3T逦逡逑广逦、逦!邋初始URL逡逑(邋开始邋)逦L逦逦逦逡逑——E3Z逡逑初始URL逦|邋获取网页逡逑i页邋:士邋I邋L提士!:—1逡逑b-rrrr— ̄邋.........邋逦:.J逦'邋"""""...牛逡逑逦^逦逡逑|^提取:的狐^|逦|根据需求提取信息1逡逑X’逦入逡逑是逦是逡逑一——±邋逦,邋?逡逑f结束)逦c曑J逡逑A通用爬虫工作流程图逦B聚焦爬虫工作流程图逡逑图3-1通用爬虫和聚焦爬虫工作流程图逡逑13逡逑
【参考文献】
相关期刊论文 前7条
1 马海兵;毕久阳;郭新顺;;文本分类方法在网络舆情分析系统中的应用研究[J];情报科学;2015年05期
2 侯圣峦;刘磊;曹存根;;基于语义文法的网络舆情精准分析方法研究[J];计算机科学;2014年10期
3 卢体广;刘新;刘任任;;微博数据通用抓取算法[J];计算机工程;2014年05期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 刘燕;刘颖;;高校网络舆情的特点及管理对策[J];思想教育研究;2009年04期
6 桑华;;高校舆情研究探析[J];兵团教育学院学报;2007年04期
7 刘毅;;略论网络舆情的概念、特点、表达与传播[J];理论界;2007年01期
相关硕士学位论文 前5条
1 束珏;微博特定话题检测与跟踪研究及实现[D];南京邮电大学;2016年
2 吴春华;基于HTML5的网页转换系统的设计与实现[D];北京邮电大学;2015年
3 熊祖涛;基于Web文本信息抽取的微博舆情分析[D];西安科技大学;2013年
4 王静;基于Scrapy的电子商务网络测量与网络特征分析[D];北京交通大学;2012年
5 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
本文编号:2765218
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2765218.html