IDC机房有害信息发现系统底层程序研制
发布时间:2024-07-08 22:01
随着我国因特网的发展,上网人数越来越多,网络上的信息越来越庞杂,有许多网站被有意或无意的传上了很多有害的文字信息,严重影响了社会稳定或毒害了青少年的健康。为了净化网络环境,政府对网站的存放地--IDC机房,提出了对有害信息严格监测、及时发现和处理有害网站的要求。IDC机房服务器往往数量很多,如何能有效监测其中网页内容,及时发现并消除网页中的有害信息,就成为一个摆在系统管理者眼前的难题。本研究着眼于在IDC的机房内构架一个有害信息发现系统,在不影响网络负载和引起非法网站警觉的情况下,通过获取IDC机房交换机镜像数据,侦听抓取并分析TCP数据中的HTML页面信息内容,搜索其中的非法关键字,将含有非法关键字的页面记录到数据库,作为可疑页面待人工筛查确认,为及时发现有害信息提供技术方便。该系统底层程序将定时从数据库中加载更新非法(有害)关键字列表,以使新录入的非法关键字生效。对于可疑的HTML页面,记录URL、主机地址、访问时间、所含关键字等信息到数据库,以便人工筛查。对于图片URL,由于暂时无法做到快速自动分析,只做记录URL主机地址、访问时间等信息到数据库,待人工检查图片。
【文章页数】:45 页
【学位级别】:硕士
【部分图文】:
本文编号:4003941
【文章页数】:45 页
【学位级别】:硕士
【部分图文】:
图2.1TCP结构图
图2.1TCP结构图对于HTTP数据,TCP包中的数据部分就是HTTP的数据内容。通过抓取TCP包提取数据负载,分析数据内容,可以得到HTML页面信息。根据HTTP头可判断是是HTML页面。结合HTTP头和HTML页面字符设定信息,可以判断出页面的编码将页面字符集转换为统一的UT....
图3.1网络架构
图3.1网络架构图中,有害信息发现服务器接在汇聚交换机的镜像端口上,接收受镜像数据,数据进行分析,发现含有非法关键字的页面后,把U甩等信息记录到MySQL数据3.2.2模块划分软件模块划分如下表3.2:表3.2有害信息底层程序模块划分表odtlleeeTaskSSSDeseriP....
图3.2有害信息发现系统底层程序主流程图
?矣泻?浼??乔骍RL、域名、关键问、快照等信息图3.2有害信息发现系统底层程序主流程图3.2.4数据库设计数据使用LINUX上常用的MYSQL数据库。数据库名称:yhxx数据库表:非法关键字表(keywords)、非法文本URL信息表(1wfile)、图片uRL信息表(1帅i....
本文编号:4003941
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/4003941.html