网页篡改监控系统的设计与实现
发布时间:2020-12-24 17:08
目前,许多行政部门、企事业单位和高校都拥有了属于自己的网站。然而,由于大部分政务网站缺乏本地网页防篡改系统的支撑,政务网站上的网页面临着随时可能被篡改的风险。网页篡改从产生到被发现的时间跨度大,网页篡改持续存在于网站上的时间越长,对网站所有者造成的各方面损失越大。因此,网页篡改检测成为政务网站安全建设的一项重要内容。在行政部门、企事业单位和高校密集的大都市,政务网站的数量非常庞大。为了大规模地对政务网站的网页篡改情况进行一定程度的监控、统计和分析,本文设计和实现了一个高效实用网页篡改监控系统。本文对系统的研究工作主要从网页采集和网页对比两个方面展开。在网页采集上,本文设计和实现了一个符合系统实际运行需要的小型分布式网络爬虫,并对爬虫的性能进行一定程度的优化。网页采集采用了网页链接采集和网页下载分离的模式,能减少网络爬虫的运行次数,提高系统的运行效率。本文提出了一种使用链接树计算网页链接权重的方法,对网页链接按照其权重进行排序后,能对网页进行筛选,并为重要程度更高的网页分配更短的下载检测周期。在网页对比上,本文采用的是遍历网页DOM树的方法,来定位网页的结构变化、样式变化和内容变化。网页...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图4-1网页篡改监控系统模块图??URL采集模块主要采用一个分布式N络爬虫实现,以?个或多个种子URL??为输入,从多个目标网站抓取网页并收集网页中的URL
图4-2分布式网络爬虫架构图??URL分配模块可以采用消息队列ActiveMQ实现。网络爬虫启动时,从数据??读取种子URL,将URL封装成消息添加到消息队列中。??网页下载程序在监听到消息队列中存在消息时,读取消息队列中的消息,提??消息中的URL,然后从目标网站下载指定网页。??网页下载到本地后,提取网页内的URL,将URL封装成消息添加到消息队??中,则网页下载程序可从消息队列中获取URL并继续下载网页。??网页之间的拓扑结构是?个有向图,为了避免有向图的环形结构造成爬虫在??行时陷入死循环,需要对网页中提取的URL进行去重,舍弃之前已经下载的??页。??.3.2?提取?URL??从网页中提取URL有正则匹配和DOM解析两种方式。??(1)正则匹配??“”
分布式H络爬虫每次运行后,将采集到的全部URL保存在URL总表屮(见??表5-2)。对每个+?N的网页分配不同的下载检测周期,为权重高的网页分配更??短的K载周期,N贝分级K载的基础架构如图4-3所示。??,?A??醒>,???n???SEE??消息队列??网页下载集群????、?:?4??_??数捤库??Hbase集群??图4-3网页分级下载架构图??29??
【参考文献】:
期刊论文
[1]Hadoop下改进布隆过滤器算法的网页去重[J]. 黄伟建,杨海龙. 计算机工程与科学. 2017(02)
[2]高级持续性威胁攻击及预防的探索[J]. 陈强. 网络安全技术与应用. 2015(07)
[3]基于过滤驱动的文件防护系统的实现[J]. 刘铁钢,阮宏玮,王燕,庞滨,李华. 内蒙古大学学报(自然科学版). 2014(03)
[4]基于改进编辑距离的字符串相似度求解算法[J]. 姜华,韩安琪,王美佳,王峥,吴雲玲. 计算机工程. 2014(01)
[5]正则表达式的研究及在Web中的应用[J]. 唐惠丽,郑小妹. 计算机技术与发展. 2013(02)
[6]基于局部变化性的网页篡改识别模型及方法[J]. 魏文晗,邓一贵. 计算机应用. 2013(02)
[7]浅析移动网络中的WAP网关流量压缩技术[J]. 钟磊,沈伟,张建. 广西通信技术. 2012(04)
[8]浅谈网页防篡改技术[J]. 刘怀北. 海峡科学. 2012(07)
[9]Linux网页防篡改机制的研究与实现[J]. 严承,王伟平,段桂华. 计算技术与自动化. 2010(02)
[10]河北交通政务网站群建设模式探讨[J]. 耿泽坤. 中国交通信息化. 2010(06)
博士论文
[1]移动Web浏览系统的若干关键技术研究[D]. 张开敏.中国科学技术大学 2012
硕士论文
[1]基于客户端的网页篡改检测研究[D]. 李君.浙江工业大学 2015
[2]网页篡改检测模型的研究与实现[D]. 孙鹏建.北京邮电大学 2015
[3]跨媒体搜索关键技术[D]. 张铠琪.北京邮电大学 2015
[4]基于协同机制的数据采集系统的研究与实现[D]. 刘军辉.北京邮电大学 2015
[5]布隆过滤器在网页去重中的研究与应用[D]. 黄涛.大连海事大学 2013
[6]基于Nutch的信息采集系统的研究与实现[D]. 吴翠雁.华南理工大学 2010
[7]分布式网络爬虫技术的研究与实现[D]. 苏旋.哈尔滨工业大学 2006
本文编号:2936014
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图4-1网页篡改监控系统模块图??URL采集模块主要采用一个分布式N络爬虫实现,以?个或多个种子URL??为输入,从多个目标网站抓取网页并收集网页中的URL
图4-2分布式网络爬虫架构图??URL分配模块可以采用消息队列ActiveMQ实现。网络爬虫启动时,从数据??读取种子URL,将URL封装成消息添加到消息队列中。??网页下载程序在监听到消息队列中存在消息时,读取消息队列中的消息,提??消息中的URL,然后从目标网站下载指定网页。??网页下载到本地后,提取网页内的URL,将URL封装成消息添加到消息队??中,则网页下载程序可从消息队列中获取URL并继续下载网页。??网页之间的拓扑结构是?个有向图,为了避免有向图的环形结构造成爬虫在??行时陷入死循环,需要对网页中提取的URL进行去重,舍弃之前已经下载的??页。??.3.2?提取?URL??从网页中提取URL有正则匹配和DOM解析两种方式。??(1)正则匹配??“”
分布式H络爬虫每次运行后,将采集到的全部URL保存在URL总表屮(见??表5-2)。对每个+?N的网页分配不同的下载检测周期,为权重高的网页分配更??短的K载周期,N贝分级K载的基础架构如图4-3所示。??,?A??醒>,???n???SEE??消息队列??网页下载集群????、?:?4??_??数捤库??Hbase集群??图4-3网页分级下载架构图??29??
【参考文献】:
期刊论文
[1]Hadoop下改进布隆过滤器算法的网页去重[J]. 黄伟建,杨海龙. 计算机工程与科学. 2017(02)
[2]高级持续性威胁攻击及预防的探索[J]. 陈强. 网络安全技术与应用. 2015(07)
[3]基于过滤驱动的文件防护系统的实现[J]. 刘铁钢,阮宏玮,王燕,庞滨,李华. 内蒙古大学学报(自然科学版). 2014(03)
[4]基于改进编辑距离的字符串相似度求解算法[J]. 姜华,韩安琪,王美佳,王峥,吴雲玲. 计算机工程. 2014(01)
[5]正则表达式的研究及在Web中的应用[J]. 唐惠丽,郑小妹. 计算机技术与发展. 2013(02)
[6]基于局部变化性的网页篡改识别模型及方法[J]. 魏文晗,邓一贵. 计算机应用. 2013(02)
[7]浅析移动网络中的WAP网关流量压缩技术[J]. 钟磊,沈伟,张建. 广西通信技术. 2012(04)
[8]浅谈网页防篡改技术[J]. 刘怀北. 海峡科学. 2012(07)
[9]Linux网页防篡改机制的研究与实现[J]. 严承,王伟平,段桂华. 计算技术与自动化. 2010(02)
[10]河北交通政务网站群建设模式探讨[J]. 耿泽坤. 中国交通信息化. 2010(06)
博士论文
[1]移动Web浏览系统的若干关键技术研究[D]. 张开敏.中国科学技术大学 2012
硕士论文
[1]基于客户端的网页篡改检测研究[D]. 李君.浙江工业大学 2015
[2]网页篡改检测模型的研究与实现[D]. 孙鹏建.北京邮电大学 2015
[3]跨媒体搜索关键技术[D]. 张铠琪.北京邮电大学 2015
[4]基于协同机制的数据采集系统的研究与实现[D]. 刘军辉.北京邮电大学 2015
[5]布隆过滤器在网页去重中的研究与应用[D]. 黄涛.大连海事大学 2013
[6]基于Nutch的信息采集系统的研究与实现[D]. 吴翠雁.华南理工大学 2010
[7]分布式网络爬虫技术的研究与实现[D]. 苏旋.哈尔滨工业大学 2006
本文编号:2936014
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2936014.html