隐藏页面检测系统的研究与实现
发布时间:2019-10-29 12:38
【摘要】:随着互联网技术的不断发展以及网络信息资源的飞速增长,人们对于网络的依赖性越来越强,对网络信息搜索的要求也愈来愈高,而搜索引擎成为了连接个人和网络资源的一个不可或缺的渠道。很多网站使用黑帽SEO来提高网站在搜索引擎结果中的排名以增加用户点击率,其中较为常见的一种黑帽SEO技术就是页面隐藏技术(Cloaking)。使用页面隐藏技术的网站对搜索引擎伪装其真实内容,当爬虫爬行到一个Web站点时,该站点对它返回一个经过定制了的页面,即网站对爬虫和普通用户返回不同的内容。 针对以往检测方法中相似度检测准确度不高的缺点,本文提出一种基于网页三种特征的相似性检测优化算法,对网页中的文本、标签和URL元素特征进行提取,,并分别比较相似度,通过基于阈值的方法分级过滤高相似度的网页,提高检测的准确度;更进一步,本文通过模拟五种不同角色的方法爬取页面,并利用提出的算法进行比较,不但可以判断是否隐藏,还可以识别具体隐藏页面的类型。其中,利用模拟JavaScript脚本解析的方法识别以往研究中并未解决的JavaScript跳转隐藏检测。 围绕以上方法,本文实现了一个隐藏页面检测原型系统。该系统通过伪装爬虫HTTP请求头信息,调用内置JavaScript引擎,抓取网页缓存等方式获取五个版本的页面内容,然后对其应用本文提出的检测算法,对隐藏页面进行判断并识别。本文将该系统应用于雅虎搜索引擎,抓取搜索结果中的10万个URL进行检测,从中选取5000个作为样本数据集,并对其中1000个URL进行手动标记。本文采用了去重、白名单过滤、多线程等辅助方法对系统的时间性能进行了优化。通过对大量数据集的测试,本系统在算法准确度、隐藏页面的检测和识别能力、时间开销方面都取得较好的结果。特别地,系统目前可以判别User Agent隐藏、IP隐藏、Referrer隐藏和JavaScript隐藏。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
本文编号:2553532
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前2条
1 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
2 余慧佳;刘奕群;张敏;马少平;茹立云;;基于目的分析的作弊页面分类[J];中文信息学报;2009年02期
相关博士学位论文 前2条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
2 张健毅;大规模反钓鱼识别引擎关键技术研究[D];北京邮电大学;2012年
本文编号:2553532
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2553532.html