恶意爬虫主动防御技术研究与实现

发布时间：2021-07-09 16:25

　　伴随着大数据时代的不断进步,网络爬虫技术作为能够自动化、持久化地与互联网应用进行模拟交互的工具正迅猛发展。网络爬虫在带来便利的同时也给网络环境造成了诸多安全隐患。诸如批量恶意采集数据;匹配采集各类社区敏感信息;非授权刷票、点评;基于网络爬虫变种的各类恶意攻击等恶意行为。现有的网络爬虫防御机制主要是采用被动检测和拦截技术进行限制,起到了一定的防护效果,但是随着人工智能技术的不断迭代,验证码识别、仿人行为等技术的不断精进和变化给静态的被动检测增加了难度;另外由于IP地址的有限性,以IP地址作为检测和封锁的条件也存在巨大的缺陷。本文针对以上所面临的问题并结合网络爬虫技术的关键点,提出了一种恶意爬虫主动防御技术模型,通过动态化算法改变Web页面固有的静态特性,结合主动防御中的移动目标防御的思想,来应对复杂多变的网络爬虫及其变种攻击。本文针对恶意爬虫防御主要做了以下工作:1、提出了一种Web页面动态化算法。该算法采用动态加密算法和动态陷阱技术将Web页面进行自适应地动态化跳变,从而高效地避免因静态性、单一性和确定性造成的恶意爬虫及其变种攻击的自动化实施;2、提出一种基于浏览器指纹技术的访问流量异...

【文章来源】：北京邮电大学北京市 211工程院校教育部直属院校

【文章页数】：84 页

【学位级别】：硕士

【部分图文】：

恶意爬虫主动防御技术研究与实现

图２－１爬虫等级和应对方式??

页面,源代码,验证码

页面,目标,验证码

．触?１式进行ｉＲ别限制—＇＊］人的行Ｋ绕过检测???????通过ＫＨＴＰ?Ｈｅａｄｅｒ?Ｈｅａｄｅｒ信息??ｉ无界面?』自动化工——？■参数进行５１Ｍ限制——令?容易伪装??｜?浏览器—？！?ｎ＊浏览一１??—：：：：：：—：ｚ＝ｚｒｆ????器内核??ｕ通过单丨ｐ地址访问?ｉ?代理ｉｐ容ｓ??利用搬器?—＾１?⑥检测．．Ｊ??Ｃ智能Ｋ虫）－????????ｒｉａｅｉＰｔｏｉＳ／ｉ＇?‘?ｒｅｉｉｐＳｓ＂—??Ｙ?白动＿化工?＊ｉ进行识稱限制?＆过检》??激歡器！?？■具＋满览－?．．．：????＿±＿＿Ｉ?器引－?ｉ通过验证码?验证码ｇ杂程度????１?．也随截?’丨不砝控制??图２－１爬虫等级和应对方式??图２－２代码所示，如果目标内容是搜狗微信站点上的所有页面的新闻标题，??里的匹配规则如图２－３代码所示，我们为了唯一匹配出标题（或者其他目标内??），需要编写能够唯一确定的正则表达式或者ｘｐａｔｈ路径，并且需要保证所选的??配方式适用于期望的目标所有页面。通过离线观察、分析以及尝试，这里的ｃｌａｓｓ??值和ｉｄ的值“ｒｉｃｈ＿ｍｅｄｉａ＿ｔｉｔｌｅ”、“ａｃｔｉｖｉｔｙ－ｎａｍｅ”，可以在单个ＨＴＭＬ页面中唯??确定我们想要的标题，而且不会随着时间动态改变，并适用于所有新闻页面，??此我们可以编写出稳定持续的自动化获取脚本代码如上。??

【参考文献】：
期刊论文
[1]基于Netfilter/Iptables的动态安全防御系统设计[J]. 李志奇,何彦宏,孔德恺.  通信学报. 2018(S2)
[2]面向SDN的移动目标防御技术研究进展[J]. 谭晶磊,张红旗,雷程,刘小虎,王硕.  网络与信息安全学报. 2018(07)
[3]基于梯度提升模型的行为式验证码人机识别[J]. 欧阳志友,孙孝魁.  信息网络安全. 2017(09)
[4]基于隐马尔科夫模型的网络爬虫检测算法仿真[J]. 琚兴空.  计算机与现代化. 2017(04)

博士论文
[1]网络主动防御关键技术研究[D]. 罗跃斌.国防科学技术大学 2017
[2]Rijndael中若干关键问题的研究[D]. 崔杰.中国科学技术大学 2012

硕士论文
[1]基于深度学习的图片验证码识别算法研究[D]. 张乐乐.青岛科技大学 2018
[2]Cookie技术发展视阈下我国个人信息保护的法律路径探究[D]. 陈若男.华中师范大学 2018
[3]基于Web服务的移动目标防御技术研究与实现[D]. 景湘评.北京邮电大学 2018
[4]基于网络欺骗的网站防护技术研究[D]. 林建宝.北京邮电大学 2018
[5]滑块验证码人机识别系统特征选择及应用研究[D]. 王二磊.长沙理工大学 2017
[6]Web客户端隐私泄露成因与机理研究[D]. 王晓茜.北京工业大学 2017
[7]基于SVM的空心验证码识别技术研究[D]. 孟凯.重庆邮电大学 2017
[8]基于HTTP的可靠性测试脚本生成的研究与实现[D]. 张珊.北京邮电大学 2017
[9]一种基于SDN的地址跳变主动防御技术的研究与实现[D]. 王宇航.浙江大学 2017
[10]基于行为模式的Web Robot检测技术研究[D]. 琚兴空.武汉邮电科学研究院 2017

本文编号：3274085

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3274085.html

上一篇：可导航输电线路电子地图的研发
下一篇：基于三值神经网络和混沌搜索的数字电路串扰时滞故障测试生成算法（英文）

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|