当前位置:主页 > 科技论文 > 搜索引擎论文 >

恶意爬虫主动防御技术研究与实现

发布时间:2021-07-09 16:25
  伴随着大数据时代的不断进步,网络爬虫技术作为能够自动化、持久化地与互联网应用进行模拟交互的工具正迅猛发展。网络爬虫在带来便利的同时也给网络环境造成了诸多安全隐患。诸如批量恶意采集数据;匹配采集各类社区敏感信息;非授权刷票、点评;基于网络爬虫变种的各类恶意攻击等恶意行为。现有的网络爬虫防御机制主要是采用被动检测和拦截技术进行限制,起到了一定的防护效果,但是随着人工智能技术的不断迭代,验证码识别、仿人行为等技术的不断精进和变化给静态的被动检测增加了难度;另外由于IP地址的有限性,以IP地址作为检测和封锁的条件也存在巨大的缺陷。本文针对以上所面临的问题并结合网络爬虫技术的关键点,提出了一种恶意爬虫主动防御技术模型,通过动态化算法改变Web页面固有的静态特性,结合主动防御中的移动目标防御的思想,来应对复杂多变的网络爬虫及其变种攻击。本文针对恶意爬虫防御主要做了以下工作:1、提出了一种Web页面动态化算法。该算法采用动态加密算法和动态陷阱技术将Web页面进行自适应地动态化跳变,从而高效地避免因静态性、单一性和确定性造成的恶意爬虫及其变种攻击的自动化实施;2、提出一种基于浏览器指纹技术的访问流量异... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

恶意爬虫主动防御技术研究与实现


图2-1爬虫等级和应对方式??

页面,源代码,验证码


.触?1式进行iR别限制—'*]人的行K绕过检测???????通过KHTP?Header?Header信息??i无界面?』自动化工——?■参数进行51M限制——令?容易伪装??|?浏览器—?!?n*浏览一1??—::::::—:z=zrf????器内核??u通过单丨p地址访问?i?代理ip容s??利用搬器?—^1?⑥检测..J??C智能K虫)-????????riaeiPtoiS/i'?‘?reiipSs"—??Y?白动_化工?*i进行识稱限制?&过检》??激歡器!??■具+满览-?...:????_±__I?器引-?i通过验证码?验证码g杂程度????1?.也随截?’丨不砝控制??图2-1爬虫等级和应对方式??图2-2代码所示,如果目标内容是搜狗微信站点上的所有页面的新闻标题,??里的匹配规则如图2-3代码所示,我们为了唯一匹配出标题(或者其他目标内??),需要编写能够唯一确定的正则表达式或者xpath路径,并且需要保证所选的??配方式适用于期望的目标所有页面。通过离线观察、分析以及尝试,这里的class??值和id的值“rich_media_title”、“activity-name”,可以在单个HTML页面中唯??确定我们想要的标题,而且不会随着时间动态改变,并适用于所有新闻页面,??此我们可以编写出稳定持续的自动化获取脚本代码如上。??

页面,目标,验证码


.触?1式进行iR别限制—'*]人的行K绕过检测???????通过KHTP?Header?Header信息??i无界面?』自动化工——?■参数进行51M限制——令?容易伪装??|?浏览器—?!?n*浏览一1??—::::::—:z=zrf????器内核??u通过单丨p地址访问?i?代理ip容s??利用搬器?—^1?⑥检测..J??C智能K虫)-????????riaeiPtoiS/i'?‘?reiipSs"—??Y?白动_化工?*i进行识稱限制?&过检》??激歡器!??■具+满览-?...:????_±__I?器引-?i通过验证码?验证码g杂程度????1?.也随截?’丨不砝控制??图2-1爬虫等级和应对方式??图2-2代码所示,如果目标内容是搜狗微信站点上的所有页面的新闻标题,??里的匹配规则如图2-3代码所示,我们为了唯一匹配出标题(或者其他目标内??),需要编写能够唯一确定的正则表达式或者xpath路径,并且需要保证所选的??配方式适用于期望的目标所有页面。通过离线观察、分析以及尝试,这里的class??值和id的值“rich_media_title”、“activity-name”,可以在单个HTML页面中唯??确定我们想要的标题,而且不会随着时间动态改变,并适用于所有新闻页面,??此我们可以编写出稳定持续的自动化获取脚本代码如上。??

【参考文献】:
期刊论文
[1]基于Netfilter/Iptables的动态安全防御系统设计[J]. 李志奇,何彦宏,孔德恺.  通信学报. 2018(S2)
[2]面向SDN的移动目标防御技术研究进展[J]. 谭晶磊,张红旗,雷程,刘小虎,王硕.  网络与信息安全学报. 2018(07)
[3]基于梯度提升模型的行为式验证码人机识别[J]. 欧阳志友,孙孝魁.  信息网络安全. 2017(09)
[4]基于隐马尔科夫模型的网络爬虫检测算法仿真[J]. 琚兴空.  计算机与现代化. 2017(04)

博士论文
[1]网络主动防御关键技术研究[D]. 罗跃斌.国防科学技术大学 2017
[2]Rijndael中若干关键问题的研究[D]. 崔杰.中国科学技术大学 2012

硕士论文
[1]基于深度学习的图片验证码识别算法研究[D]. 张乐乐.青岛科技大学 2018
[2]Cookie技术发展视阈下我国个人信息保护的法律路径探究[D]. 陈若男.华中师范大学 2018
[3]基于Web服务的移动目标防御技术研究与实现[D]. 景湘评.北京邮电大学 2018
[4]基于网络欺骗的网站防护技术研究[D]. 林建宝.北京邮电大学 2018
[5]滑块验证码人机识别系统特征选择及应用研究[D]. 王二磊.长沙理工大学 2017
[6]Web客户端隐私泄露成因与机理研究[D]. 王晓茜.北京工业大学 2017
[7]基于SVM的空心验证码识别技术研究[D]. 孟凯.重庆邮电大学 2017
[8]基于HTTP的可靠性测试脚本生成的研究与实现[D]. 张珊.北京邮电大学 2017
[9]一种基于SDN的地址跳变主动防御技术的研究与实现[D]. 王宇航.浙江大学 2017
[10]基于行为模式的Web Robot检测技术研究[D]. 琚兴空.武汉邮电科学研究院 2017



本文编号:3274085

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3274085.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户575c7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com