【摘要】:近年来,随着互联网的迅速发展以及网络业务的不断扩大,互联网的网页规模呈现“基数大、增长快、更新频繁”的发展趋势。以中国为例,如《中国互联网站发展状况及其安全报告(2015)》指出,截至2014年12月底,中国网站总量达到364.7万余个,同比年度增长约14.1万个,为中国网站提供互联网接入服务的接入服务商1,068家,同比年度净增长86家。随着网站数量及网页规模不断扩大,互联网服务逐步渗透到人们日常生活的方方面面。丰富的互联网服务一方面极大改善了人们的日常生活;另一方面,也给一些网络攻击行为(包括钓鱼网页、网页木马等)提供了广阔的发展空间。这些网络攻击行为常常围绕网页展开,或者设计陷阱或者挖掘漏洞,利用各种攻击技术对人们的网络安全构成严重威胁。以URL为例,卡巴斯基的统计数据显示,仅2012年,恶意URL共出现1.39亿次,并在当年87.39%的网络攻击中扮演重要角色。当前,随着互联网的蓬勃发展,网络攻击不断增多,恶意URL规模持续扩大,网络安全形势日益严峻。作为抵御网络攻击的核心安全技术之一,URL实时分类技术可以帮助人们避免恶意网页引起的安全威胁,有效保障个人隐私安全及网络交易安全,进而提升网络安全。为此,研究人员已经提出了很多方法和技术。但在URL规模持续扩大的今天,抵御网络攻击依旧面临着许多新的挑战:如URL资源众多、URL数据集不均匀、恶意URL逃逸技术升级等。在这些挑战面前,传统方法暴露出如准确率不高、内存占用过高等缺陷。为了避免这些缺陷,应该对新的URL实时分类技术开展研究,通过实现高效、可靠、准确的防御模式,从根本上防止恶意URL所带来的安全威胁。本文以URL实时分类为贯穿主线,从不同维度出发考察了URL实时分类技术的最新研究成果,并在此基础上根据实际需要进行进一步的拓展,提出了非人为访问过滤技术、恶意URL识别技术、潜在恶意URL发现技术等。依据这些技术理论,本文构建了面向大规模流量的URL实时分类框架。通过详细、具体的实验以及丰富的开源数据分析,本文对所提出的研究成果及相应的技术方案进行实验验证,并取得了较好的实际效果。本文的主要贡献与创新点总结如下:1)提出了大规模的URL实时分类框架。针对当前实时分类框架中可能存在的潜在问题,结合网关流量的特点,综合使用多种技术对网关位置的流量进行细致的分析和分类,并在此基础上提出了离线分析和在线分类相结合的异步协同架构。该分类框架能够有效地提升网页流量的分类效率,并支持多级分类和精细化分类等业务需求。通过长时间的网络运行测试,验证了该分类框架在实际应用场景中具有较高的运行效率及较稳定的分类性能,同时表明该分类框架不仅在理论上有所贡献,而且体现出一定程度的实用价值。2)研究了高频非人为点击的识别与过滤技术。提出了基于启发式规则的过滤方法EPLogCleaner。EPLogCleaner针对的是网关流量中高频非人为点击的过滤问题,利用网关流量中高频非人为点击在时间上呈现出的周期性,结合传统相似性度量方法进行分析,从而总结过滤规则,用于高频非人为点击的过滤。实验结果表明,相比于传统的数据清洗方法,EPLogCleaner可以多过滤30%的URL,并保证过滤准确率不低于90%。3)研究了轻量级的可疑URL识别技术。提出一种简单高效的有限特征集构造方法LDB(Limited Dictionary Builder)对特征进行筛选,从而限制特征集规模。该方法首先对每个词特征给出一个时间复杂度为O(1)的评价方法计算其预测能力,然后在线性时间内对特征进行筛选。实验结果显示,相比于传统的恶意URL检测方法BeyondBlacklist和BigData2013,在准确率基本保持不变的情况下,LDB方法能够将特征集规模缩减为传统方法的8.3%。在实验环境中,该方法能够达到每秒20,000个URL的处理速率。4)研究了隐身钓鱼URL的识别技术。提出了一种轻量级的隐身钓鱼URL识别方法CPRM (Cloaked Phishing Recognition Model)。通过观察和分析部分隐身钓鱼URL的算法生成过程,进而引入新的轻量级特征,并把它们用在钓鱼URL的识别检测中。实验结果显示,CPRM方法能够有效提升钓鱼URL识别的准确率(提高了2.74%)和召回率(提高了1.25%)。此外,CPRM方法只依赖于轻量级特征,能够保证URL的处理速率基本不变,适用于大规模网页环境。5)研究了恶意URL推断技术。首次将访问关系引入恶意URL识别问题,提出了恶意URL推断方法GuidedTracker,解决了恶意URL浓度低的问题。实验结果表明:相比于传统检测方法,GuidedTracker可以有效提升恶意URL浓度(从1.06%提升至1.94%),并缩短33.89%的检测运行时间。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP393.06
【相似文献】
相关期刊论文 前10条
1 ycx;对付恶意网页三法[J];中国电子与网络出版;2003年11期
2 张福增,赵永升,孔繁芸,宋丽华;恶意网页的剖析与对策[J];福建电脑;2004年07期
3 ;追击连环恶意网页病毒[J];计算机与网络;2004年09期
4 李强 ,昊虫虫;清除恶意网页病毒又两招[J];电脑爱好者;2004年20期
5 韩丰海;查看恶意网页有妙招[J];电脑应用文萃;2005年09期
6 杨光;;删除恶意网页对系统修改的几个方法[J];计算机与网络;2014年08期
7 徐海斌;;走出恶意网页的陷阱[J];电脑应用文萃;2001年12期
8 风日;;恶意网页七宗罪[J];电脑采购周刊;2002年27期
9 网鸟;恶意网页我不怕[J];电脑知识与技术;2003年30期
10 吴刚;浏览器被恶意网页修改的解决办法[J];陕西气象;2003年04期
相关会议论文 前2条
1 杜振华;张健;马勇;张鑫;苏圣魁;;一种恶意网页检测系统的研究与设计[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
2 唐雅茜;朱海波;黎玲;;破解恶意网页十大招[A];2008年广西气象学会学术年会论文集[C];2008年
相关重要报纸文章 前10条
1 cdrom;恶意网页几时休[N];中国电脑教育报;2002年
2 徐海斌;恶意网页我们这样对付它[N];中国电脑教育报;2002年
3 ;“极限女孩”恶意网页病毒[N];中国财经报;2002年
4 ;对付恶意网页[N];中国电脑教育报;2003年
5 王书杰;追击连环恶意网页病毒[N];中国电脑教育报;2004年
6 徐海斌;以牙还牙 巧治恶意网页病毒[N];中国电脑教育报;2002年
7 边歆;恶意网页每天增加5000个[N];网络世界;2008年
8 ;全球黑客每周创建5.7万个恶意网页[N];网络世界;2010年
9 谢晓丹;恶意网页竟藏104个木马程序[N];中国计算机报;2007年
10 王绍清;和恶意网页代码拜拜[N];中国电脑教育报;2002年
相关博士学位论文 前1条
1 沙泓州;面向大规模网络流量的URL实时分类关键技术研究[D];北京邮电大学;2015年
相关硕士学位论文 前10条
1 王维光;基于分类算法的恶意网页检测技术研究[D];北京邮电大学;2015年
2 文凯;恶意网页检测系统设计及在云架构中的应用[D];中南林业科技大学;2013年
3 戴仲政;基于脚本引擎的恶意网页检测系统[D];华南理工大学;2014年
4 王庆;基于在线学习算法的恶意网页检测系统[D];哈尔滨工业大学;2010年
5 岳涛;基于多特征的恶意网页检测研究[D];湖南大学;2013年
6 罗剑;数据挖掘在恶意网页动态检测中的应用研究[D];上海交通大学;2012年
7 姚楠;基于客户端恶意网页收集与分析系统的安全技术研究[D];武汉理工大学;2014年
8 罗江锋;一种抑制恶意网页的web权威结点挖掘算法研究[D];国防科学技术大学;2008年
9 王颖杰;基于恶意网页检测的蜜罐系统研究[D];南京师范大学;2008年
10 王松;基于学习的恶意网页智能检测系统[D];南京理工大学;2011年
本文编号:
2758171
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2758171.html