基于分类算法的恶意网页检测技术研究
发布时间:2017-08-23 19:43
本文关键词:基于分类算法的恶意网页检测技术研究
更多相关文章: 恶意网页检测 恶意网页特征 分类学习算法 支持向量机 自适应学习
【摘要】:随着web2.0时代的来临,B/S架构的web应用以其灵活性、易用性和跨平台性等优点而被越来越多的人们所熟悉,随之而来的恶意网页攻击也逐渐成为网络信息安全的主要威胁之一。有效进行恶意网页检测,尤其是对新出现的恶意网页样本能够及时识别和检测,是当前web安全检测领域研究的重要内容。 调研国内外专家学者在恶意网页检测领域的研究动态和主要技术手段,分析现有的基于特征匹配的恶意网页检测技术虽然可以快速准确地检测出已知类型的恶意网页,但存在对混淆变形后的恶意网页无法识别且对于新出现的恶意网页也很难有效分辨的问题。针对这一问题,本文提出了在基于恶意网页特征匹配的基础上使用分类学习算法对未知类型的网页进行分类预测的恶意网页检测方案。 本文选择出网页源码中24个能够有效分辨恶意网页的属性特征作为训练分类器的特征向量,分别使用朴素贝叶斯算法、决策树C4.5算法、分类回归树算法和支持向量机四种分类算法在采集的恶意网页样本集上进行分类实验比较,并选择对恶意网页具有高识别准确率的支持向量机算法作为我们恶意网页检测方案的分类算法。由于恶意网页的形式不断增加和更新,标准支持向量机算法很难对新出现的恶意网页样本进行正确识别,所以我们使用具有增量学习能力的自适应支持向量机算法在当前分类器的基础上定期对新采集的恶意网页样本进行特征学习,并更新分类器对新恶意网页样本的识别能力。 在上述工作的基础上,本文设计并实现了基于分类算法的恶意网页检测系统(CA-MWDS).系统首先使用知识库中的链接地址黑/白名单和恶意代码特征库,检测出已知类型的网页暗链、恶意链接和恶意代码。然后对于第一步检测中不能判断是否恶意的网页源码,使用基于当前恶意网页样本集训练生成的SVM分类器进行网页类别预测。对新出现的恶意网页样本,系统使用自适应支持向量机算法对当前分类器进行自适应学习,使更新后的分类器能够有效识别新的恶意网页。最后,本文通过实验测试了CA-MWDS系统对恶意网页检测的效率和性能,实验结果表明该系统在恶意网页检测中具有高准确率和低误报率,同时具有自适应学习能力,能准确检测新出现的恶意网页。但是同成熟的商业反病毒软件相比,系统具有较大的时间开销,如何在保证对恶意网页高检出率和准确率的前提下有效降低系统开销是我们后期进行系统优化的重要方面。
【关键词】:恶意网页检测 恶意网页特征 分类学习算法 支持向量机 自适应学习
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.08
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 绪论10-16
- 1.1 研究背景10-12
- 1.2 国内外研究动态12-13
- 1.3 课题研究的目的与意义13-14
- 1.4 论文结构与主要工作14-16
- 第二章 网页恶意代码概述16-24
- 2.1 网页恶意代码定义及发展历程16-17
- 2.1.1 网页恶意代码相关概念16
- 2.1.2 网页恶意代码发展历程16-17
- 2.2 网页恶意脚本攻击一般流程17-18
- 2.3 网页恶意攻击与漏洞18-20
- 2.3.1 逻辑型漏洞19
- 2.3.2 溢出型漏洞19-20
- 2.4 恶意网页攻击常用的技术及典型形式20-22
- 2.4.1 恶意网页攻击常用的技术20-21
- 2.4.2 网页恶意代码的典型形式21-22
- 2.5 防御恶意网页攻击的常用措施22-23
- 2.6 本章小结23-24
- 第三章 分类学习算法概述24-32
- 3.1 朴素贝叶斯算法24-25
- 3.2 决策树算法25-26
- 3.3 分类回归树算法26-27
- 3.4 支持向量机分类算法27-30
- 3.4.1 统计学习理论27-28
- 3.4.2 支持向量机算法28-29
- 3.4.3 支持向量机的主要优点29-30
- 3.5 分类结果评价标准30-31
- 3.6 本章小结31-32
- 第四章 基于分类算法的恶意网页检测系统设计与实现32-52
- 4.1 恶意网页检测系统总体设计32-34
- 4.1.1 系统结构32-33
- 4.1.2 工作流程33-34
- 4.2 基于知识库的特征匹配检测子模块34-43
- 4.2.1 恶意代码特征提取34-38
- 4.2.2 暗链与恶意链接检测38-41
- 4.2.3 恶意代码检测子功能模块41-43
- 4.3 基于分类算法的恶意检测子模块43-47
- 4.3.1 样本特征选择43-45
- 4.3.2 分类算法选择45
- 4.3.3 分类结果比较45-47
- 4.4 分类器自适应学习子模块47-50
- 4.4.1 标准支持向量机算法的不足47
- 4.4.2 自适应支持向量机算法47-48
- 4.4.3 自适应支持向量机算法原理及时空开销分析48-50
- 4.5 本章小结50-52
- 第五章 实验结果分析52-58
- 5.1 实验环境52
- 5.2 实验样本采集52-54
- 5.3 实验结果分析54-57
- 5.3.1 基于知识库特征匹配检测结果54-55
- 5.3.2 自适应支持向量机算法分类效果55-56
- 5.3.3 系统恶意网页扫描效率测试56
- 5.3.4 系统恶意网页检测性能测试56-57
- 5.4 本章小结57-58
- 第六章 总结与展望58-60
- 6.1 本文主要完成的工作58-59
- 6.2 本文的不足和改进方向59-60
- 参考文献60-64
- 附录64-68
- 致谢68-69
- 攻读学位期间发表的学术论文69
【参考文献】
中国期刊全文数据库 前2条
1 廖凯;;网站安全新隐患——暗链[J];中国信息安全;2012年06期
2 张慧琳;邹维;韩心慧;;网页木马机理与防御技术[J];软件学报;2013年04期
,本文编号:726940
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/726940.html