基于非平衡数据分类方法的网站入侵检测
发布时间:2021-12-29 08:18
网站在日常办公中的日益普及,一方面给我们的生活带来了便捷,另一方面也需要我们预防形形色色的网站入侵行为。而IIS网站日志记录着访客的每一次访问行为,其中就隐藏着非法入侵行为的蛛丝马迹。通过日志分析可疑行为已成为网站入侵检测的一个重要环节。目前研究人员已将数据挖掘技术运用其中,取得了不少进展。从网站日常的访问情况来看,正常访问量明显多于非法访问量,为典型的非平衡数据集。如何通过分类算法,将占少数的非法访问记录从海量记录中分离出来成为关键。因此,利用非平衡数据分类方法对网站日志进行分析,发现网站运行中的非法入侵者,并对新的访问者身份进行分类预测,对于提升网站的安全性能,优化网络环境,保障网站的正常使用具有重要的意义。本论文将非平衡数据分类方法应用于入侵检测中,日志记录被分为两类(非法访问记录,正常访问记录),通过对不同分类方法和检测效果的比较分析,设计并实现了基于IIS(Internet Information Server)日志的入侵检测系统。本文主要工作如下:(1)根据IIS日志特点和入侵关键字,利用数据库技术完成数据属性选择,本文将8种采样算法(随机欠采样、SOMTE、Tomek l...
【文章来源】:山西大学山西省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
某数据集样本分布
丰富样本属性,多数情况下分类性图 2.1 某数据集样本分布个数据集的分布,其中多数类(方块)个数为 2:1。采用 SMOTE 采样算法,首先需要求得每再利用插值公式(2.1)求得合成数据 Xnew,(YXnew= X + rand(0,1) × (Yi X)
图 2.3 SMOTE 插值原理 图 2.4 SMOTE 过采样结果将 s1插入到样本空间对应的位置,如图 2.3 三角形即为新生成的少数类样本照该 SMOTE 插值原理,依次循环完成对所有少数类样本点的插值操作。图 2了一个非平衡数据集经 SMOTE 过采样的最终样本分布结果。.1.2 Tomek links 欠采样Tomek links 采样的思想是,遍历并计算所有少数类到每一多数类的距离, 为任一少数类,b 为任一多数类,distance(a,b)为 a,b 两者的距离。若少数类在一个 c,使 distance(c,b) <distance(a,b),多数类中不存在一个 d,使 distance) <distance(a,b),则 a,b 两样本可能为噪声样本,或者其处于样本临界区域多数类样本 b。依据此思想,完成对多数类样本的检查与删减。图 2.5 中黑色方块混合在圆圈中,经 Tomek links 采样后,这些样本点将会,最终形成图 2.6 所示的样本分布。
【参考文献】:
期刊论文
[1]IIS服务器的攻击与防御方式[J]. 赵刚. 信息与电脑(理论版). 2015(15)
[2]基于IIS日志的Web攻击检测系统设计与实现[J]. 范春荣,张战勇,董丽娟. 煤炭技术. 2013(09)
[3]入侵检测数据集KDD CUP99研究[J]. 张新有,曾华燊,贾磊. 计算机工程与设计. 2010(22)
[4]入侵异常检测研究综述[J]. 杨宏宇,朱丹,谢丰,谢丽霞. 电子科技大学学报. 2009(05)
[5]基于数据挖掘的入侵检测技术研究[J]. 徐兴元,傅和平,熊中朝. 微计算机信息. 2007(09)
[6]一种新的机器学习算法:Support Vector Machines[J]. 陶卿,姚穗,范劲松,方廷健. 模式识别与人工智能. 2000(03)
硕士论文
[1]不平衡数据集分类问题研究[D]. 孙晓燕.山东师范大学 2012
本文编号:3555749
【文章来源】:山西大学山西省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
某数据集样本分布
丰富样本属性,多数情况下分类性图 2.1 某数据集样本分布个数据集的分布,其中多数类(方块)个数为 2:1。采用 SMOTE 采样算法,首先需要求得每再利用插值公式(2.1)求得合成数据 Xnew,(YXnew= X + rand(0,1) × (Yi X)
图 2.3 SMOTE 插值原理 图 2.4 SMOTE 过采样结果将 s1插入到样本空间对应的位置,如图 2.3 三角形即为新生成的少数类样本照该 SMOTE 插值原理,依次循环完成对所有少数类样本点的插值操作。图 2了一个非平衡数据集经 SMOTE 过采样的最终样本分布结果。.1.2 Tomek links 欠采样Tomek links 采样的思想是,遍历并计算所有少数类到每一多数类的距离, 为任一少数类,b 为任一多数类,distance(a,b)为 a,b 两者的距离。若少数类在一个 c,使 distance(c,b) <distance(a,b),多数类中不存在一个 d,使 distance) <distance(a,b),则 a,b 两样本可能为噪声样本,或者其处于样本临界区域多数类样本 b。依据此思想,完成对多数类样本的检查与删减。图 2.5 中黑色方块混合在圆圈中,经 Tomek links 采样后,这些样本点将会,最终形成图 2.6 所示的样本分布。
【参考文献】:
期刊论文
[1]IIS服务器的攻击与防御方式[J]. 赵刚. 信息与电脑(理论版). 2015(15)
[2]基于IIS日志的Web攻击检测系统设计与实现[J]. 范春荣,张战勇,董丽娟. 煤炭技术. 2013(09)
[3]入侵检测数据集KDD CUP99研究[J]. 张新有,曾华燊,贾磊. 计算机工程与设计. 2010(22)
[4]入侵异常检测研究综述[J]. 杨宏宇,朱丹,谢丰,谢丽霞. 电子科技大学学报. 2009(05)
[5]基于数据挖掘的入侵检测技术研究[J]. 徐兴元,傅和平,熊中朝. 微计算机信息. 2007(09)
[6]一种新的机器学习算法:Support Vector Machines[J]. 陶卿,姚穗,范劲松,方廷健. 模式识别与人工智能. 2000(03)
硕士论文
[1]不平衡数据集分类问题研究[D]. 孙晓燕.山东师范大学 2012
本文编号:3555749
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3555749.html