基于主动学习的网络入侵检测算法研究
发布时间:2020-10-15 12:48
随着因特网的快速普及,网络已经渗透到了人们日常生活的方方面面,在为生活提供便捷的同时,也带来了各种安全威胁。入侵检测技术能在网络攻击造成广泛破坏前检测到网络异常行为,对用户发出警告或直接阻止入侵行为,从而提高使用网络的安全性。随着网络规模的不断扩大,各种网络攻击手段层出不穷,对入侵检测系统的性能提出更高的要求。近些年来,入侵检测系统中数据量大、数据维度过高、检测攻击类型未知等问题仍是国内外研究所面临的严峻考验。针对上述问题,本文提出了两种网络入侵检测算法,其主要研究内容如下:(1)提出基于经验小波变换与AR模型的入侵检测算法。本算法针对静态数据,使用经验小波变换对数据进行分解,选取前两层包含信息较多的数据序列作为实验数据,利用AR模型对每一序列进行系数计算形成特征集。用KNN、随机森林、贝叶斯、BP神经网络四个分类器对特征集中的样本进行分类预测。实验采用十则交叉验证的方法验证算法的稳定性。实验结果表明,由于本算法利用经验小波变换对数据特征进行提取,更具有发现数据隐藏模式的能力,对已知攻击类型有很好的检测效果。(2)提出了一个基于改进的ReliefF与主动学习相结合的网络入侵检测算法RALDM(ReliefF and Active Learning Detection Method,RALDM)。本算法针对动态数据,使用ReliefF算法对训练集中各个属性进行权重计算,并对其进行权重排序,对后续到达的数据按当前权重排序进行特征提取,利用基于委员会投票的方法判断是否发生概念漂移。对发生概念漂移的数据块,使用专家标注的方法对数据标签进行标注,更新训练集并重新对属性权重进行排序,以不断适应数据流中的概念漂移。实验采用ReliefF算法对数据进行特征提取,消除了大量冗余,提高了数据利用率,同时使用主动学习的方式适应概念漂移,大大降低了人工标注标签的成本。实验结果表明,本算法对数据流中的概念漂移有很好的检测结果。
【学位单位】:辽宁师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.08
【部分图文】:
图3.1随机森林对数据的F-valne检测结果??Fig.?3.1?Random?forest?analysis?of?F-value?results??
图4.1主动学习过程示意图??Fig.?4.1?Active?learning?process?diagram??在主动学习的过程中,一个关键问题就是查询策略函数G如何从无选取合适的样本进行标注,当前主动学习中选取样本的准则主要有三缘的方法、基于不确定性的方法和查询专家委员会方法。??(1)基于边缘的方法??最常使用的是边缘采样法,边缘采样法是针对SVM分类器的特点提习的方法,通过计算样本点到分类超平面的距离选择位于当前SVM点,将超平面记为(w.?6),则样本空间中任意点x到超平面(w,幻的距(llwll?v样本点到超平面的距离代表该点在当前分类器下的确信度。距离越大器对该点分类越确定;距离越小说明该分类器对该点分类不确定,则确定分类信息可能性较大。当本次迭代中所有输入的无标签数据与超计算完毕后,对其进行升序排序,选择部分样本交由专家进行标记。很容易由于有标签数据过少而导致生成的超平面与真实的分类边界
4.4实验结果与分析??为了验证本算法有效性,分别在NSL-KDD与UNSW-NB15数据集上进行实??验,同时与其他算法进行对比。取改进的ReliefT的特征权重比值阈值参数P为??0.85,对于主动学习的查询专家委员会设置三个分类器,分别为两个KNN分类??器和一个随机森林分类器,KNN中々取值分别为2、5,随机森林A取值为50,??对于主动学习的查询函数,本实验设定由查询专家委员会投票产生样本预测标签,??当有分类器与投票标签不一致时,我们认为对于该样本成员分类器产生的分歧度??较高,说明该样本有尚未被委员会学习到的信息,因此将该数据进行专家标注,??并放入训练集,当需要标注的样本超过5000条时,将专家新标注的样本放入原??始训练集并更新分类器。??4.?4.?1基于NSL-KDD数据集的实验结果??对NSL-KDD数据集的5种数据类型,每种随机抽取1000条形成5000条平??衡训练集,数据块大小为block=3000。根据算法在该数据集上的表现,分类器更??新了两次,分别于第1丨块、31块需要标注的样本超过5000条,对分类器进行??
【参考文献】
本文编号:2842192
【学位单位】:辽宁师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.08
【部分图文】:
图3.1随机森林对数据的F-valne检测结果??Fig.?3.1?Random?forest?analysis?of?F-value?results??
图4.1主动学习过程示意图??Fig.?4.1?Active?learning?process?diagram??在主动学习的过程中,一个关键问题就是查询策略函数G如何从无选取合适的样本进行标注,当前主动学习中选取样本的准则主要有三缘的方法、基于不确定性的方法和查询专家委员会方法。??(1)基于边缘的方法??最常使用的是边缘采样法,边缘采样法是针对SVM分类器的特点提习的方法,通过计算样本点到分类超平面的距离选择位于当前SVM点,将超平面记为(w.?6),则样本空间中任意点x到超平面(w,幻的距(llwll?v样本点到超平面的距离代表该点在当前分类器下的确信度。距离越大器对该点分类越确定;距离越小说明该分类器对该点分类不确定,则确定分类信息可能性较大。当本次迭代中所有输入的无标签数据与超计算完毕后,对其进行升序排序,选择部分样本交由专家进行标记。很容易由于有标签数据过少而导致生成的超平面与真实的分类边界
4.4实验结果与分析??为了验证本算法有效性,分别在NSL-KDD与UNSW-NB15数据集上进行实??验,同时与其他算法进行对比。取改进的ReliefT的特征权重比值阈值参数P为??0.85,对于主动学习的查询专家委员会设置三个分类器,分别为两个KNN分类??器和一个随机森林分类器,KNN中々取值分别为2、5,随机森林A取值为50,??对于主动学习的查询函数,本实验设定由查询专家委员会投票产生样本预测标签,??当有分类器与投票标签不一致时,我们认为对于该样本成员分类器产生的分歧度??较高,说明该样本有尚未被委员会学习到的信息,因此将该数据进行专家标注,??并放入训练集,当需要标注的样本超过5000条时,将专家新标注的样本放入原??始训练集并更新分类器。??4.?4.?1基于NSL-KDD数据集的实验结果??对NSL-KDD数据集的5种数据类型,每种随机抽取1000条形成5000条平??衡训练集,数据块大小为block=3000。根据算法在该数据集上的表现,分类器更??新了两次,分别于第1丨块、31块需要标注的样本超过5000条,对分类器进行??
【参考文献】
相关期刊论文 前2条
1 李永忠;王汝山;张念贵;王玉雷;;基于半监督模糊聚类的入侵检测技术[J];江苏科技大学学报(自然科学版);2010年04期
2 姚文俊;;自相关法和Burg法在AR模型功率谱估计中的仿真研究[J];计算机与数字工程;2007年10期
本文编号:2842192
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2842192.html