基于GAN-LSTM的APT攻击检测
发布时间:2021-08-13 13:57
高级持续性威胁(Advanced Persistent Threat,APT)带来的危害日趋严重。传统的APT检测方法针对的攻击模式比较单一,处理的APT攻击的时间跨度相对较短,没有完全体现出APT攻击的时间序列性,因此当攻击数据样本较少、攻击持续时间较长时准确率很低。为了解决这个问题,文中提出了基于生成式对抗网络(Generative Adversarial Netwokrs,GAN)和长短期记忆网络(Long Short-term Memory,LSTM)的APT攻击检测方法。一方面,基于GAN模拟生成攻击数据,为判别模型生成大量攻击样本,从而提升模型的准确率;另一方面,基于LSTM模型的记忆单元和门结构保证了APT攻击序列中存在相关性且时间间距较大的序列片段之间的特征记忆。利用Keras开源框架进行模型的构建与训练,以准确率、误报率、ROC曲线等技术指标,对攻击数据生成和APT攻击序列检测分别进行对比实验分析。通过生成式模型生成模拟攻击数据进而优化判别式模型,使得原有判别模型的准确率提升了2.84%,与基于循环神经网络(Recurrent Neural Network,RNN)的...
【文章来源】:计算机科学. 2020,47(01)北大核心CSCD
【文章页数】:6 页
【部分图文】:
LSTM的内部结构
APT攻击检测算法包括3个模块,分别为APT攻击数据生成模块、APT攻击数据判别模块、APT时序处理模块,其基本结构如图2所示。APT攻击数据生成模块利用GAN生成4种攻击标签的模拟攻击数据,其输入为原始攻击样本x和高斯随机噪声z,输出为生成的攻击数据。APT攻击数据判别模块负责对攻击数据进行多分类,其输入为原始攻击样本x以及生成数据G(z),输出为对应的分类标签。APT时序处理模块采用LSTM结构对APT进行时序处理,其输入为向量化后的攻击标签,输出为布尔量y,y代表当前序列在当前位置之前的序列是否为APT攻击序列。模型的训练过程如下:首先根据APT攻击数据生成模块,利用GAN原理构建生成NUM个攻击标签的攻击数据生成器,具体步骤如下。
表3 生成模型的性能对比Table 3 Performance comparison of generating model (单位:%) 模型 准确率 误报率 漏报率 无生成器模型 82.12 4.78 5.22 加入ATTACK生成器 83.22 4.36 5.19 加入UP生成器 83.73 4.07 5.13 加入PROBING生成器 84.24 3.85 5.07 加入FILEOP生成器 84.96 3.82 4.82APT攻击序列检测实验采用控制变量法,分别采用基本RNN网络结构/GRU网络结构、LSTM网络结构进行对比实验。为了验证实验效果,将测试集中的序列按照长度范围进行分类,实验结果如表4所列。可以看出,序列长度较短时,3种模型的准确率基本持平,随着长度的增加,相同序列长度范围下LSTM模型的准确率要略高于GRU,且明显高于RNN模型。随着序列长度范围的增加,3种模型的准确率都有所降低,但是RNN的准确率的降低幅度要大于另外两种模型。LSTM的最终准确率最高,高出RNN 0.99个百分点,误报率最低。根据不同的阈值,分别绘制3种模型的ROC曲线,结果如图4所示。可以看出,LSTM模型的效果略好于GRU模型,明显优于RNN模型;LSTM模型的ROC曲线更靠近(0,1)坐标点。通过计算得出3条曲线的auc值分别为0.828,0.853,0.859,这说明LSTM模型的效果相对更好,相较于其他网络结构,在序列长度范围相同的情况下准确率更高、误报率更低,因此使用LSTM模型检测APT攻击序列具有较好的效果。
本文编号:3340556
【文章来源】:计算机科学. 2020,47(01)北大核心CSCD
【文章页数】:6 页
【部分图文】:
LSTM的内部结构
APT攻击检测算法包括3个模块,分别为APT攻击数据生成模块、APT攻击数据判别模块、APT时序处理模块,其基本结构如图2所示。APT攻击数据生成模块利用GAN生成4种攻击标签的模拟攻击数据,其输入为原始攻击样本x和高斯随机噪声z,输出为生成的攻击数据。APT攻击数据判别模块负责对攻击数据进行多分类,其输入为原始攻击样本x以及生成数据G(z),输出为对应的分类标签。APT时序处理模块采用LSTM结构对APT进行时序处理,其输入为向量化后的攻击标签,输出为布尔量y,y代表当前序列在当前位置之前的序列是否为APT攻击序列。模型的训练过程如下:首先根据APT攻击数据生成模块,利用GAN原理构建生成NUM个攻击标签的攻击数据生成器,具体步骤如下。
表3 生成模型的性能对比Table 3 Performance comparison of generating model (单位:%) 模型 准确率 误报率 漏报率 无生成器模型 82.12 4.78 5.22 加入ATTACK生成器 83.22 4.36 5.19 加入UP生成器 83.73 4.07 5.13 加入PROBING生成器 84.24 3.85 5.07 加入FILEOP生成器 84.96 3.82 4.82APT攻击序列检测实验采用控制变量法,分别采用基本RNN网络结构/GRU网络结构、LSTM网络结构进行对比实验。为了验证实验效果,将测试集中的序列按照长度范围进行分类,实验结果如表4所列。可以看出,序列长度较短时,3种模型的准确率基本持平,随着长度的增加,相同序列长度范围下LSTM模型的准确率要略高于GRU,且明显高于RNN模型。随着序列长度范围的增加,3种模型的准确率都有所降低,但是RNN的准确率的降低幅度要大于另外两种模型。LSTM的最终准确率最高,高出RNN 0.99个百分点,误报率最低。根据不同的阈值,分别绘制3种模型的ROC曲线,结果如图4所示。可以看出,LSTM模型的效果略好于GRU模型,明显优于RNN模型;LSTM模型的ROC曲线更靠近(0,1)坐标点。通过计算得出3条曲线的auc值分别为0.828,0.853,0.859,这说明LSTM模型的效果相对更好,相较于其他网络结构,在序列长度范围相同的情况下准确率更高、误报率更低,因此使用LSTM模型检测APT攻击序列具有较好的效果。
本文编号:3340556
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3340556.html