一种基于深度学习的恶意软件家族分类模型
发布时间:2021-07-29 11:55
恶意软件的家族分类问题是网络安全研究中的重要课题,恶意软件的动态执行特征能够准确的反映恶意软件的功能性与家族属性。本文通过研究恶意软件调用Windows API的行为特点,发现恶意软件的恶意行为与序列前后向API调用具有一定的依赖关系,而双向LSTM模型的特征计算方式符合这样的依赖特点。通过设计基于双向LSTM的深度学习模型,对恶意软件的前后API调用概率关系进行了建模,经过实验验证,测试准确率达到了99.28%,所提出的模型组合方式对恶意软件调用系统API的行为具有良好的建模能力,为了深入的测试深度学习方法的分类性能,实验部分进一步设置了对抗样本实验,通过随机插入API序列的方式构造模拟对抗样本来测试原始参数模型的分类性能,对抗样本实验表明,深度学习方法相对某些浅层机器学习方法具有更高的稳定性。文中实验为深度学习技术向工业界普及提供了一定的参考意义。
【文章来源】:信息安全学报. 2020,5(01)CSCD
【文章页数】:9 页
【部分图文】:
恶意代码家族分类的系统框架图
本文数据集与微软在kaggle的恶意软件分类大赛中的公开数据集[8]做对比,本文数据集在数量上略少于微软恶意软件分类比赛中训练集数据的个数。4 数据集处理与实验
如图3所示,图片上排为序列长度为220时,分别对测试样本插入0组,1组,2组,3组,4组,5组对抗序列之后,普通机器学习方法与深度学习方法性能指标的损失情况。从图形中可以看出,插入对抗序列之后明显会降低恶意软件家族分类的性能,但是相对传统的朴素贝叶斯(NB)与随机森林(RF)方法,深度学习方法可以获得更加稳定的性能,良好的实现恶意软件家族检测的分类。序列长度为400时,深度学习模型同样表现较好。测试样本序列长度为400时,可以看到五角星线条的LSTM方法相对其他的方法下降趋势较小。但是序列长度为220时则没有这样的趋势,可以推断,这是因为序列长度为400的LSTM识别模型参数较多,而LSTM参数较少的情况下具有更高的鲁棒性。
本文编号:3309275
【文章来源】:信息安全学报. 2020,5(01)CSCD
【文章页数】:9 页
【部分图文】:
恶意代码家族分类的系统框架图
本文数据集与微软在kaggle的恶意软件分类大赛中的公开数据集[8]做对比,本文数据集在数量上略少于微软恶意软件分类比赛中训练集数据的个数。4 数据集处理与实验
如图3所示,图片上排为序列长度为220时,分别对测试样本插入0组,1组,2组,3组,4组,5组对抗序列之后,普通机器学习方法与深度学习方法性能指标的损失情况。从图形中可以看出,插入对抗序列之后明显会降低恶意软件家族分类的性能,但是相对传统的朴素贝叶斯(NB)与随机森林(RF)方法,深度学习方法可以获得更加稳定的性能,良好的实现恶意软件家族检测的分类。序列长度为400时,深度学习模型同样表现较好。测试样本序列长度为400时,可以看到五角星线条的LSTM方法相对其他的方法下降趋势较小。但是序列长度为220时则没有这样的趋势,可以推断,这是因为序列长度为400的LSTM识别模型参数较多,而LSTM参数较少的情况下具有更高的鲁棒性。
本文编号:3309275
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3309275.html