基于深度学习的DGA域名检测
发布时间:2021-02-20 12:51
近几年人工智能、大数据等移动互联网新一代技术的发展和兴起,使得人们的生活也走进了智能化的时代。移动互联网技术给生活带来便利的同时,也带来新的挑战,僵尸网络、恶意软件是当前网络安全所面临的重要难题。它们大部分都使用了Domain-Flux技术,其主要应用的技术是一种恶意域名的生成算法DGA(Domain Generation Algorithm)。网络攻击者通过使用DGA域名去连接和控制受感染机器去进行非法行为,所以对于DGA域名的检测尤为重要。本文针对DGA域名的检测,对不同类型的DGA域名实现了三种不同的算法。首先是基于人工提取特征的GBDT算法,这种算法需要人工预先对域名数据进行特征工程,选择相关性高的特征再使用GBDT算法进行识别和分类。然后是基于LSTM的DGA域名检测算法,这种方法无需人工预先提取特征,对域名进行简单序列化之后即可建模。最后是基于BERT模型的DGA域名检测算法,这种算法结合自然语言处理领域非常优秀的BERT模型,针对Wordlist-based的单词级DGA域名有比较好的效果。本文研究发现,无论是基于人工特征的GBDT算法,还是基于LSTM的DGA检测算法针...
【文章来源】:广州大学广东省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
DGA实现图
广州大学硕士学位论文10Matsnu来自两个预定义词典的2~3个单词的组合focus-buddy-damage.compoundexpect-glove.com2.2GBDT决策树(decisiontree)[36]是一种结构简单容易实现并且具有强解释性的模型,可以用于分类和回归问题,而本文主要讨论用于分类的决策树。决策树是基于树形结构的模型,在面对分类问题时,每个内部节点针对一个特征属性对实例进行分类。它的每个分支可以看作是针对某一特征属性判断结果的输出,而最底层的叶子节点看作是一个个分类结果的输出。这种模型的主要优点是可读性强,容易实现,并且分类效率高。基于决策树的机器学习过程通常包括三个步骤:特征选择,决策树的建模和决策树的剪枝。GDBT(GradientBoostingDecisionTree)[37]是一种基于决策树的迭代型算法,该算法由多组基本的决策树模型构成,所有树的结果结合起来得出模型最终的输出。它与传统的SVM算法一样是具有较强泛化能力(generalization)的算法。近年来更是因为常被使用于搜索排序的机器学习模型而引起较为广泛关注。目前GBDT是一种被众多模型广泛应用的算法,不仅仅可以用来做分类,还可以应用到回归问题中。在很多模型或者数据集上有表现出非常不错的效果。图2-2GBDT算法原理GBDT的训练需要经过多轮迭代,每一轮的迭代都会产生一个弱分类器,而每一个分类器的训练都是使用在上一轮分类器训练所得的残差。对弱分类器选择的要求一般具有三个属性,结构足够简单、低方差和高偏差的。弱分类器一般会选择为CARTTREE(也就是分类回归树)[38],这样每
广州大学硕士学位论文12Hochreiter&Schmidhuber(1997)引入,并有许多人对其进行了改进和普及。他们的工作被用来解决了各种各样的问题,直到目前还被广泛应用。LSTM网络在普通RNN网络的基础上设计出来的,解决梯度消失问题是长短期记忆网络(LSTM)应用的一个关键动机[40]。LSTM网络在隐藏层各神经单元中增加了记忆单元,从而达到控制在时间序列上流转的记忆信息,并且在很大程度上解决了梯度消失问题。它通过控制几个门的流传信息,控制之前的历史信息和当前信息的记忆和遗忘程度,从而使RNN网络具备了长期记忆功能。LSTM的核心是神经网络中的细胞状态,细胞状态像水平线一样贯穿整个细胞,像一条传送带一样。它贯穿整个细胞,却只有比较少的分支线路,这样能够保证信息不变并且流过整个RNN。因为sigmoid层[41]的输出是0-1区间的值,这代表有多少信息能够流过sigmoid层。0表示所有信息都丢弃,1表示所有信息都保留。LSTM通过三个门来控制细胞状态,这三个门分别称为遗忘门、输入门和输出门。图2-3LSTM结构图1)遗忘门(forgetgate):负责上一个细胞输出的长时记忆和当前细胞长时记忆之间的控制,即有多少历史信息需要保留或者丢弃。2)输入门(inputgate):负责当前细胞的短时记忆和长时记忆的控制,即有多少新的信息可以加入到长时记忆中。
【参考文献】:
期刊论文
[1]采用深度学习的DGA域名检测模型比较[J]. 裴兰珍,赵英俊,王哲,罗赟骞. 计算机科学. 2019(05)
[2]基于BiLstm神经网络的DGA域名检测方法[J]. 林思明,陈腾跃,梁煜麓. 网络安全技术与应用. 2019(01)
[3]基于深度学习的集成DGA域名检测方法[J]. 罗赟骞,邬江,王艳伟,杨鹤. 信息技术与网络安全. 2018(10)
本文编号:3042797
【文章来源】:广州大学广东省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
DGA实现图
广州大学硕士学位论文10Matsnu来自两个预定义词典的2~3个单词的组合focus-buddy-damage.compoundexpect-glove.com2.2GBDT决策树(decisiontree)[36]是一种结构简单容易实现并且具有强解释性的模型,可以用于分类和回归问题,而本文主要讨论用于分类的决策树。决策树是基于树形结构的模型,在面对分类问题时,每个内部节点针对一个特征属性对实例进行分类。它的每个分支可以看作是针对某一特征属性判断结果的输出,而最底层的叶子节点看作是一个个分类结果的输出。这种模型的主要优点是可读性强,容易实现,并且分类效率高。基于决策树的机器学习过程通常包括三个步骤:特征选择,决策树的建模和决策树的剪枝。GDBT(GradientBoostingDecisionTree)[37]是一种基于决策树的迭代型算法,该算法由多组基本的决策树模型构成,所有树的结果结合起来得出模型最终的输出。它与传统的SVM算法一样是具有较强泛化能力(generalization)的算法。近年来更是因为常被使用于搜索排序的机器学习模型而引起较为广泛关注。目前GBDT是一种被众多模型广泛应用的算法,不仅仅可以用来做分类,还可以应用到回归问题中。在很多模型或者数据集上有表现出非常不错的效果。图2-2GBDT算法原理GBDT的训练需要经过多轮迭代,每一轮的迭代都会产生一个弱分类器,而每一个分类器的训练都是使用在上一轮分类器训练所得的残差。对弱分类器选择的要求一般具有三个属性,结构足够简单、低方差和高偏差的。弱分类器一般会选择为CARTTREE(也就是分类回归树)[38],这样每
广州大学硕士学位论文12Hochreiter&Schmidhuber(1997)引入,并有许多人对其进行了改进和普及。他们的工作被用来解决了各种各样的问题,直到目前还被广泛应用。LSTM网络在普通RNN网络的基础上设计出来的,解决梯度消失问题是长短期记忆网络(LSTM)应用的一个关键动机[40]。LSTM网络在隐藏层各神经单元中增加了记忆单元,从而达到控制在时间序列上流转的记忆信息,并且在很大程度上解决了梯度消失问题。它通过控制几个门的流传信息,控制之前的历史信息和当前信息的记忆和遗忘程度,从而使RNN网络具备了长期记忆功能。LSTM的核心是神经网络中的细胞状态,细胞状态像水平线一样贯穿整个细胞,像一条传送带一样。它贯穿整个细胞,却只有比较少的分支线路,这样能够保证信息不变并且流过整个RNN。因为sigmoid层[41]的输出是0-1区间的值,这代表有多少信息能够流过sigmoid层。0表示所有信息都丢弃,1表示所有信息都保留。LSTM通过三个门来控制细胞状态,这三个门分别称为遗忘门、输入门和输出门。图2-3LSTM结构图1)遗忘门(forgetgate):负责上一个细胞输出的长时记忆和当前细胞长时记忆之间的控制,即有多少历史信息需要保留或者丢弃。2)输入门(inputgate):负责当前细胞的短时记忆和长时记忆的控制,即有多少新的信息可以加入到长时记忆中。
【参考文献】:
期刊论文
[1]采用深度学习的DGA域名检测模型比较[J]. 裴兰珍,赵英俊,王哲,罗赟骞. 计算机科学. 2019(05)
[2]基于BiLstm神经网络的DGA域名检测方法[J]. 林思明,陈腾跃,梁煜麓. 网络安全技术与应用. 2019(01)
[3]基于深度学习的集成DGA域名检测方法[J]. 罗赟骞,邬江,王艳伟,杨鹤. 信息技术与网络安全. 2018(10)
本文编号:3042797
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3042797.html