基于Stacking算法的恶意软件检测方法研究
发布时间:2021-06-10 23:02
恶意软件是在计算机系统上执行恶意任务的程序。随着互联网技术的发展,恶意软件攻击的频率呈指数级增长,恶意攻击已成为威胁互联网安全的关键所在。恶意软件的检测方法对于防范安全漏洞、数据盗窃和其他危险至关重要,因此,恶意软件检测已经成为一个重要的研究领域。传统的检测方法容易受到混淆和变形技术的干扰,这些干扰降低了恶意软件检测的正确率和效率。随着机器学习和深度学习技术的兴起,部分研究人员已经将这两种技术应用到恶意软件检测的领域中,并取得了显著效果,但是现有的恶意软件研究中,并没有考虑恶意软件数据集的属性重要度问题,导致检测效率低,无法凸显有效信息,另一方面数据集的不平衡性会影响恶意软件检测的正确率。针对这些问题,本文提出一种基于Stacking算法的恶意软件检测方法。主要内容包括以下三个方面:(1)针对恶意软件属性维度高、筛选重要属性困难,导致检测正确率和效率低的问题,本文利用天牛须搜索算法能够寻找最优值的特性以及属性重要度公式,对PCA降维算法进行优化,从而去除重要度较小的属性,降低维度的同时得到重要属性。该方法在保证原有数据分布和重要信息的情况下,有效地简化数据,凸显重要信息,降低检测方法的...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图2.1随机森林算法示例图??Fig.?2.1?Figure?of?Random?Forest??
?大连海事大学硕士学位论文???当输入训练样本时,最终的分类结果由每个决策树的输出结果投票得到,训练过程??如图2.1所示。??A……A??I??1?I??瑜出??图2.1随机森林算法示例图??Fig.?2.1?Figure?of?Random?Forest??2.3.2梯度提升决策树算法??梯度提升决策树(GBDT)?_也叫梯度提升树,将回归树和提升树的思想结合在一??起,并将分类与回归树作为基学习器的一种集成学习算法,它的继承方式采用的是梯度??提升(GradientBoosting)。??GBDT算法的训练过程如图2.2所示。??*分类器——?学习?一?加权?q??■? ̄1—????i?'?'??????数据样本一-?基分类器一?学习?一?加权?一一?融合樓型??,基分类器一?学习?一?加权?—??图2.2?C出DT算法的训练过程??Fig.?2.2?Training?process?of?GBDT?algorithm??梯度提升树中的每棵决策树的建立都是在之前决策树损失函数的梯度下降方向,将??新产生的预测值与上一个预测值所形成的残差进行匹配,进而对决策模型进行改进。由??于Boosting算法是通过残差进行学习,GBDT主要是针对偏差的优化来达到总体误差下??降的目的,所以尽管每个基分类器学习能力很弱,也能集成出一个强学习器[39]。??-9?-??
定类的概率,如果估计的概率大于某一阈值,则模型预测这个实例属于该类(称??为正类,标记为“1”),否则预测实例不属于该类(即,它属于标记为“〇”的负类)。??LR在计算输入特征的加权和方面与线性回归一样,但是它并不像线性回归那样直接输??出最终结果,而是输出该结果的估计概率,如公式(2.1)所示??P?=?he、x、=?CT(0r?.x)?(21)??逻辑回归的函数如公式(2.2)所示[4Q]。??〇■(/)=-?— ̄-??l?+?exp(-〇?(2.2)??逻辑回归的图像W如图2.3所示。??1.0????????os-?—??0.6?/??〇.4?y??0.2?-??0.0???—"???-10?-5?0?5?10??图2.3逻辑回归预测图??Fig.?2.3?Logistic?Regression?model?prediction??由图像可以看出,逻辑回归可以得到数据样本的概率分数,便于理解和实现。并且??逻辑回归直接对分类可能性进行建模,避免了进行假设分布所带来的不正确问题,同时??具有很好的数学性质,配合正则化参数可减少过拟合[41],训练速度快,是一个很好的分??类工具。??2.?3.?4?PCA?算法??主成分分析(PCA)算法是一种被广泛应用于数据降维领域的算法,它的主要思想??是通过线性变换将一个高维度的数据集转换成低维度的数据集,并且各维度之间线性无??关。??假定J空间的数据样本集£>?=丨(\>〇,...,(;^;;,),...,(^)丨,其线性变化后得到〃'维??空间中的数据样本集为公式(2.3)所示。??Z?=?WtD?(2.3)??
本文编号:3223279
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图2.1随机森林算法示例图??Fig.?2.1?Figure?of?Random?Forest??
?大连海事大学硕士学位论文???当输入训练样本时,最终的分类结果由每个决策树的输出结果投票得到,训练过程??如图2.1所示。??A……A??I??1?I??瑜出??图2.1随机森林算法示例图??Fig.?2.1?Figure?of?Random?Forest??2.3.2梯度提升决策树算法??梯度提升决策树(GBDT)?_也叫梯度提升树,将回归树和提升树的思想结合在一??起,并将分类与回归树作为基学习器的一种集成学习算法,它的继承方式采用的是梯度??提升(GradientBoosting)。??GBDT算法的训练过程如图2.2所示。??*分类器——?学习?一?加权?q??■? ̄1—????i?'?'??????数据样本一-?基分类器一?学习?一?加权?一一?融合樓型??,基分类器一?学习?一?加权?—??图2.2?C出DT算法的训练过程??Fig.?2.2?Training?process?of?GBDT?algorithm??梯度提升树中的每棵决策树的建立都是在之前决策树损失函数的梯度下降方向,将??新产生的预测值与上一个预测值所形成的残差进行匹配,进而对决策模型进行改进。由??于Boosting算法是通过残差进行学习,GBDT主要是针对偏差的优化来达到总体误差下??降的目的,所以尽管每个基分类器学习能力很弱,也能集成出一个强学习器[39]。??-9?-??
定类的概率,如果估计的概率大于某一阈值,则模型预测这个实例属于该类(称??为正类,标记为“1”),否则预测实例不属于该类(即,它属于标记为“〇”的负类)。??LR在计算输入特征的加权和方面与线性回归一样,但是它并不像线性回归那样直接输??出最终结果,而是输出该结果的估计概率,如公式(2.1)所示??P?=?he、x、=?CT(0r?.x)?(21)??逻辑回归的函数如公式(2.2)所示[4Q]。??〇■(/)=-?— ̄-??l?+?exp(-〇?(2.2)??逻辑回归的图像W如图2.3所示。??1.0????????os-?—??0.6?/??〇.4?y??0.2?-??0.0???—"???-10?-5?0?5?10??图2.3逻辑回归预测图??Fig.?2.3?Logistic?Regression?model?prediction??由图像可以看出,逻辑回归可以得到数据样本的概率分数,便于理解和实现。并且??逻辑回归直接对分类可能性进行建模,避免了进行假设分布所带来的不正确问题,同时??具有很好的数学性质,配合正则化参数可减少过拟合[41],训练速度快,是一个很好的分??类工具。??2.?3.?4?PCA?算法??主成分分析(PCA)算法是一种被广泛应用于数据降维领域的算法,它的主要思想??是通过线性变换将一个高维度的数据集转换成低维度的数据集,并且各维度之间线性无??关。??假定J空间的数据样本集£>?=丨(\>〇,...,(;^;;,),...,(^)丨,其线性变化后得到〃'维??空间中的数据样本集为公式(2.3)所示。??Z?=?WtD?(2.3)??
本文编号:3223279
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3223279.html