一种基于多视角特征融合的Webshell检测方法
发布时间:2021-06-25 23:30
Webshell是一种Web端的恶意脚本文件。它通常由攻击者上传至目标服务器来达成其非法的访问控制的目的。现有Webshell检测方法存在诸多不足,如单一的网络流量行为、简易被绕过的签名比对、单一的正则匹配等。针对上述不足之处,基于PHP语言的Webshell,提出了一种基于多视角特征融合的Webshell检测方法,首先,提取包括词法特征、句法特征、抽象特征在内的多种特征;其次,利用费舍尔评分对特征进行重要程度的排序与筛选;最后,通过SVM建立能有效区分Webshell和正常脚本的模型。在大规模的实验中,模型对Webshell和正常样本的最终分类精度达到了92.1%。
【文章来源】:电信科学. 2020,36(06)
【文章页数】:8 页
【部分图文】:
费舍尔得分与分类精度的关系
Webshell检测流程
为了优化模型,本文采集网格搜索法确定最佳的SVM训练参数。在SVM中,需要确定的两个主要参数分别是C和γ,其中,参数C是惩罚系数。如果C变大,说明惩罚的力度变大,导致模型不够灵活、泛化能力变弱的情况。反之,如果C变小,那么惩罚力度就自然变小,模型就容易出现欠拟合的现象。另一个参数γ决定了数据映射到新的特征空间后的分布。与参数C的情况类似,γ太大会导致模型并不学习向量的内容,而是仅仅记住了支持向量本身,导致泛化能力下降,容易出现过拟合的情况。而γ太小则会造成新特征空间的数据分布过于平滑,出现欠拟合的情况。本文首先将SVM收敛系数固定为0.01,参数γ固定为0.01,参数C与模型最终分类精度的变化如图3所示。由图3可知,当参数C的值为0.8时,分类效果最佳。同理,当SVM收敛系数固定为0.01,参数C固定为0.8时,参数γ与模型最终分类精度的变化如图4所示。由图4可知,当参数γ的值为0.03时,分类效果最佳。综上所述,本文中采用C=0.8和γ=0.03。在最优参数下,本文做了10次交叉验证,最终得到的TP、FP、TN、FN的平均值见表3。由表3可知Webshell的识别率TPR为90.7%,正常脚本的识别率TNR为93.6%。模型最终分类精度为92.1%。在实际运用中,可以调整分类的阈值,例如在安全性较高的Web服务器上,将分类阈值变小,这样可以适当地降低正常脚本的识别率来提高对Webshell的检测率。
本文编号:3250162
【文章来源】:电信科学. 2020,36(06)
【文章页数】:8 页
【部分图文】:
费舍尔得分与分类精度的关系
Webshell检测流程
为了优化模型,本文采集网格搜索法确定最佳的SVM训练参数。在SVM中,需要确定的两个主要参数分别是C和γ,其中,参数C是惩罚系数。如果C变大,说明惩罚的力度变大,导致模型不够灵活、泛化能力变弱的情况。反之,如果C变小,那么惩罚力度就自然变小,模型就容易出现欠拟合的现象。另一个参数γ决定了数据映射到新的特征空间后的分布。与参数C的情况类似,γ太大会导致模型并不学习向量的内容,而是仅仅记住了支持向量本身,导致泛化能力下降,容易出现过拟合的情况。而γ太小则会造成新特征空间的数据分布过于平滑,出现欠拟合的情况。本文首先将SVM收敛系数固定为0.01,参数γ固定为0.01,参数C与模型最终分类精度的变化如图3所示。由图3可知,当参数C的值为0.8时,分类效果最佳。同理,当SVM收敛系数固定为0.01,参数C固定为0.8时,参数γ与模型最终分类精度的变化如图4所示。由图4可知,当参数γ的值为0.03时,分类效果最佳。综上所述,本文中采用C=0.8和γ=0.03。在最优参数下,本文做了10次交叉验证,最终得到的TP、FP、TN、FN的平均值见表3。由表3可知Webshell的识别率TPR为90.7%,正常脚本的识别率TNR为93.6%。模型最终分类精度为92.1%。在实际运用中,可以调整分类的阈值,例如在安全性较高的Web服务器上,将分类阈值变小,这样可以适当地降低正常脚本的识别率来提高对Webshell的检测率。
本文编号:3250162
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3250162.html