基于批量二次规划网络的异常检测算法研究
发布时间:2021-10-21 03:30
异常检测技术涉及机器学习、数据挖掘、统计学、信息论等相关学科,广泛应用于入侵检测、欺诈检测、医疗卫生异常检测、网络舆情异常检测、工业故障检测等技术领域。而在异常检测中,数据噪声或数据错误的存在,决定了基于数据驱动的方式进行异常检测所面临的困难:首先,数据噪声的存在会导致异常检测模型优化过程中学习噪声的特征,进而会影响模型的检测精度;其次,从含噪声样本中识别出真正的异常样本(异常暴露),同样是异常检测中的一个难点。对含噪样本进行抑制或约束,模型会选取决策边界附近的含噪样本,舍弃部分远离决策边界的含噪样本,这会导致含噪样本和异常样本之间的界限混淆,增大异常暴露的难度。因此,平衡噪声抑制和异常暴露对模型的影响有利于提升检测性能。本文首先提出了基于最大熵约束的批量二次规划(Batch Quadratic Programming,BQP)网络异常检测算法,其中BQP网络由特征抽取网络和QP输出层构成,其中特征抽取网络将批次训练样本映射至特征空间,输出批次特征向量;QP输出层构建批次训练样本的二次优化约束,即对训练样本引入支持向量数据描述(Support Vector Data Descripti...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
BQP网络与基线方法在MNIST和CIFAR-10上的误差线图(AUC平均值和标准差)
杭州电子科技大学硕士学位论文36图3.4不同混入比例下BQP网络与基线方法的误差线图(AUC平均值和标准差)从误差表3.2中可以看出,在不同的异常样本混合比例下,本文提出的BQP网络的检测性能(AUC值的均值和标准差)均优于其他对照组基线方法,尤其是在CIFAR-10数据集中,BQP网络的性能提升显著,这意味着BQP网络在处理复杂的图像样本时效果良好。同时,从图3.4可以看出随着异常样本混合比例的增加,在MNIST和CIFAR-10数据集中BQP网络的检测性能都呈现先上升后下降的趋势。其原因主要是由于在BQP网络中使用了SVDD二次约束,而SVDD二次约束中引入的松弛变量可以实现一定程度的容错;对于含有混入异常样本的训练样本,利用最大熵损失函数处理位于超球面边界的不确定样本(这些样本大多由加噪的正常样本和混入的异常样本组成),能够较好地平衡不确定样本的影响。设计训练集混入异常样本情况下的对比实验,目的在于模拟真实情况下的训练数据集,通过对比实验测试出的性能指标可以反映各个方法在不同异常样本混入比下性能变化趋势,通过性能变化可以验证BQP网络的抗干扰性能较好,即具有较好的鲁棒性。3.3.5.3最大熵约束对比实验根据3.3.4节中设计的实验3,通过设置不同的理想分布来探索BQP网络最大熵约束的性能。本实验选取了五个分布作为最大熵的理想分布,分别为正态分布、均匀分布、对数正态分布、拉普拉斯分布和瑞利分布;同时本实验设置了对照组,即不使用最大熵损失函数训练BQP网络。在不同的理想分布下,BQP网络的测试结果如下表3.3、表3.4和表3.5所示:表3.3增加最大熵约束的BQP网络AUC值误差表(MNIST数据集)数据集分布BQP+ME(最大熵)MNIST正态均匀对数正态拉普拉斯瑞利CIFAR-10数据集OCSVM方法KDE方法IF方法
斜昵┭?菊急榷员仁笛?训练前,固定三元组采样参数异常样本混合比和带标签异常样本种类k,设置不同的有标签样本占比进行对比实验,本实验设定有标签样本占比为0,0.01,0.05,0.1,0.2共5个不同的值。固定参数带标签异常样本种类k设定为1(1类样本作为正常样本训练集,1类样本作为异常样本训练集,剩下8个种类的样本作为潜在可能出现的异常);无标签样本中无异常样本混入,设定取值为0。实验中,对于不同的有标签样本占比,测试了MNIST,Fashion-MNIST和CIFAR-10数据集下SSBQP和对照组基线方法的AUC均值和标准差,汇总于下图4.2和表4.2、表4.3:图4.2不同有标签异常样本占比下各个方法的AUC误差图表4.2不同有标签异常样本占比下各个方法的AUC误差表(无监督学习方法对照组)无监督学习方法数据集OCSVMHybridIFHybridKDEHybridCAEDeepSVDDMNIST0F-MNIST0CIFAR-100MgLgLgMgLgOCSVM方法(无监督学习对照组)IF方法(无监督学习对照组)KDE方法(无监督学习对照组)CAE方法(无监督学习对照组)DeepSVDD方法(无监督学习对照组)SSADRaw方法(半监督学习对照组)SSADHybrid方法(半监督学习对照组)SSDGM方法(半监督学习对照组)DeepSAD方法(半监督学习对照组)SSBQP方法(半监督学习对照组)有标签样本占比LgMNIST数据集F-MNIST数据集CIFAR-10数据集LgLgLg96.3±2.590.5±5.387.9±5.692.9±5.792.8±4.991.2±4.791.6±5.592.0±4.990.2±5.889.2±6.263.8±9.059.9±6.756.1±10.256.2±13.260.9±9.4
本文编号:3448152
【文章来源】:杭州电子科技大学浙江省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
BQP网络与基线方法在MNIST和CIFAR-10上的误差线图(AUC平均值和标准差)
杭州电子科技大学硕士学位论文36图3.4不同混入比例下BQP网络与基线方法的误差线图(AUC平均值和标准差)从误差表3.2中可以看出,在不同的异常样本混合比例下,本文提出的BQP网络的检测性能(AUC值的均值和标准差)均优于其他对照组基线方法,尤其是在CIFAR-10数据集中,BQP网络的性能提升显著,这意味着BQP网络在处理复杂的图像样本时效果良好。同时,从图3.4可以看出随着异常样本混合比例的增加,在MNIST和CIFAR-10数据集中BQP网络的检测性能都呈现先上升后下降的趋势。其原因主要是由于在BQP网络中使用了SVDD二次约束,而SVDD二次约束中引入的松弛变量可以实现一定程度的容错;对于含有混入异常样本的训练样本,利用最大熵损失函数处理位于超球面边界的不确定样本(这些样本大多由加噪的正常样本和混入的异常样本组成),能够较好地平衡不确定样本的影响。设计训练集混入异常样本情况下的对比实验,目的在于模拟真实情况下的训练数据集,通过对比实验测试出的性能指标可以反映各个方法在不同异常样本混入比下性能变化趋势,通过性能变化可以验证BQP网络的抗干扰性能较好,即具有较好的鲁棒性。3.3.5.3最大熵约束对比实验根据3.3.4节中设计的实验3,通过设置不同的理想分布来探索BQP网络最大熵约束的性能。本实验选取了五个分布作为最大熵的理想分布,分别为正态分布、均匀分布、对数正态分布、拉普拉斯分布和瑞利分布;同时本实验设置了对照组,即不使用最大熵损失函数训练BQP网络。在不同的理想分布下,BQP网络的测试结果如下表3.3、表3.4和表3.5所示:表3.3增加最大熵约束的BQP网络AUC值误差表(MNIST数据集)数据集分布BQP+ME(最大熵)MNIST正态均匀对数正态拉普拉斯瑞利CIFAR-10数据集OCSVM方法KDE方法IF方法
斜昵┭?菊急榷员仁笛?训练前,固定三元组采样参数异常样本混合比和带标签异常样本种类k,设置不同的有标签样本占比进行对比实验,本实验设定有标签样本占比为0,0.01,0.05,0.1,0.2共5个不同的值。固定参数带标签异常样本种类k设定为1(1类样本作为正常样本训练集,1类样本作为异常样本训练集,剩下8个种类的样本作为潜在可能出现的异常);无标签样本中无异常样本混入,设定取值为0。实验中,对于不同的有标签样本占比,测试了MNIST,Fashion-MNIST和CIFAR-10数据集下SSBQP和对照组基线方法的AUC均值和标准差,汇总于下图4.2和表4.2、表4.3:图4.2不同有标签异常样本占比下各个方法的AUC误差图表4.2不同有标签异常样本占比下各个方法的AUC误差表(无监督学习方法对照组)无监督学习方法数据集OCSVMHybridIFHybridKDEHybridCAEDeepSVDDMNIST0F-MNIST0CIFAR-100MgLgLgMgLgOCSVM方法(无监督学习对照组)IF方法(无监督学习对照组)KDE方法(无监督学习对照组)CAE方法(无监督学习对照组)DeepSVDD方法(无监督学习对照组)SSADRaw方法(半监督学习对照组)SSADHybrid方法(半监督学习对照组)SSDGM方法(半监督学习对照组)DeepSAD方法(半监督学习对照组)SSBQP方法(半监督学习对照组)有标签样本占比LgMNIST数据集F-MNIST数据集CIFAR-10数据集LgLgLg96.3±2.590.5±5.387.9±5.692.9±5.792.8±4.991.2±4.791.6±5.592.0±4.990.2±5.889.2±6.263.8±9.059.9±6.756.1±10.256.2±13.260.9±9.4
本文编号:3448152
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3448152.html