工业控制网络安全事件挖掘模型研究与实现

发布时间：2020-03-28 18:57

【摘要】：工业控制网络是国家和社会的重要基础设施的控制网络,这些重要的基础设施关系到人民的正常生活。随着工业控制网络与互联网的高度融合,漏洞、攻击、病毒等网络威胁接踵而至。防御工控网络攻击需要挖掘出日志中的异常模式,数据挖掘能够发掘出常见的异常模式。但是工控网络的异常模式挖掘还存在忽视专业词语的分析、不易发现隐藏异常模式和挖掘模型过拟合等问题。针对这些问题,本文首先建立了一个工控领域的专业语料库,然后提出了一个基于编码的长短期记忆神经网络的异常挖掘模型,最后设计了一种改进的课程学习算法。具体工作如下:1.为了增强模型分析专业词语的能力,建立了一个工控领域的专业语料库。将消极词语与积极词语等普通词汇对应转换为专业词汇,并新增工控特殊状态词语,不同类别的词语设置合理的权重,建立专业语料库。实验结果显示使用专业语料库的异常挖掘模型准确率提升了 4%。2.为了深层次挖掘出隐藏的异常模式,提出了基于编码的长短期记忆神经网络异常检测模型。采用上下文日志相结合的策略,将多行日志数据转换为状态序列,并将该状态序列进行编码,分离出正常模式与异常模式。实验结果显示编码的异常挖掘模型能有效区分正常数据和异常数据,编码模型的F1值提升了 6%。3.为了减轻异常挖掘模型中的过拟合问题,提出了一种改进的课程学习算法。首先设计了一种平均频繁次数和长度最短优先的工控数据排序算法策略。然后使用正负样本同时训练,根据损失值判断所属类别,改进后的课程学习算法减少模型训练的次数。通过实验表明课程学习算法的改进使得模型训练次数减少了一半,从而减轻了模型的过拟合问题,同时在公共数据集上模型检测的准确率提升了 2%。
【图文】：

权重,实验结果,词语,级别

第三章建立工控领域的专业语料库逡逑由图３－１可知，在专业语料库对文本数据的作用下，进行词语检测后，会逡逑出现三种情况的词语，当出现中性词语时，我们将不改变权重的大小，权重逡逑灰；大小为１。我们在词语进行设置级别时，词语是消极词语到正常词语的级别逡逑是从１到１０。异常的最高级别是１，中性词的级别是５，正常词的级别是１０。逡逑当出现异常的情况，我们将调小权重的大小，使得权重大小为（０．１，１）；当出逡逑现正常词语的情况下，我们将调大权重的大小，权重大小为（１，２）。因为在工逡逑控领域中，判断一条文本行，一般是从１到１０这１０个等级去标注某一行的状逡逑态情况。我们将１表示为异常，１０表示正常，５则表示为介于正常与异常之间。逡逑从图３－１可以知道

权重,准确率,权重值,初始值

逡逑如图３－２所示，随着积极词语权重的加大，准确率整体上呈现上升的趋势。逡逑当权重取值为１．６时，模型的准确率达到了邋９２．４％。随着权重的继续加大，模逡逑型的准确率逐渐降低。实验结果说明在刚开始未使用积极词语权重设置时，模逡逑型的准确率为８７．１％，，当加大积极词语的权重时，模型的准确率得到提升，但逡逑是如果过度加大权重，词语显示的状态会过于正常，模型的准确率开始减少，逡逑在权重设置为１．６时，效果最好。逡逑消极词语的权重实验逡逑＾逦消极词语逡逑＾逦：逦９２．８逦９３－８逡逑９２逦９邋匕一逡逑９０逦！逦８７．１逡逑８６逡逑８４逡逑８２逡逑０．２逦０．４逦０．６逦０．８逦１邋权重逡逑图３－３消极词语的权重对实验结果的影响逡逑如图３－３所示为消极词语权重值的变化与准确率的关系，权重初始值为１。逡逑消极词语的严重等级范围为１－５级，当权重为１时，严重等级保持不变，准确逡逑率为８７．１％。当权重取值为０．６时
【学位授予单位】：北京邮电大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：D669

【参考文献】