当前位置:主页 > 管理论文 > 移动网络论文 >

基于机器学习的多源威胁情报质量评价方法

发布时间:2021-04-06 00:27
  在多源威胁情报收集过程中,由于存在数据价值密度低、情报重复度高、失效时间快等问题,情报中心难以对海量情报数据做出科学决策。针对上述问题,提出一种基于机器学习的多源威胁情报质量评价方法。首先基于标准情报格式,设计了一套多源情报数据标准化流程;其次,针对情报数据的特点,分别从情报来源、情报内容、活跃周期、黑名单库匹配程度4个维度提取特征作为评估情报质量的依据;然后针对提取的特征编码,设计了一套基于深度神经网络算法和Softmax分类器的情报质量评价模型,并利用反向误差传播算法最小化重构误差;最后根据2000条开源已标注样本数据,利用K折交叉验证法对模型进行验证,得到了平均91.37%的宏查准率和84.89%的宏查全率,为多源威胁情报质量评估提供借鉴和参考。 

【文章来源】:电信科学. 2020,36(01)

【文章页数】:8 页

【部分图文】:

基于机器学习的多源威胁情报质量评价方法


情报数据标准化流程

示意图,情报源,情报,示意图


情报的来源能在很大程度上反映出一条情报的可信程度,一般来说,多来源情报比单来源情报质量更高,知名威胁情报厂商、专业情报评估机构比个人情报数据质量更高[10]。由于情报来源之间的关联性较小,为了保证每个情报来源特征的独立性,本文对其采用onehot编码方式,将每个情报源映射到不同维度上。情报源onehot特征编码示意图如图2所示,对n个不同的情报源,对其顺序编号,分别将其映射到n维的0、1特征空间。由于威胁情报具有很强的时效性,发布时间是评价情报是否有效的重要特征指标。一般来说,当前时间离情报发布时间越近,其失效的可能性越小[11]。同时,由于一条情报可能会在不同时间段多次发布,通过记录其最近3次的发现时间,能够表征情报的波动趋势,有助于分析当前情报的可信程度。本方法情报基于时间特征的编码见表1。

示意图,神经网络,示意图,神经元


对情报数据进行特征提取后,本文采用深度神经网络算法训练质量分类模型。深度神经网络在网络结构上由输入层、输出层和多个全连接层3部分组成,如图3所示,输入层神经元负责接收特征输入,全连接层和输出层通过功能神经元对输入进行函数处理。函数处理与局部模型和感知机相同,由一个线性函数(xi为上一层神经元的输入,wi为上一层神经元与当前神经元的连接权)与一个激活函数构成。为提高模型复杂度和训练准确率,深度神经网络有增加全连接层神经元数目和增加神经网络层数两种方法。但一般情况下,增加神经网络层数更加可靠有效。因为增加全连接层数不仅增加了拥有激活函数的神经元数目,还增加了激活函数嵌套层数,具有更强的特征表达和函数模拟能力。但是随着层数的增加,网络中无法使用单层的反向误差传播算法进行模型训练,因为在多层网络中误差逆传播时往往会出现梯度消失或梯度爆炸的情况,训练无法达到稳定收敛的状态。

【参考文献】:
期刊论文
[1]一种多源网络安全威胁情报采集与封装技术[J]. 徐留杰,翟江涛,杨康,丁晨鹏.  网络安全技术与应用. 2018(10)
[2]基于自更新威胁情报库的大数据安全分析方法[J]. 侯艳芳,王锦华.  电信科学. 2018(03)
[3]定义网络空间安全[J]. 方滨兴.  网络与信息安全学报. 2018(01)
[4]应急信息可信度研究范式的三维阐释与构建——基于工程化思维与WSR方法论[J]. 刘春年,张凌宇.  现代情报. 2017(06)

硕士论文
[1]多源异构数据融合关键技术研究及其应用[D]. 贺雅琪.电子科技大学 2018
[2]网络空间中威胁情报可信度多维度分析模型研究[D]. 李蕾.北京邮电大学 2018



本文编号:3120393

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3120393.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2e921***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com