当前位置:主页 > 管理论文 > 移动网络论文 >

Bi-LSTM+CRF的网络空间安全领域命名实体的识别

发布时间:2021-11-21 23:30
  为细粒度分析多维度组织网络空间中威胁情报,提出一种结合双向长短时记忆网络Bi-LSTM与线性链条件随机场CRF的实体识别模型。利用网络空间安全领域词典构建、词向量训练、序列标注以及模型训练方法建立了知识图谱,通过Bi-LSTM提取特征识别网络空间安全领域中12类命名实体。结果表明,该方法评价值优于其他算法,F值达到85.00%,整体识别性能较高。 

【文章来源】:黑龙江科技大学学报. 2020,30(06)

【文章页数】:6 页

【部分图文】:

Bi-LSTM+CRF的网络空间安全领域命名实体的识别


网络空间安全命名实体识别框架

序列,单元,隐藏层,输出向量


长短时记忆网络LSTM由Hochreiter等[20]于1997年提出,是一种特定形式的循环神经网络。LSTM是链式结构的,输入层输入xt,隐藏层输出ht,每个LSTM记忆单元都由输入门it、输出门ot、遗忘门ft和记忆控制器ct等四部分组成。LSTM记忆单元如图2所示。LSTM只能访问过去的上下文信息,但未来的上下文信息对网络空间安全实体特征提取同样重要,因此,采用双向LSTM即Bi-LSTM[21]神经网络模型。Bi-LSTM模型结构如图3所示,对输入的序列分别采用顺序和逆序计算获得两个隐藏层输出向量,两个隐藏层通过拼接获得最终的隐藏层输出向量。

序列,模型结构,隐藏层,网络空间


LSTM只能访问过去的上下文信息,但未来的上下文信息对网络空间安全实体特征提取同样重要,因此,采用双向LSTM即Bi-LSTM[21]神经网络模型。Bi-LSTM模型结构如图3所示,对输入的序列分别采用顺序和逆序计算获得两个隐藏层输出向量,两个隐藏层通过拼接获得最终的隐藏层输出向量。本文将预处理后的网络空间安全领域非结构化文本中的字符向量序列作为Bi-LSTM层输入,正向LSTM将输入序列表示成ht,再利用逆向的LSTM将输入序列表示成ht’,h=ht+ht’的拼接作为最终的结果,得到提取出的特征,并将特征表示进行Softmax分类,从而输出每个字的最终标签,为了利用已标注过的信息,将每个字表示的k维向量进行拼接并作为输入到CRF层的特征矩阵。

【参考文献】:
期刊论文
[1]基于准循环神经网络的中文命名实体识别[J]. 王栋,李业刚,张晓,蒲相忠.  计算机工程与设计. 2020(07)
[2]基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究[J]. 马建霞,袁慧,蒋翔.  数据分析与知识发现. 2020(Z1)
[3]威胁情报相关标准综述[J]. 石志鑫,马瑜汝,张悦,王翔宇.  信息安全研究. 2019(07)
[4]一种基于特征模板和CNN-BiLSTM-CRF的网络安全实体识别方法(英文)[J]. Ya QIN,Guo-wei SHEN,Wen-bo ZHAO,Yan-ping CHEN,Miao YU,Xin JIN.  Frontiers of Information Technology & Electronic Engineering. 2019(06)
[5]基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J]. 张若彬,刘嘉勇,何祥.  四川大学学报(自然科学版). 2019(03)
[6]基于深度主动学习的信息安全领域命名实体识别研究[J]. 彭嘉毅,方勇,黄诚,刘亮,姜政伟.  四川大学学报(自然科学版). 2019(03)
[7]基于Hadoop的大规模网络安全实体识别方法[J]. 秦娅,申国伟,余红星.  智能系统学报. 2019(05)
[8]命名实体识别研究综述[J]. 刘浏,王东波.  情报学报. 2018(03)
[9]网络空间安全知识图谱研究[J]. 安景文,梁志霞,陈孝慈.  网络空间安全. 2018(01)
[10]基于深层条件随机场的生物医学命名实体识别[J]. 孙晓,孙重远,任福继.  模式识别与人工智能. 2016(11)



本文编号:3510469

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3510469.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4c7a8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com