基于序列模型的作战文书知识抽取技术研究
发布时间:2024-04-07 19:28
作战文书具有实体名称复杂多样但结构规范的特点,并且在句子中有大量的重叠实体关系。对于作战文书的知识抽取,现有的方法中采用的流水线模型有误差传播以及关系冗余的问题造成关系抽取能力较差,并且现有的流水线模型无法抽取作战文书中复杂的重叠实体关系。针对这些问题,文中提出了一种基于序列生成模型并结合位置注意力机制的实体与关系联合抽取模型。通过使用作战文书作为数据集并与其他知识抽取模型做对比实验,论文模型既提高了识别非重叠实体关系的准确率,又实现了对重叠实体关系的抽取,从而提高了作战文书知识抽取的整体效果。
【文章页数】:6 页
【部分图文】:
本文编号:3947858
【文章页数】:6 页
【部分图文】:
图1重叠实体关系示例2本文模型描述
司?铝煊虻墓叵捣掷喾椒ā?以上关于军事知识抽取的模型均属于流水线模型。然而流水线模型有一些共同的问题:由于关系抽取是建立在实体识别的结果上的,所以实体识别的误差会传递到关系抽取中,对关系抽取造成较大的影响。另外,现有的关系抽取模型大多侧重于在一个句子中处理单个关系的场景,但在一个....
图3输入语句的全局位置与相对位置
的启发对位置向量进行处理。由于作战文书中比较固定的句式,部队名称这种命名实体一般会出现在句子的开头,军事任务这种命名实体一般会出现在句子的末尾,因此词语在句子中的全局位置就带有一定规律,通过加入词语的全局位置向量可以增强模型中注意力机制的效果。另一方面,对于关系抽取来说,句子中词....
图4抽取重叠实体关系测试从图4中可以发现随着一个句子中包含关系
总第310期4以及大于等于5的重叠实体关系数。最终测试结果如图4所示。图4抽取重叠实体关系测试从图4中可以发现随着一个句子中包含关系的数量的增加,关系抽取的性能也就逐渐下降。但是当句子有重复的一到三个关系三元组时,本文模型仍能保持一定的准确率,当重复关系数大于4时,关系抽取的能力....
图5总体指标对比由于本文并未将实体识别的误差引入到关系
是朱等[8]使用的BiLSTM-ATT模型,该模型通过BiLSTM层提取句子特征,经过语义注意力机制层后输入到分类器中实现了军事文本关系抽龋由于这两种模型都是关系分类模型,没有识别重叠实体关系的能力,因此本文将作战文书数据集中的非重叠实体关系句作为训练和测试集。在非重叠实体关系句....
本文编号:3947858
本文链接:https://www.wllwen.com/kejilunwen/jingguansheji/3947858.html