基于BERT-BLSTM-CRF模型的中文命名实体识别研究

发布时间：2020-11-09 14:56

　　命名实体识别(Named Entity Recognition,NER)是自然语言文本数据处理工作中的一项基础且至关重要的环节,其任务为识别出待处理文本中各个代表具体实际意义的实体。NER是问答系统和文本分类等应用的基石,也是事件抽取和关系抽取等高层任务的关键。NER的准确度将直接影响后续工作的效果。识别出文本中地名、人名和机构名等专有名词是中文NER的主要任务。完成NER任务面临的首要困难是传统的识别技术严重依赖于人工特征提取与专业领域知识,因此消耗大量的人力与时间。其次,基于神经网络模型的中文命名实体识别方法在模型训练过程中,字向量表示过程存在向量表征过于单一化的问题,无法很好的处理字的多义性特征。本文针对以上问题处理中文字符级别的命名实体识别工作,主要任务如下:(一)传统的NER方法学习长距离依赖的能力较弱,并且要联合外部知识和大量人工参与来提取和处理特征,针对这一问题,本文引入目前比较受欢迎的深度学习序列标注模型——BLSTM-CRF模型作为基准模型,此模型首先将待识别字符输入双向LSTM模型,获得每个字符相应的标签。这些标签之间具有较强的依赖关系,使用链接在双向LSTM后的CRF层来学习标签之间的依赖关系,最后得到全局最优句子级别的标签序列。基于BLSTM-CRF模型的中文命名实体识别方法经过实验验证,能够有效的提高中文命名实体识别效果。(二)基于神经网络模型的中文命名实体识别方法在模型训练过程中,字向量表示过程存在向量表征过于单一化的问题,无法很好的处理字的多义性特征。针对这一问题提出一种基于BERT-BLSTM-CRF模型的中文命名实体识别方法,该方法首先使用BERT(Bidirectional Encoder Representations from Transformers,BERT)预训练语言模型根据字的上下文信息来丰富字的语义向量,然后将输出的字向量序列输入到BLSTM-CRF模型进行训练。实验结果表明,此方法在中文命名实体识别任务上其正确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法效果显著。
【学位单位】：安庆师范大学
【学位级别】：硕士
【学位年份】：2020
【中图分类】：TP391.1
【部分图文】：

序列,状态转移,示例,状态

隐马尔可夫模型是一种以马尔科夫链为基础的统计模型,主要用来对时序数据进行建模。为状态空间中,从一个状态转换到另一状态的随机过程[41-42]。在隐马尔可夫模型中,状态并不是直观的,但是一些受状态影响的变量是可见的,每个状态对于可能的输出符号,都存在一概率分布,因此,对输出符号序列的统计与计算可以获得一些状态序列的信息。状态转移示例如图2.1所示,在图2.1中,HMM的状态数为3,当前时刻状态值为2,观测值为x,前一时刻状态值为2的条件概率表示为：P(2|2,x)。HMM有三个概率矩阵,分别为初始状态概率矩阵、隐含状态转移概率矩阵和观测状态转移概率矩阵,具体定义如公式(2.5)-(2.10)：

模型图,编码器,模型,思想

近些年在BLSTM-CRF模型提出之前,利用深度学习实现命名实体识别,通常是采用多层自编码神经网络,其核心是通过构造多标签分类器,将NER转为多分类问题。所谓自编码,就是让网络的输出与输入尽可能相等,这一结构属于无监督学习模型。对于简单的三层自编码网络,唯一需要确定的是中间层神经元个数；多层自编码网络采用逐层编码的思想,以解决多层同时训练误差弥散问题,这一思想将整个网络拆分成若干部分,使得每个部分组成一个三层自编码网络,训练完再将它们链接起来。采用该方法实现命名实体识别的模型如图2.2所示。对每层的自编码网络训练时最常采用的方法为梯度下降法。如果设定的阈值大于每层输入和输出的误差时便停止自编码器的训练然后保留编码层,去掉解码层,最后将得到的结果输入到下一个自编码器。

模型图,模型,目标函数