基于XLNet与字词融合编码的中文命名实体识别研究

发布时间:2021-04-18 11:40
  作为自然语言处理领域的子任务之一,命名实体识别已经成为人工智能背景下的热门研究对象,是信息检索、机器翻译、智能问答等诸多应用领域研究中的核心问题。中文命名实体识别较英文命名实体识别相对困难,原因在于中文的最小语言元素是字,并且词与词之间没有明显的符号界限。为了进一步提高中文命名实体的识别效率,本文提出了一种基于XLNet模型与字词融合编码的中文命名实体识别方法。首先,本文的方法将中文命名实体识别作为XLNet模型的一个新的应用场景。基于XLNet的中文命名实体识别方法继承了Transformer模型的优势,克服了传统循环神经网络在自然语言处理问题中并行性差的局限。此外,基于XLNet的命名实体识别引入了预训练模型,使语言模型在大规模语料库的预训练之下能够捕获大量文本的先验知识。预训练后的模型再经过下游任务的参数微调即可得出最终的目标模型。同时,本文的另一个创新点是在词嵌入阶段对输入序列进行分词与分字的融合编码。这使模型不仅克服了中文文本分词困难的局限,而且能够兼顾对输入文本中词与词之间关联性的关注。此外,为了将本文所提出的理论与实践相结合,本文的工作还包含了一个中文命名实体识别演示系统... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:60 页

【学位级别】:硕士

【部分图文】:

基于XLNet与字词融合编码的中文命名实体识别研究


Encoder-Decoder基本框架

框架图,注意力,机制,框架


第2章基于注意力机制的命名实体识别模型11我们可以发现,无论生成第几个输出,经过Encoder编码而成的语义向量C的长度是固定的,并且语义向量C是编码端和解码端的唯一联系,针对注意力机制来说,我们可以称传统的Encoder-Decoder框架是不具备“注意力能力”的,因为整个句子的语义被压缩为一个语义向量,它无法体现相对较前的词对当前单词的影响。同时,语义向量C没有表达整个输入序列信息的能力并且如果输入序列较长,越往前的语义信息在语义向量C中越容易被覆盖。以上所说的传统Encoder-Decoder框架的局限就促使了注意力机制的引进。Attention被引进的目的就是处理序列过长和信息丢失的问题,Encoder-Decoder框架在注意力机制下的原理如图2.2所示:图2.2Encoder-Decoder在注意力机制下的框架由图可知,注意力机制的引入使得Encoder部分的输出不再是一个单一的语义向量C,此时产生的是几个序列的集合,这样一来,每一个输出均可结合输入部分丰富的语义信息。2.1.2注意力机制的原理谈到注意力机制的原理,就不得不介绍几个注意力模型中的向量,即Q,K,V。Q指的是Query,如果用机器翻译作为模型的应用载体,Q是在Decoder一端的,可以理解为目标翻译词。K指的是Key,即源端的每一个词,Q会与源端的每一个K进行相似度的比较。V指的是Value,即源端的输出的上下文向量,Value

原理图,注意力,机制,原理图


第2章基于注意力机制的命名实体识别模型12与Key在自然语言处理领域下一般取等值。以下将以注意力机制的整体流程图作为载体,详细介绍注意力机制的原理。图2.3展示了注意力机制的内部工作原理:图2.3注意力机制工作原理图如图所示,注意力机制的第一阶段的工作可以概括为计算Query和Key的相似度。计算相似度的方法有很多,例如向量点积、Cosine相似度等等。本文用的F(Q,K)是相似度计算函数。计算所得的相似度则作为Encoder端词的初始权重。在第二阶段,模型将第一阶段输出的权重利用Softmax函数做归一化处理,得到各词归一化后的权重ai,i代表词在文本中的序号。这里Softmax的作用是将权重进行一次得分转换,一方面利用Softmax函数的内在机制突出文本中重要元素的权重,另一方面将之前计算而得的权重做了一次整理,使各个词的权重符合概率分布模型,更利于直观表达不同词受到的关注度不同。第三阶段是Attention机制的核心步骤,即计算得出Attention的值。此过程就是将Value与权重ai进行加权求和,最终得出针对Query的Attention值,目前的绝大多数注意力机制算法均符合以上介绍的三个阶段的运算过程。

【参考文献】:
期刊论文
[1]自然语言处理技术中的中文分词研究[J]. 陈开昌.  信息与电脑(理论版). 2016(19)
[2]六杆四面体单元组成球面网壳的节点构造及装配化施工全过程分析[J]. 董石麟,白光波,陈伟刚,郑晓清.  空间结构. 2015(02)
[3]先秦古汉语典籍中的人名自动识别研究[J]. 汤亚芬.  现代图书情报技术. 2013(Z1)
[4]命名实体识别研究进展综述[J]. 孙镇,王惠临.  现代图书情报技术. 2010(06)
[5]基于篇章的中文地名识别研究[J]. 唐旭日,陈小荷,许超,李斌.  中文信息学报. 2010(02)
[6]基于层叠条件随机场的旅游领域命名实体识别[J]. 郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.  中文信息学报. 2009(05)
[7]面向短文本的命名实体识别[J]. 王丹,樊兴华.  计算机应用. 2009(01)
[8]基于支持向量机方法的中文组织机构名的识别[J]. 陈霄,刘慧,陈玉泉.  计算机应用研究. 2008(02)
[9]基于单字提示特征的中文命名实体识别快速算法[J]. 冯元勇,孙乐,李文波,张大鲲.  中文信息学报. 2008(01)
[10]中文分词技术[J]. 李淑英.  科技信息(科学教研). 2007(36)

硕士论文
[1]中文命名实体识别技术研究及检验检疫领域应用[D]. 梁兴政.浙江大学 2019



本文编号:3145410

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3145410.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1796c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com