基于记忆网络的命名实体识别研究

发布时间:2021-01-30 16:22
  神经网络凭借优异的性能在很多领域上得到了研究和应用,但现有的神经网络模型存在理论缺陷,无法有效把握知识之间的结构化联系,也不具有产生结构化行为的能力,且可解释性差。本课题对基于记忆网络的命名实体识别进行研究并推出命名实体神经推理机框架,在命名实体识别领域对如何在深度学习结构中支持关系推理和组合泛化,从而进行更复杂、可解释和更灵活的自动化推理模式做出尝试。本课题研究在序列任务上引入记忆网络模块对实体进行存储和整理,并对实体关系进行人工设计的建模,在此基础上利用推理模型实现不同局部决策间的联系和借鉴,采用多轮解码构建深层结构,将实体上的推理信息逐层递进以学习到因果关系,从而在神经网络的框架内完成对人类阅读理解过程的模拟,充分理解实体并在文本序列的全局上保持实体的一致性。本课题研究的重点主要包括以下三个方面:1)在序列模型中引入记忆网络模块,并通过对神经网络运算过程的分析得到实体的表示,对实体信息进行有效存储;2)结合先验知识,以可人工设计的形式将抽取出的实体进行关系建模,促使神经网络通过简单的实体关系学习到整体复杂的因果关系;3)通过引入符号化操作和推理模型,以端到端的形式,在神经网络的框... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于记忆网络的命名实体识别研究


图2-4用于序列标注的CNN模型结构图??CNN用于命名实体识别等序列标注任务时通过增加层数来增加对上文的掌??

序列,序列,模型结构,都会


宽度为词向量的大小进行一维滑动,保持不破坏词语内部的信息,即可利用CNN??模型对语序信息进行掌握。??图2-4用于序列标注的CNN模型结构图??CNN用于命名实体识别等序列标注任务时通过增加层数来增加对上文的掌??握能力,而由于卷积核的大小固定,通常需要较多层数才可以有效的掌握上下文,??参数的增加同时又会导致过拟合现象的发生。如图2-4所示,一个卷积核大小为??3,层数为3层的CNN结构仅掌握7个字的信息。在此基础上所发展出的Dilated-??CNN通过逐层对卷积核进行“膨胀”而获得更强的上下文信息掌握能力。如图??2-5所示,同样为卷积核大小为3,层数为3层的结构,可以掌握15个字的信息。??O?O?O?G?C?OOJ^QO?O?O?O??〇?〇?o^oc?;?〇??@000000000000?0?0??图2-5用于序列标注的Dilated-CNN模型结构图[8】??然而对序列标注任务来讲,整个句子的每个字都有可能都会对当前需要标注??的字做出影响,CNN结构仍然具有天然的劣势而很少用于NER。但同时CNN也??具有运算速度快的优势,所以在不需要长跨度信息依赖的场景常常需要CNN进??行编码

循环神经网络,模型结构


?输出层??图2-6循环神经网络模型结构图??如图2-6所示,RNN的运算过程非常简单,在t时刻,对于输入xt,隐藏层??的隐含状态&为:??ht?=?(p{Vxt?+?Wht^?+?b)?(2-6)??其中f/,州为权值参数,6为偏置,0为激活函数,该时刻的输出为:??ot?=?Vht?+?c?(2?—?7)??其中F为权值参数,c为偏置,最终模型的预测输出&为:??yt?=?〇"(〇t)?(2-8)??其中C7为激活函数。可以看出RNN模型通过对隐含层的循环将整个序列信??息进行计算,但在逐步的循环运算中,梯度也随着时间序列相乘,在训练时会导??致梯度消失(GradientVanish)的问题,所以在实际任务中,更多地采用RNN的??改进变种模型,LSTM模型便是其中最广泛应用的一种。??梯度消失问题会让梯度无法有效的传导到距离较远的位置,从而导致模型对??长距离的信息无法很好的掌握,LSTM引入门控机制,利用不同的门来控制信息??的传导和接收


本文编号:3009209

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3009209.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0c68f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com