基于弱监督和注意机制神经网络的生物实体关系抽取研究
发布时间:2020-05-30 08:47
【摘要】:关系抽取是自然语言处理(Nature Language Processing,NLP)任务的一个重要分支,关系抽取任务的主要内容是获取语料中目标实体间的关系信息,其实是一个多分类的过程。关系抽取在“知识图谱构建”、“问答系统”等任务中都有很广泛的应用。关系抽取任务早期使用“条件随机场”等传统方法比较多,但面对日益复杂的数据结构和海量的待处理数据,传统方法逐渐无法达到期望的效果。近年来,随着深度学习技术的发展,使用卷积神经网络、循环神经网络等进行关系抽取任务可以获取更多的语料信息,抽取结果也更加准确。与此同时,关系抽取在生物医学实体中的应用也越来越广泛。生物知识库的构建、医学数据的整理都离不开关系抽取。在关系抽取任务中,存在着处理的过程中对目标词的集中度不够,对词的语义信息缺乏利用等问题。同时鉴于生物医学实体的特殊性,需要对网络模型进行针对性的调整。本文设计了两个关系抽取模型:(1)针对长文本上下文信息容易丢失的问题和语料中不同句子以及句中不同词对实体关系抽取结果影响不同的情况,提出了多重注意机制门控循环单元模型(Multiple Attention GRU,MAGRU)。模型以双向长短期记忆网络(Long Short-Term Memory,LSTM)的变型门控循环单元(Gated Recurrent Unit,GRU)为基础,并在此基础上分别在对词和句子进行处理的时候增加注意机制,形成多重注意机制GRU模型。同时考虑到生物医学文本的特殊性,通过调整模型的注意机制来适应生物医学实体关系抽取的要求。使用模型分别在传统数据集和生物医学数据集上与现有效果较好的方法进行对比实验,实验结果表明,MAGRU模型比现有模型F值有至少1%的优势。(2)针对关系抽取任务对语料中的语义信息利用不足,尤其是生物医学文本中语义信息对关系抽取效果影响更大的情况,本文在多重注意机制模型(MAGRU)的基础上引入词的命名体信息和词性信息等其他语义信息作为输入数据的补充,同时在生物医学文本关系抽取实验中增加具有生物医学背景的语义信息,并结合注意机制进行调整。本文使用模型分别在传统数据集和生物医学数据集上进行与现有效果较好的方法以及无语义信息的MAGRU模型进行对比实验,实验结果表明,引入语义信息的MAGRU模型比其他模型在F值上有3%左右的提升。
【图文】:
2.1生物医学实体关系抽取逡逑生物医学实体关系抽取与普通文本关系抽取在任务本质上是相似的,都是通逡逑过对语料句子进行处理,,以获取句中某些特定实体之间的语义关系。关系抽取任务逡逑也可以看作是一个多分类的过程,即通过分析句子信息,判断目标词对之间的关系逡逑是否属于己知的某种关系类别。根据任务要求的不同,关系抽取可以被看作二分类逡逑和多分类两种。生物医学实体关系抽取中常见的任务有蛋白质间关系抽取,药物间逡逑关系抽取和基因间关系抽取等。其中蛋白质关系抽取任务中AIMed[41]数据集就是逡逑仅含有二元关系的数据集,目标类别仅有“有关”和“无关”两种,其对应的任务逡逑可以看作是二分类任务。而药物关系抽取使用的DDIExtmcti0n2013数据集则含有逡逑多种关系分类,包括“effect”、“advice”、“mechanism”等,则在该数据集上进行逡逑的关系抽取任务可以看作是多分类任务。DDIExtraction邋2013#!数据集及标注示例逡逑如图2-1所示:逡逑-〈sentence邋id="DDI-DrugBank.dO,s6”邋text="Patients邋taking邋Acamprosate邋concomitantly邋with逡逑
逦pre/uW逦=逦g^>°0逦(2-13)逡逑四种激活函数的函数图像如图2-3所示:逡逑0.8邋/邋n邋c邋/逡逑7逦___逦/逡逑a)邋Sigmoid函数图像逦b)邋Tanh函数图像逡逑a)邋Sigmoid邋function邋image逦b)邋Tanh邋function邋image逡逑10]逦y逦l0i逦y逡逑:/邋jZ逡逑逦^逡逑-10逦-5逦0逦5逦10逦Z逦-4J逡逑c)邋Relu函数图像逦d)邋PRelu函数图像逡逑c)邋Relu邋function邋image逦d)邋PRelu邋function邋image逡逑图2-3激活函数图像逡逑Figure邋2-3邋Activation邋function邋image邋image逡逑循环神经网络中,在隐藏层中一般使用Tanh作为激活函数。之所以不选逡逑Sigmoid函数,是因为Sigmoid函数导数取值范围小于1,在循环神经网络中有很逡逑多乘法计算,导数小于1的损失函数在计算中梯度会逐渐趋近于0,造成梯度消失逡逑13逡逑
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP183
本文编号:2687893
【图文】:
2.1生物医学实体关系抽取逡逑生物医学实体关系抽取与普通文本关系抽取在任务本质上是相似的,都是通逡逑过对语料句子进行处理,,以获取句中某些特定实体之间的语义关系。关系抽取任务逡逑也可以看作是一个多分类的过程,即通过分析句子信息,判断目标词对之间的关系逡逑是否属于己知的某种关系类别。根据任务要求的不同,关系抽取可以被看作二分类逡逑和多分类两种。生物医学实体关系抽取中常见的任务有蛋白质间关系抽取,药物间逡逑关系抽取和基因间关系抽取等。其中蛋白质关系抽取任务中AIMed[41]数据集就是逡逑仅含有二元关系的数据集,目标类别仅有“有关”和“无关”两种,其对应的任务逡逑可以看作是二分类任务。而药物关系抽取使用的DDIExtmcti0n2013数据集则含有逡逑多种关系分类,包括“effect”、“advice”、“mechanism”等,则在该数据集上进行逡逑的关系抽取任务可以看作是多分类任务。DDIExtraction邋2013#!数据集及标注示例逡逑如图2-1所示:逡逑-〈sentence邋id="DDI-DrugBank.dO,s6”邋text="Patients邋taking邋Acamprosate邋concomitantly邋with逡逑
逦pre/uW逦=逦g^>°0逦(2-13)逡逑四种激活函数的函数图像如图2-3所示:逡逑0.8邋/邋n邋c邋/逡逑7逦___逦/逡逑a)邋Sigmoid函数图像逦b)邋Tanh函数图像逡逑a)邋Sigmoid邋function邋image逦b)邋Tanh邋function邋image逡逑10]逦y逦l0i逦y逡逑:/邋jZ逡逑逦^逡逑-10逦-5逦0逦5逦10逦Z逦-4J逡逑c)邋Relu函数图像逦d)邋PRelu函数图像逡逑c)邋Relu邋function邋image逦d)邋PRelu邋function邋image逡逑图2-3激活函数图像逡逑Figure邋2-3邋Activation邋function邋image邋image逡逑循环神经网络中,在隐藏层中一般使用Tanh作为激活函数。之所以不选逡逑Sigmoid函数,是因为Sigmoid函数导数取值范围小于1,在循环神经网络中有很逡逑多乘法计算,导数小于1的损失函数在计算中梯度会逐渐趋近于0,造成梯度消失逡逑13逡逑
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP183
【参考文献】
相关期刊论文 前1条
1 李丽双;刘洋;黄德根;;基于组合核的蛋白质交互关系抽取[J];中文信息学报;2013年01期
本文编号:2687893
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2687893.html