基于文献挖掘的生物实体关系提取研究及应用
发布时间:2021-04-01 02:00
在生命机体中生物实体(如化合物、蛋白质等)之间时刻发生各种相互作用,研究生物实体的作用关系对理解生命机制至关重要。随着生物医学文献快速增长,可以利用文献挖掘的方法高效地提取出生物实体关系,进而建立结构化的生物数据库,这对于生物医学基础研究和药物研发等领域具有广泛的应用价值。据我们所知,以往基于机器学习的系统提取生物实体关系需要耗费精力设计特征,而且较难刻画词语之间的依赖信息;基于深度学习的系统大多忽略了生物实体关系具有层次的特点,未建立关系之间的联系。而且这些系统在特定数据集上训练,迁移到其他数据集时表现不佳,导致难以提取多种生物实体关系。另外,大多生物实体关系数据库依靠手工建立,该方法非常耗费资源且难以跟上出版物的速度。为此本文设计一种普适性强的且能提取不同层次生物实体关系的深度学习模型,并利用模型挖掘海量文献中的生物实体关系,建立结构化的数据库供研究者使用。本文主要工作和贡献如下:1.生物实体层次化关系提取方法设计本文提出基于多通道卷积神经网络模型(MCCNN)用于提取多种生物实体关系。此模型利用卷积操作将句子划分成多个短语并学习其语义,然后从短语中捕获到表达关系的底层关系词,最后...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
图1.3?BioStars网站中的问答示例??
第2章问题定义及相关知识??形式上具有差别,而它们与第三个句子的底层关系在生物学意义上具有差别,但??同时也具有一定的联系。所以只提取出生物实体间的底层关系,会导致关系种类??过多,使得具有联系的关系也孤立地存在,这样不利于发现关系之间的联系。采??用关系分类的方法认为通过专家对生物实体之间的关系进行概括,预定义一些??抽象的高层关系,然后将生物实体关系提取任务转变成分类问题[42,43』。如图2.1,??三个句子中的实体关系都可以抽象为“INHIBITOR?(抑制)”这一高层关系中。??目前深度学习方法主要将关系提取转化为关系分类任务,通过设计模型预测实??体间的关系类别。使用关系分类主要提取出实体之间的高层关系,而忽略了底层??关系,当研宄者研宄生物实体具体的作用类型时,则不能满足研宄者的需求。??本文所研宄的生物实体关系提取的目标是同时提取出实体间的底层关系??和高层关系,然后将层次化的关系保存到数据库中供用户使用。如图2.2描述??化合物与蛋白质关系的句子?“We?conclude?that?erg3?can?be?blocked?by?sertindole??and?pimozide.”中包含三个实体,通过两两组合可形成三个实体对<erg3,sertin-??dole>,<erg3,?pimozide〉和〈sertindole,pimozide〉。其中前两个实体对的关系由??“be?blocked?by”描述,而第三个实体对不具有关系,所以在提取时我们首先识别??出前两个实体对的底层关系“block”,然后再把底层关系归类到高层关系“IN???HIBITOR,,中,对于不具有关系的实体对,在预测时我们把这些实体关
/?\?/?\?/?\??NNP?NNPS?NP?PP?DT?NN??/\?/\??DTNNIN?NP??\??NNP??I??American?Airlines?a?unit?of?AMR?immediately?matched?the?move?spokesman?Tim?Wagner?said??Phrase?label?paths??PTP?=?[NP,?S,?NP]??PTPH?=?[NP:Airlines,?S:matched,?NP:Wagner]??图2.3句法解析方法示例??基于句法分析的方法。该方法是通过将句子进行分块,然后提取出句子的主??干,再通过对句子主干中的词进行匹配,得到句子中蕴含的实体关系。句法分析??工具常见的有NLTK程序库[49】,StanfordCoreNLP工具_等,这些句法分析器??18??
【参考文献】:
期刊论文
[1]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
本文编号:3112479
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
图1.3?BioStars网站中的问答示例??
第2章问题定义及相关知识??形式上具有差别,而它们与第三个句子的底层关系在生物学意义上具有差别,但??同时也具有一定的联系。所以只提取出生物实体间的底层关系,会导致关系种类??过多,使得具有联系的关系也孤立地存在,这样不利于发现关系之间的联系。采??用关系分类的方法认为通过专家对生物实体之间的关系进行概括,预定义一些??抽象的高层关系,然后将生物实体关系提取任务转变成分类问题[42,43』。如图2.1,??三个句子中的实体关系都可以抽象为“INHIBITOR?(抑制)”这一高层关系中。??目前深度学习方法主要将关系提取转化为关系分类任务,通过设计模型预测实??体间的关系类别。使用关系分类主要提取出实体之间的高层关系,而忽略了底层??关系,当研宄者研宄生物实体具体的作用类型时,则不能满足研宄者的需求。??本文所研宄的生物实体关系提取的目标是同时提取出实体间的底层关系??和高层关系,然后将层次化的关系保存到数据库中供用户使用。如图2.2描述??化合物与蛋白质关系的句子?“We?conclude?that?erg3?can?be?blocked?by?sertindole??and?pimozide.”中包含三个实体,通过两两组合可形成三个实体对<erg3,sertin-??dole>,<erg3,?pimozide〉和〈sertindole,pimozide〉。其中前两个实体对的关系由??“be?blocked?by”描述,而第三个实体对不具有关系,所以在提取时我们首先识别??出前两个实体对的底层关系“block”,然后再把底层关系归类到高层关系“IN???HIBITOR,,中,对于不具有关系的实体对,在预测时我们把这些实体关
/?\?/?\?/?\??NNP?NNPS?NP?PP?DT?NN??/\?/\??DTNNIN?NP??\??NNP??I??American?Airlines?a?unit?of?AMR?immediately?matched?the?move?spokesman?Tim?Wagner?said??Phrase?label?paths??PTP?=?[NP,?S,?NP]??PTPH?=?[NP:Airlines,?S:matched,?NP:Wagner]??图2.3句法解析方法示例??基于句法分析的方法。该方法是通过将句子进行分块,然后提取出句子的主??干,再通过对句子主干中的词进行匹配,得到句子中蕴含的实体关系。句法分析??工具常见的有NLTK程序库[49】,StanfordCoreNLP工具_等,这些句法分析器??18??
【参考文献】:
期刊论文
[1]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
本文编号:3112479
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3112479.html