基于深度学习的生物医学实体关系抽取算法研究
发布时间:2021-08-20 14:53
近年来,随着生物医学技术的进步,生物医学领域产生了大量的研究成果,该领域文献呈急剧增长趋势。截止目前,医学文献搜索引擎PubMed引文已经超过三千万,这些文献中蕴含着丰富的生物医学知识。面对如此海量的文献,科研人员通过人工阅读的方式获取有用信息、了解生物医学领域最新研究进展越来越困难。通过文本挖掘从海量文献中自动挖掘出知识是解决这一困境的可行办法,受到了越来越多研究人员的关注。实体关系抽取技术是文本挖掘领域的关键技术。生物医学文献中存在许多命名实体,这些实体包括蛋白质、药物和疾病等类型。这些命名实体之间存在许多关系例如蛋白质和蛋白质之间的交互关系、药物和疾病之间的治疗关系。通过实体关系抽取技术将这些实体关系从文献中挖掘出来对生物学家进行系统生物学研究有重要意义。当前该技术主要有三类方法:共现法、模板匹配方法和机器学习方法。相较于共现方法的低精确率和模板匹配方法的低召回率,机器学习方法由于出色的性能受到研究人员的广泛关注。基于机器学习的关系抽取方法可分为:基于特征工程的方法、基于核函数的方法和基于深度学习的方法。基于特征工程和基于核函数的方法比较依赖于特征设计,因此,近期的研究热点是使用...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
986年-2010年PubMed引文数量变化[2]
司吞岢隽艘恢只?谟锟楹痛市缘惹巢阌镅匝?畔⒌暮撕?齕57]。单独一个核函数通常只从一个角度建模句子,可以结合多个核函数来对句子充分建模。Miwa等人通过多核学习方法(multiplekernellearning)结合了多种关系抽取核函数,在蛋白质-蛋白质交互关系抽取任务上取得了极好的性能[58]。基于核函数的方法严重依赖于其他自然语言处理工具,这些工具产生的错误通常会造成其他模型的错误累积。分类器在利用核函数时,通常会构造一个核矩阵。当训练数据比较大时,相应的核矩阵也比较大,此时基于核方法的模型训练变得不那么可行。图1.2依存句法解析结果示例[59]将深度学习算法应用于生物医学关系抽取也是近期的研究热点。由于生物医学关系抽取语料规模普遍比较小,用语跟通用领域语料并不完全一致,因此设计深度神经网络时需要考虑生物医学领域的特点。深度神经网络对数据的需求量大,将句法结构信息引入神经网络可以提供一定的先验知识,减少对数据的需求。实体对在句子间的最短依存路径通常被认为最可能表达实体间关系,这个路径上的词可以看做一个简化的句子。例如:句子“Acanthamoebaprofilinaffectsthemechanicalpropertiesofnon-filamentousactin.”的依存句法解析结果如图1.2所示。在这个句子中profilin和actin分别为两个蛋白质实体。这两个词的最短依存路径为图中标红的连接线。可以看出最短依存路径“profilinaffectspropertiesactin”比原始句子短,也更容易理解。因此,最短依存路径被广泛用于基于深度学习的生物医学关系抽取模型中[59–62]。Yadav等人认为实体间的最短依存路径上的词序列比整个句子对抽取医学关系更有用,因此提出了一个结合最短依存路径和基于Attention的LongShortTerm-Memory(LSTM)的关系抽取模型Att-sdpLSTM[60]。这个?
第2章相关理论介绍10第2章相关理论介绍2.1生物医学实体关系抽取2.1.1任务介绍生物医学实体关系抽取的任务目标是将给定句子中描述的生物医学实体间关系给抽取出来。在进行该任务前首先需要把句子中出现的生物医学实体给找出来。图2.1所示的实例共标注有三个蛋白质实体,它们是LEC、CCR1和CCR8。图2.2所示的实例共标注有三个药物实体,它们分别是Metopirone、acetaminophen和acetaminophen。医学关系抽取语料都会对句子中的领域命名实体给标注出来,当前大部分工作都假定实体是预先给定,因此本文也遵循这一做法。图2.1关系抽取实例1图2.2关系抽取实例2知道句子中命名实体后,需要通过某种方法判断实体间是否存在关系,这一步叫做实体关系检测。如图2.1所示,该句子描述了LEC蛋白质和CCR1蛋白质之间的关系,但是并没有描述CCR1和CCR8之间的关系。在确定实体间存在关
【参考文献】:
期刊论文
[1]实体关系自动抽取[J]. 车万翔,刘挺,李生. 中文信息学报. 2005(02)
本文编号:3353703
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
986年-2010年PubMed引文数量变化[2]
司吞岢隽艘恢只?谟锟楹痛市缘惹巢阌镅匝?畔⒌暮撕?齕57]。单独一个核函数通常只从一个角度建模句子,可以结合多个核函数来对句子充分建模。Miwa等人通过多核学习方法(multiplekernellearning)结合了多种关系抽取核函数,在蛋白质-蛋白质交互关系抽取任务上取得了极好的性能[58]。基于核函数的方法严重依赖于其他自然语言处理工具,这些工具产生的错误通常会造成其他模型的错误累积。分类器在利用核函数时,通常会构造一个核矩阵。当训练数据比较大时,相应的核矩阵也比较大,此时基于核方法的模型训练变得不那么可行。图1.2依存句法解析结果示例[59]将深度学习算法应用于生物医学关系抽取也是近期的研究热点。由于生物医学关系抽取语料规模普遍比较小,用语跟通用领域语料并不完全一致,因此设计深度神经网络时需要考虑生物医学领域的特点。深度神经网络对数据的需求量大,将句法结构信息引入神经网络可以提供一定的先验知识,减少对数据的需求。实体对在句子间的最短依存路径通常被认为最可能表达实体间关系,这个路径上的词可以看做一个简化的句子。例如:句子“Acanthamoebaprofilinaffectsthemechanicalpropertiesofnon-filamentousactin.”的依存句法解析结果如图1.2所示。在这个句子中profilin和actin分别为两个蛋白质实体。这两个词的最短依存路径为图中标红的连接线。可以看出最短依存路径“profilinaffectspropertiesactin”比原始句子短,也更容易理解。因此,最短依存路径被广泛用于基于深度学习的生物医学关系抽取模型中[59–62]。Yadav等人认为实体间的最短依存路径上的词序列比整个句子对抽取医学关系更有用,因此提出了一个结合最短依存路径和基于Attention的LongShortTerm-Memory(LSTM)的关系抽取模型Att-sdpLSTM[60]。这个?
第2章相关理论介绍10第2章相关理论介绍2.1生物医学实体关系抽取2.1.1任务介绍生物医学实体关系抽取的任务目标是将给定句子中描述的生物医学实体间关系给抽取出来。在进行该任务前首先需要把句子中出现的生物医学实体给找出来。图2.1所示的实例共标注有三个蛋白质实体,它们是LEC、CCR1和CCR8。图2.2所示的实例共标注有三个药物实体,它们分别是Metopirone、acetaminophen和acetaminophen。医学关系抽取语料都会对句子中的领域命名实体给标注出来,当前大部分工作都假定实体是预先给定,因此本文也遵循这一做法。图2.1关系抽取实例1图2.2关系抽取实例2知道句子中命名实体后,需要通过某种方法判断实体间是否存在关系,这一步叫做实体关系检测。如图2.1所示,该句子描述了LEC蛋白质和CCR1蛋白质之间的关系,但是并没有描述CCR1和CCR8之间的关系。在确定实体间存在关
【参考文献】:
期刊论文
[1]实体关系自动抽取[J]. 车万翔,刘挺,李生. 中文信息学报. 2005(02)
本文编号:3353703
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3353703.html
最近更新
教材专著