基于深度学习的化学物蛋白质关系抽取研究与设计
发布时间:2021-10-27 14:53
随着生物医学文献数量的迅速增长,如何从浩如烟海的生物医学文献中快速有效地提取有价值的信息和知识,成为当前亟待解决的问题。化学物蛋白质关系抽取(Chemical Protein Relation Extraction,CPRE)是指从生物医学文献中自动抽取出化学物和蛋白质之间的相互作用关系,如激活、抑制、拮抗和催化作用等,它对生物医学知识图谱的构建、精准医学和新药研发等方面具有重要的意义。本文对生物医学领域化学物蛋白质关系抽取的研究主要包括以下内容:(1)提出了基于最短依存路径和集成学习的化学物蛋白质关系抽取。本文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将它应用于化学物蛋白质关系抽取。在特征上综合考虑了实体间最短依存路径上的词性、位置和依存关系类型等信息。在BioCreative Ⅵ CHEMPROT任务上的实验表明,本文的方法取得了较好的性能,同时,集成学习方法还可以进一步提高了化学物蛋白质关系抽取性能。(2)比较了基于预训练语言模型的化学物蛋白质关系抽取。鉴于以BERT为代表的预训练模型在自然语言处理领域内取得的进步,本文将BERT、BioBERT和XLNet等当...
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图3-3基于注意力机制的双向LSTM模型??由于基于注意力的双向LSTM模型(Att-BiLSTM)被广泛地用于关系抽取,本??文也把它作为化学物蛋白质关系抽取任务的基本模型
第3章基于最短依存路径和注意力机制的关系抽取?基于深度学习的化学物蛋白质关系抽取研究与设计??考虑上述因素,本文集成方法的最终性能取基模型数量为10时的平均法性能值,??即?P/R/F1?值分别为?71.8/65.2/68.1。??72??\?p-投票法??See?/?A^y7?—投票法??趄?/?"/?—-F-投票法??-二:??—?F-平均法??60??1?2?3?4?5?6?7?8?9?10?11?12?13?14?15??模型数量??图3-4不同集成方法和模型数量的抽取性能比较??3.5.5与其他系统的性能比较??表3-8列出了本文实验系统与当前同类型系统的性能比较,由表3-8可以看出:???在LSTM模型上,本文取得了最好的性能,高于基于句子的LSTM模型[191和??Bi-LSTM模型[13],这说明最短依存路径和注意力机制能够有效提升化学物蛋??白质关系抽取性能。???和其它单分类器相比,本文取得了仅次于Bj6nW4n分类器的性能。本文采用实??体间最短依存路径上的词、距离、词性、依存关系类型等特征,而Bj6rne[41]在??句子的词、距离、词性特征的基础上加入实体间最短依存路径、单词到实体依??存路径和事件信息等特征。??在集成模型方面,Peng[13]使用随机森林的方法集成SVM,?LSTM和CNN模型,??Bj6me[41]集成了?5个H值最高的CNN模型,使用置信度平均值法,取模型的平均预??26??
第4章基于预训练语言模型的化学物蛋白质关系抽取?基于深度学习的化学物蛋白质关系抽取研究与设计??4.3基于预训练语言模型的化学物蛋白质关系抽取??本节提出了基于预训练语言模型的化学物蛋白质关系抽取方法,将预训练模型与??化学物蛋白质关系抽取任务相结合,其结构如图4-2所示,包括嵌入层、预训练语言??模型层和分类层。??ACT?DOW?AGO?ANT?SUB?None??Classify?t?1?1??1?1?1??Layer??少?????softmax??^??PLM〇?PLM,?PLM2?PLM3?PLM4?...?PLM6?PLM7??Prc-trained?C3?C)?CD?CD?CD??E〇?Ei?E2?E3?E4?…?E6?E7???HU」」J——i—??Position?_??Embedding?P〇?Pl?P2?P3?Pe??7??Segment??Embedding?Sa?Sa?Sa?Sa?Sa?…?Sa?Sa??Token??Embedding?T[cls]?丁2?T!?T3?T2?…?丁6?T[SEP]??Input??Layer?w?丨?w2?引?w3?e2?…?w6??图4-2基于预训练语言模型的化学物蛋白质关系抽取方法结构??34??
本文编号:3461828
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图3-3基于注意力机制的双向LSTM模型??由于基于注意力的双向LSTM模型(Att-BiLSTM)被广泛地用于关系抽取,本??文也把它作为化学物蛋白质关系抽取任务的基本模型
第3章基于最短依存路径和注意力机制的关系抽取?基于深度学习的化学物蛋白质关系抽取研究与设计??考虑上述因素,本文集成方法的最终性能取基模型数量为10时的平均法性能值,??即?P/R/F1?值分别为?71.8/65.2/68.1。??72??\?p-投票法??See?/?A^y7?—投票法??趄?/?"/?—-F-投票法??-二:??—?F-平均法??60??1?2?3?4?5?6?7?8?9?10?11?12?13?14?15??模型数量??图3-4不同集成方法和模型数量的抽取性能比较??3.5.5与其他系统的性能比较??表3-8列出了本文实验系统与当前同类型系统的性能比较,由表3-8可以看出:???在LSTM模型上,本文取得了最好的性能,高于基于句子的LSTM模型[191和??Bi-LSTM模型[13],这说明最短依存路径和注意力机制能够有效提升化学物蛋??白质关系抽取性能。???和其它单分类器相比,本文取得了仅次于Bj6nW4n分类器的性能。本文采用实??体间最短依存路径上的词、距离、词性、依存关系类型等特征,而Bj6rne[41]在??句子的词、距离、词性特征的基础上加入实体间最短依存路径、单词到实体依??存路径和事件信息等特征。??在集成模型方面,Peng[13]使用随机森林的方法集成SVM,?LSTM和CNN模型,??Bj6me[41]集成了?5个H值最高的CNN模型,使用置信度平均值法,取模型的平均预??26??
第4章基于预训练语言模型的化学物蛋白质关系抽取?基于深度学习的化学物蛋白质关系抽取研究与设计??4.3基于预训练语言模型的化学物蛋白质关系抽取??本节提出了基于预训练语言模型的化学物蛋白质关系抽取方法,将预训练模型与??化学物蛋白质关系抽取任务相结合,其结构如图4-2所示,包括嵌入层、预训练语言??模型层和分类层。??ACT?DOW?AGO?ANT?SUB?None??Classify?t?1?1??1?1?1??Layer??少?????softmax??^??PLM〇?PLM,?PLM2?PLM3?PLM4?...?PLM6?PLM7??Prc-trained?C3?C)?CD?CD?CD??E〇?Ei?E2?E3?E4?…?E6?E7???HU」」J——i—??Position?_??Embedding?P〇?Pl?P2?P3?Pe??7??Segment??Embedding?Sa?Sa?Sa?Sa?Sa?…?Sa?Sa??Token??Embedding?T[cls]?丁2?T!?T3?T2?…?丁6?T[SEP]??Input??Layer?w?丨?w2?引?w3?e2?…?w6??图4-2基于预训练语言模型的化学物蛋白质关系抽取方法结构??34??
本文编号:3461828
本文链接:https://www.wllwen.com/projectlw/swxlw/3461828.html
教材专著