生物事件抽取联合模型研究

发布时间:2020-01-26 09:27
【摘要】:高通量测序技术的应用,越来越多的生物分子实验成果和临床医学的成果以文本的形式发表,使得该领域产生了海量的生物医学文献。这些文献虽然包含有大量的生物医学知识,但是它们都是以无结构的自由文本状态存在,难以为人类所利用。生物文本挖掘研究的目的在于综合运用自然语言处理、生物医疗信息、计算语言、人工智能技术,从生物医学文献中抽取丰富的生物实体之间的语义信息,构建结构化的知识库,供相关领域的人员使用。生物文本挖掘常规任务包括信息检索(Information Retrieval, IR),信息抽取(Information Extraction, IE),知识库构建和知识发现等。信息抽取包括有命名实体识别(Named Entity Recogniztion, NER)和名称实体标准化,以及实体关系抽取。生物事件抽取是生物信息抽取领域最近几年兴起一个研究热点。它是由日本东京大学的Tsujii实验室于2009年发起的一个共享评测任务,其目标是识别文本中与蛋白质实体有关的嵌套事件。在该任务中对生物事件给出具有普遍性且一致性的定义,并且提供了与任务一致的数据集及相关的评估标准。数据集中蛋白质名称已经标注,但是需要识别引起蛋白质动态变化或者状态改变的触发词以及它们之间嵌套的语义关系。由于任务本身的复杂性,事件抽取系统的性能目前为止还达不到应用的要求,因此还有进一步研究的空间。本文重点研究了基于联合模型(Joint model)的生物事件抽取方法,在此之前完成了事件抽取中触发词识别子任务和基于串行模型(Pipelined model)的事件抽取方法的研究。主要研究内容概括如下:(1)基于丰富特征的序列标注模型识别生物事件中的触发词。从生物文献中抽取生物事件对于生物领域的知识挖掘起着重要的作用,而事件触发词的识别性能直接影响到事件抽取性能。在本文中,我们把触发词识别看作一个序列标注问题,利用CRF模型进行预测。在模型中我们利用了丰富的词法特征与结构特征,包括词汇及其上下文特征、短语标记特征、词聚类特征、以及统计的词典特征,构造不同的基于词级CRF模型,用于生物事件触发词的标记。然后针对不同的触发词类型选择对应最优的标记模型,构造了一个混合CRF模型。实验结果在BioNLP-ST 2009语料库取得了60.9%的F-score,跟Baseline系统相比有明显优势。另外,该方法应用在BioCreativeⅣ的ChemistryNer任务评测中,分别在CDI在和CEM子任务中获得了第一和第二的成绩。(2)采用串行策略抽取生物事件。串行事件抽取策略是一类重要的事件抽取方法,因此在研究联合模型之前,我们尝试了用串行方法实现生物事件抽取。主要步骤包括:首先,基于依存分析的结果抽取目标依存序列,并在目标依存序列中获取候选的事件关系对;然后用SVM模型对候选事件关系对分类,分类过程包括两个子步骤:一个是将候选事件对分成9个类别的多分类过程,另一个子步骤是分别将这9个类别进行二分类判别它们是正样本还是负样本;最后用一个后处理步骤将分类后的事件关系对构成事件。在BioNLP-ST2013年的语料评估上,精度值高于所有公开评估的模型,但是总体性能上表现一般。(3)采用基于实体链标记的联合模型抽取生物事件。我们提出了一种简单而有效的联合模型抽取生物事件,同时识别事件的触发词和抽取事件边。在概念上,我们将嵌套的生物事件看作是一棵树,树的叶子节点到根节点的路径是蛋白质实体到最高嵌套层的触发词实体的实体链。由于实体之间的关系是一种语义关系,可以通过依存关系表现。因此我们先抽取包含实体链的依存序列,然后用序列标记模型对抽取的依存序列标记出其中的实体链。标记完成后,我们采用规则对标记结果进行了修正。最后根据标记出来的实体链,构建生物事件。实验结果在BioNLP-ST2013年的语料上获得了47.3%的F-score,与当年的的评测队伍中同样采用联合机器学习模型的Baseline系统相比,有明显的优势。并且对触发词的识别结果单独评估时,在2009和2013年的数据集上分别获得了68.03%和71.33%的F-score。(4)采用基于非精确搜索的结构预测联合模型抽取生物事件。结构预测方法将句子及句子中实体关系看作一个结构,用增量搜索方法联合预测这个结构。实验中采用了感知机算法训练模型,但是由于生物事件抽取任务本身的复杂性,使得算法搜索空间很大,精确的联合推导非常困难,因此在模型训练中采用了Beam Search非精确搜索算法解码。Beam search解码算法和提前更新策略可以降低搜索空间,使得整个结构预测模型成为可行。该模型特点是不仅可以使用局部特征,还可以充分考虑句子的全局特征。在BioNLP-ST数据集的评估中,我们获得了43.8%的F-score。相比前面基于实体链标记的联合模型,在整体性能上没有优势,但是在多论元事件的抽取上却有提高。因此,基于结构预测的联合抽取方法对于复杂生物事件抽取是有效的。
【图文】:

文本挖掘,任务结构,信息检索,相关文档


生物自然语言处理(BioNLP邋)常规任务包括信息检索(Information逡逑Retriev吐化),信息抽取(Information邋Extraction,W'),,问答(Question-answer,邋QA),逡逑知识库构建和知识发现,整个研究架构如图1.1所示。逡逑植fisr]巧巧公。逡逑睛H时哺/逡逑■"气.^逦0逦?逡逑\逡逑^0^邋■■■逦'

本文编号:2573269

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2573269.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a9cc9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com