生物医学文献中的药物名抽取方法研究

发布时间：2020-02-26 05:17

【摘要】：随着信息技术的快速发展,越来越多的生物医学研究成果在互联网上发布,如科学文献和专利等文本数据的规模正在以指数级的速度快速增长。这些数据以非结构化形式存储,其中包含了很多与化合物和药品相关的知识,例如化合物和药品的靶向目标和结合关系、新陈代谢、酶反映以及潜在的副作用和治疗用途等等。如何获取并利用这些蕴含在文本中的知识对相关研究和应用有重大意义,首先需要解决的问题是如何高效地完成海量非结构化文本数据中的药物名(包括化合物和药品)抽取工作。在此背景下,本课题主要对解决生物医学文献中药物名抽取问题的方法做了相关研究。本课题的研究工作主要包括以下三个方面:第一,针对药物名实体的特点设计了一个丰富有效的特征集合,使用条件随机场和结构化支持向量机,实现了基于领域特征的药物名抽取方法。在对化合物和药品实体的特点深入分析的基础上,我们通过对比实验选取了一个有效的特征集,不但有基本的领域特征,还包括词表示特征。最终,在Bio Creative V CEMP评测任务的数据集上,基于条件随机场的系统和基于结构化支持向量机的系统分别取得了0.8704和0.8761的F1值。第二,研究使用深度学习解决药物名抽取问题的方法。传统的机器学习算法来解决命名实体抽取问题,通常系统的性能与特征的好坏有很大关系,深度学习作为一种能够自动学习特征的机器学习方法,对很多问题更具有适用性。本课题利用循环神经网络的时序化结构来解决药物名抽取问题,最终采用循环神经网络和条件随机场结合的方法,系统F1值达到0.8876,优于常用的条件随机场算法和标准的循环神经网络方法。第三,在领域特征方法和深度学习方法的基础上,采用层叠泛化的集成学习方法对其进行融合,实现了基于层叠泛化的药物名抽取方法。本文使用领域特征方法和深度学习方法构造初级学习器,通过对他们抽取结果的分析,设计了一套表征他们之间差异性和一致性的特征集,使用线性核支持向量机方法构建元学习器,实现对初级学习器的集成,最终基于层叠泛化方法的F1值达到0.8906。本文研究并实现了解决生物医学文献中药物名抽取问题的方法。实验结果表明,本论文中的方法能够有效地从非结构化文本数据抽取出药物名等信息。
【图文】：

文本数据,专利

专利文本数据样例

科学文献,专利,数据库文献,制表符

图 5-2 科学文献文本数据样例专利摘要数据和科学文献摘要数据是以 UTF-8 格式编码的纯文本数据他们以制表符分隔成三部分：1）文档编号（PubMed 数据库文献 ID 或专利 IP编码）；2）文献或专利的标题 3）文献或专利的摘要。图中高亮的部分也就文本中出现的药物名，以图 5-1 中的专利文本为例，，标注数据提供了药物名
【学位授予单位】：哈尔滨工业大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP391.1

【参考文献】