面向海量生物医学文献的实体关系提取方法及其应用研究
发布时间:2021-03-11 23:28
生物医学文献是生物医药大数据的一类重要来源,其中包含了大量有价值的信息。但这些信息多以非结构化文本的形式存在,加之文献数目以千万计,因此,需要信息的高效获取和利用需要先进、高效的计算机方法。基于自然语言处理(NLP)的文本挖掘技术,可以识别海量生物医学文献中的基因、药物、疾病和变异等关键的生物医学概念(命名实体识别,NER),并可在此基础上挖掘的概念实体之间的关系(RE)。已有相关研究表明,生物医学文献具有其独特的语言特点且很多情况下依赖于复杂的领域背景知识,因此生物医学文献挖掘不能直接照搬通用NLP的方法和工具,需要进行专门的研究。生物医学文献的命名实体识别已有大量相关研究和软件工具,目前已可涵盖大部分关键的生物医学概念;但针对实体间关系的提取,则是近两年才成为研究的热点。实体间关系提取需要进行深度的语义和语法分析,流程较为复杂,当前的主流方法准确率不能令人满意。此外,生物医学文献的数量庞大,当前最全的生物医学文献库PubMed包含超过两千万篇摘要和百万篇全文,这样大的数据量,对计算能力提出了严峻的挑战。因此,如何设计与实现识别性能好、计算效率高的关系提取方法是本课题研究的主要科学问...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
生物医药文献挖掘流水线
本文组织结构
例句2-1的依存关系分析
本文编号:3077286
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
生物医药文献挖掘流水线
本文组织结构
例句2-1的依存关系分析
本文编号:3077286
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3077286.html