基于MeSH的生物医学知识图谱构建及其在组学数据分析的应用
发布时间:2021-06-07 20:18
二代测序、生物质谱等高通量实验技术的发展和应用,产生了海量的组学数据(基因组学、转录组学和蛋白质组学等),生物医学研究已不可阻挡的迈入了大数据时代。对这些组学数据的解读,可以帮助人们理解生命活动的基本原理,揭示疾病的发生发展原因。生命组学数据极大地扩展了人类对自身生理和病理的认识,但是生命组学数据的分析却面临着严峻挑战。组学数据分析的首要任务就是从整体上对基因进行注释,了解基因参与的生物学过程和基因的功能,掌握基因与生理、病理过程的关系等。通量化的基因注释对识别基因功能,研究基因的表达调控机制,分析基因产物之间的相互关系具有重要的意义。为了对基因进行注释,人们结合各自研究领域,采用专家方式对文献中的信息进行判读和整理,构建了GOA、KEGG、CTD、OMIM等知识库。人工构建的知识库为组学数据注释分析提供了有效的资源,但仍存在领域知识覆盖不全面和更新不及时等问题。生物医学文献数量大,有限的人工使得知识库只能针对特定生物医学主题领域构建,在症状和体征、行为和行为机制等领域仍缺少相应的注释资源。另外,生物医学文献的快速增长,也给专家方式的知识库更新带来了困难。注释数据库以上的知识覆盖不全面...
【文章来源】:军事科学院北京市
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
生物医学知识图谱示意图
军事科学院硕士学位论文1.2 材料和方法1.2.1 基于 MeSH 构建知识图谱的流程本文采用如图 1.2 所示的流程建立基于 MeSH 的生物医学知识图谱。知识图谱构建所需的关联数据集主要来自 PubMed 数据库和 PubTator 数据库。首先,本文通过 NCBI E-Utilities API 下载 XML 格式的 PubMed 元数据并使用 Python ElemeTree 模块解析得到 MeSH 实体和文献的关联数据集。然后,本文使用 RESTful AP下载PubTator的基因和文献关联数据集并提取包括人类在内的11个物种的基因和文献关联。接下来,本文整合了来自 PubMed 和 PubTator 的关联数据得到基因和MeSH 实体之间的关联数据集。进一步,本文筛选出共现文献数目大于 2 篇的关联并用卡方检验和标准点互信息判断两个实体之间是否相互独立,从而筛选出统计学显著差异的实体关联。为了对知识图谱进行物种间的拓展,本文在 InParanoi网站的 ftp 站点获取并解析了 11 个物种间直系同源基因关系。具体方法如图 1所示。
图 1.3 补充物种间基因注释信息的方法示意图基因信息(Gene A 与 Gene A’)补充物种间(O基因注释信息。词表 MeSHMedical Subject Headings, MeSH)[8]是由ry of Medicine, NLM)编制的权威性主题成为生物信息学领域中一个重要的方法利用。MeSH 分为主题词表、副主题词表词表用规范的医学术语来描述生物医学准化保证每一个实体仅使用一个关键词可以通过副主题词进一步缩小包含主题ries and Subcategories)的建立使 MeSHree Structure),用来表达主题词之间的层按照不同的领域分为 16 个一级类别,每
【参考文献】:
期刊论文
[1]知识图谱研究进展[J]. 漆桂林,高桓,吴天星. 情报工程. 2017(01)
[2]Overview of immunosuppression in liver transplantation[J]. Anjana A Pillai,Josh Levitsky. World Journal of Gastroenterology. 2009(34)
本文编号:3217242
【文章来源】:军事科学院北京市
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
生物医学知识图谱示意图
军事科学院硕士学位论文1.2 材料和方法1.2.1 基于 MeSH 构建知识图谱的流程本文采用如图 1.2 所示的流程建立基于 MeSH 的生物医学知识图谱。知识图谱构建所需的关联数据集主要来自 PubMed 数据库和 PubTator 数据库。首先,本文通过 NCBI E-Utilities API 下载 XML 格式的 PubMed 元数据并使用 Python ElemeTree 模块解析得到 MeSH 实体和文献的关联数据集。然后,本文使用 RESTful AP下载PubTator的基因和文献关联数据集并提取包括人类在内的11个物种的基因和文献关联。接下来,本文整合了来自 PubMed 和 PubTator 的关联数据得到基因和MeSH 实体之间的关联数据集。进一步,本文筛选出共现文献数目大于 2 篇的关联并用卡方检验和标准点互信息判断两个实体之间是否相互独立,从而筛选出统计学显著差异的实体关联。为了对知识图谱进行物种间的拓展,本文在 InParanoi网站的 ftp 站点获取并解析了 11 个物种间直系同源基因关系。具体方法如图 1所示。
图 1.3 补充物种间基因注释信息的方法示意图基因信息(Gene A 与 Gene A’)补充物种间(O基因注释信息。词表 MeSHMedical Subject Headings, MeSH)[8]是由ry of Medicine, NLM)编制的权威性主题成为生物信息学领域中一个重要的方法利用。MeSH 分为主题词表、副主题词表词表用规范的医学术语来描述生物医学准化保证每一个实体仅使用一个关键词可以通过副主题词进一步缩小包含主题ries and Subcategories)的建立使 MeSHree Structure),用来表达主题词之间的层按照不同的领域分为 16 个一级类别,每
【参考文献】:
期刊论文
[1]知识图谱研究进展[J]. 漆桂林,高桓,吴天星. 情报工程. 2017(01)
[2]Overview of immunosuppression in liver transplantation[J]. Anjana A Pillai,Josh Levitsky. World Journal of Gastroenterology. 2009(34)
本文编号:3217242
本文链接:https://www.wllwen.com/yixuelunwen/swyx/3217242.html