当前位置:主页 > 医学论文 > 医卫管理论文 >

基于生物医学文献的知识发现方法研究

发布时间:2020-07-21 21:19
【摘要】: 文献挖掘是一种文本数据自动分析方法,涉及到数据挖掘、文本挖掘和自然语言处理等多个研究领域。作为一种从文献中提取、整合并发现知识的高效工具,能够快速处理大量文献并挖掘得到特定领域的知识。随着相关算法的引入与语料库的完善,文献挖掘的性能与可靠程度不断提高,因而在科学研究中得到越来越广泛的应用。 生物医学研究积累了大量的文献数据,其中记载了大量的不同类型的知识。另一方面,生物信息技术研究的目的是管理并分析生物医学实验得到的海量数据,以及提供预测性或者指导性结论。作为生物信息技术研究的一个新兴方向,文献挖掘技术以生物医学文献数据为分析对象,提取和整合散布于文本数据中的知识,从而实现展示并推理文献中隐含的新知识的目的。本文以PubMed数据为研究对象,开发并整合多种文献挖掘方法,提取蛋白质、疾病和化合物相关的知识,并加以整合后用于新知识的发现。主要研究内容如下: 1)识别文献数据中的实体,并映射到分子生物学数据库。文献中的实体识别是其他工作的基础。识别不同领域不同类型的实体所使用的方法各不相同,因而从生物医学文献中识别基因/蛋白质、疾病和化合物三类常见实体采用了不同的方法。利用基于统计的条件随机场方法,统计学习基因/蛋白质的命名特点与规律,从文献中识别出基因/蛋白质实体。利用基于词典的方法,从文献中提取出MeSH词典所描述的21类三级以下的疾病实体。同样,利用基于词典的方法从文献中提取出各类化合物实体。对于识别得到的基因/蛋白质实体,采用了分级映射方法,分别把实体映射到不同规范化程度的Entrez Gene数据库。按照与完备基因词典、中等基因词典和精简基因词典的匹配程度,把实体分为准确实体、可靠实体、相似实体和未知实体四部分。 2)制定实体关联规则,整合实体之间的关联,得到六类关联实体。文本中识别得到的三类实体之间存在六种关联:蛋白质-蛋白质、疾病-疾病、化合物-化合物、蛋白质-疾病、蛋白质-化合物和疾病-化合物。首先通过共出现频率方法得到存在关联的各类实体。然后对存在共出现实体的句子进行词性标注,进而迭代提取出四类共536个描述实体关联的关联动词列表。以关联动词列表为基础,构建实体关联规则库。文本数据与关联规则库匹配后,得到六类关联实体数据。此外讨论了六类关联实体可能表示的生物医学意义以及相应的处理策略。 3)基于实体关联数据构建相应的实体关联网络,并提供了两种网络分解方案来发现新的知识。以六类实体关联数据为基础,构建了6个简单实体关联网络。整合不同的简单实体关联网络后得到了2个杂合实体关联网络:分子相互作用网络与全关联网络。分析了8个实体关联网络的拓扑性质,并且把网络分解为连通子图、Hub子图和关联子图,从而得到存在间接关联的实体、活跃实体和一组关联实体构成的关联途径等新知识。 4)构建了基于文献挖掘的生物医学知识发现平台的原型系统。平台整合了文献挖掘中所需的第三方工具以及自行开发的工具,提供统一的访问接口和数据格式。该平台能够完成实体识别、实体关联挖掘和实体关联网络构建三类知识发现任务,并且提供与第三方图显示工具兼容的数据格式,满足实体关联网络以及子图的可视化需求。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:R-5
【图文】:

知识发现,文献,文档


2 面向文档的信息获取信息获取(Information Retrieval,IR)是从数据库中搜索并返回符合特定规则的文过程[29]。有两种 IR 系统:基于查询的 IR 和基于文档的 IR。基于查询的 IR 是的信息获取方式,它通过搜索符合特定的术语或者关键字的文档,返回所有符询条件的文档。在基于查询的 IR 系统搜索结果中可能存在无关文档,为了降低得到的无关文档数量,引入了文档相似性的衡量指标,基于文档的 IR 就是利用相似性来寻找更多类似的文档。向量空间模型(Vector Space Model)是衡量文档相的常见模型[30]。在这个模型中,每个文档中出现的单词和短语都被赋予一定的,从而可以把文档表示为单词和短语的加权向量。单词/短语的权重和出现的频erm frequency, 简称 TF)相关,此外,为了避免无意义词汇(如 the,a 等)的干扰,反向文档频率(reverse document frequency,简称 IRF)来归一化权重。通过比较文图 1.2 文献挖掘与知识发现Fig. 1.2 Literature mining and knowledge discovery

名称,基因,规范化处理,处理过程


需要进行如下的规范化处理,图2.2 以基因 2708925 分解为 AF198447 和 60S ribosomal protein L3 两个基因名称为例,描述了数据库中的基因名称处理过程:图 2.2 基因 2708925 的名称处理Fig. 2.2 Name processing of gene 2708925

树型结构


疾病相关的主题词位于 MeSH 中的“C”目录,分散在 23 个子目录中,对应病相关的主题词:C01 细菌感染和真菌病、C02 病毒疾病、C03 寄生虫病、、C05 肌肉骨骼系统疾病、C06 消化系统疾病、C07 口颌疾病、C08 呼吸道C09 耳鼻喉疾病、C10 神经系统疾病、C11 眼疾病、C12 泌尿和男性生殖器C13 女性生殖器疾病和妊娠并发症、C14 心血管系统疾病、C15 血液和淋巴图 2.5 MeSH 的树型结构Fig 2.5 Tree structure of MeSH

【引证文献】

相关硕士学位论文 前2条

1 陈江江;生理组学文献挖掘系统的实现[D];华中科技大学;2009年

2 孔宁;文献学科特征挖掘及分类研究[D];东北林业大学;2012年



本文编号:2764824

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2764824.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fcf4f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com