面向生物医学文本之疾病关系发掘模型及算法研究,医学毕业论文
1 绪论
生物医学研究与二十一世纪生物技术科学的形成和发展密切相关,生物医学领域是关系到提高医疗诊断水平和人类自身健康的重要工程领域。作为最受关注的研究领域之一,生物医学研究领域发表了巨量的研究论文,已经达到年均60万篇以上。生物医学领域的文献记录展现了该领域内的大量成果和实验发现。面对数量如此巨大且快速增长的文献,如何快速有效地获取相关知识,是该领域所面临的挑战。生物医学文本挖掘技术作为生物信息学分支之一,是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。国际上生物医学领域的权威数据库MEDLINE(Medical Literature Analysis andRetrieval System Online)的文献总数目前已超过1800万篇,这些文本中所蕴含的生物医学知识是对海量的生物医学数据进行分析的知识宝库。但是通过关键词在MEDLINE中或者互联网上进行检索,只能从大量文档集合中找到相关的文件列表,这些文本中所蕴含的大量知识并不能直接展现给用户。因此,提供从大规模生物医学文献中自动获取相关知识的有效工具是一项迫在眉睫的任务。生物医学文本挖掘技术通常涉及到信息检索、信息抽取、数据挖掘、文本分类、假设生成以及自动文摘等技术。信息检索用于识别相关文本。信息抽取用于识别实体、关系、事件等信息。数据挖掘则从结构化信息中识别出相互间的关联[1]。文本分类用于将海量的文本按照用户筛选粒度的大小进行快速的分类。假设生成可以从文献中挖掘出实验条件和实验结果,便于生物学家通过生物实验进行验证。自动文摘是计算机自动在大量文献中对用户感兴趣的信息进行摘要,节省研究者阅读的时间,在有限的文摘中展现用户需要的知识。
.........
2 生物医学命名实体识别方法
2.1 引言
生物医学领域文献数量的快速增长促进了文本挖掘的应用。生物医学命名实体识别任务做为其他挖掘任务如人类基因/蛋白质标准化、关系抽取和假设生成的关键步骤,面临着很大的挑战。目前,命名实体识别在生物医学领域和新闻领域存在着巨大的差距。新闻领域中命名实体识别系统可以达到96%的F值[78],,而在生物医学领域中,最好的结果介于75%和85%之间[1]。生物医学文献中书写的不规范性、缩写词、描述习惯等问题导致生物医学命名识别存在很大的困难。当前用于生物医学命名实体识别任务的方法分为三大类。主要有基于词典的方法[79]、基于规则的方法和基于统计的机器学习方法[80]。采用基于词典的方法直接对文本进行匹配简单而精确,但是由于词典的容量有限,导致召回率很低。基于规则的方法依赖于领域专家的知识,并且不适于移植到其他的命名实体类型和领域。机器学习方法在自然语言处理任务中取得了良好的表现。机器学习方法能够识别出标准词典中不包含的隐藏的生物医学实体。
2.2 基于双层模型的实体识别方法
本章将生物命名实体识别分为两个任务:实体边界探测和语义标识。在探测实体的边界阶段,将所有的实体都识别为一种类型。在语义标识阶段,将第一阶段识别到的实体分别识别为具体的实体类型。为了提高精确率和召回率,本章在两个阶段都对特征集合进行了探索。半马尔科夫条件随机场模型通过Viterbi的动态规划算法求取结果。Viterbi 算法是一种寻找隐藏状态的最佳序列的动态规划算法。本章对基于条件随机场和半马尔科夫条件随机场的双层模型在每一层都进行了详细的实验对比。本节介绍了条件随机场和半马尔科夫条件随机场的定义,并对实体识别方法进行了描述。
3 基于文本发现的疾病本体标注...........41
3.1 引言..................41
3.2 疾病本体标注方法..................43
3.3 结果与讨论.....................50
3.4 本章小结..........................56
4 基于文本发现的疾病语义关系挖掘...........58
4.1 引言.................................58
4.2 疾病语义关系挖掘方法.......................60
5 生物医学文本中疾病网络的假设生成...........68
5.1 引言.............................68
5.2 基于文本分类和概念共现的假设生成方法 ................70
5 生物医学文本中疾病网络的假设生成
5.1 引言
随着科技水平的不断提高,科研方向逐渐细分,科研领域更加面向专业化,科技文献的数量也在快速增长,大量的潜在关联关系隐藏在表面上看来没有任何联系的文献中。另外,文献的数量过大,对文献进行人工分析具备不完备性和参考数量有限的问题。因此,事实上存在着有些知识隐含在文献中不为人们认识。“基于文献的假设生成”揭示蕴含于公开发表的文献中但尚未被人们认识或发觉的知识片段间的逻辑联系,提出知识假设供专业研究人员进一步证实[100]。Swanson 教授在 1987 年提出在科学文献中存在着无意的逻辑关联,这种关联往往揭示了潜在的新知识,而参考文献引用或者数目线索并没有对这种关联进行标识[53]。Swanson 教授发现 25 篇文献记载了食用鱼油引起一定的血液变化,34 篇文献记录了相似的血液变化可以改善雷诺氏病(Raynaud's disease)。通过这两组文献,可以隐含的推理出食用鱼油可能对雷诺氏病人有益。而在此之前,关于食用鱼油与雷诺氏病之间的假设没有被任何文献明确记载。
5.2 基于文本分类和概念共现的假设生成方法
由于 LDA 中的似然函数无法直接计算但可以用隐含变量表示,采用 EM 算法来计算极大似然估计计算出 α 和 β 的值。先用 EM 算法随机给每个参数赋值,然后迭代的执行两个步骤 E-STEP 和 M-STEP。在 E-STEP,EM 算法计算出期望的似然函数。在 M-STEP,EM 算法重新估计参数值,按照最大化似然函数的标准,多次迭代直到收敛为止。普通的文本分类技术对于丰富的上下文信息和领域知识并没有考虑,文本的分类效果并不好。使用带有语义的主题模型将未标注文本的领域知识转化成富含语义的核平滑矩阵有助于改善分类结果。目前生物医学文本的命名实体识别、关系抽取和假设生成等问题都受制于已标注语料集的缺乏。另外,由于语料集的规模有限,单个句子仅包含很小比例的特征,那么往往会造成训练集向量的稀疏。充分挖掘词语上下文的相似性可以改进分类的性能,我们从未标注的语料集中收集上下文数据,并通过语义核进行合并。
.......
6 结论与展望
本研究运用机器学习方法,采用本体标注方法对实体进行标准化,建立基于文本的网络之后抽取有向子图计算概念之间的相似度,利用基于语义的概念共现方法对概念之间的关系进行预测,主要的研究工作和结果如下:(1)提出了双层半马尔科夫条件随机场模型,并分层探索了新的特征。半马尔科夫条件随机场构建实体级而不是单个单词的特征,在命名实体识别上取得了较好的结果。双层模型的第一阶段仅探测实体的边界,第二阶段对探测到的实体进行分类。本研究在 JNLPBA2004 数据集上分别运用双层条件随机场和双层半马尔科夫条件随机场模型进行了实验,并对实验结果进行了充分的比对。本研究详细的分析了每一个新特征所带来的性能上的改进,从而证明了新挖掘的特征的有效性。与同类的实验结果对比,本研究在命名实体识别上获得了较好的性能。
............
参考文献(略)
本文编号:11942
本文链接:https://www.wllwen.com/caijicangku/wuyoulunwen/11942.html