基于远监督的蛋白质交互关系抽取
发布时间:2020-11-12 20:09
蛋白质交互关系(Protein-Protein Interaction,PPI)是生物医学领域研究的重要内容之一,对疾病的诊断和治疗以及新药的研制具有重要的意义,目前经过实验验证得到的PPI相关知识主要以非结构化文本的形式存储于生物医学文献中。随着生物医学文献数量的飞速增长,依靠人工挖掘蛋白质交互信息的方式难以满足实际的应用需求。因此,从生物医学文献中自动抽取蛋白质交互关系成为生物信息领域重要的研究课题。目前蛋白质交互关系抽取主要基于远监督的方法,通过将知识库与非结构化文本对齐来自动获取大规模训练数据,在一定程度上减轻了对人工标注语料的依赖。但是这种方法存在明显的缺陷,即在构建训练数据的过程中引入了大量的噪音数据,这些噪音会对模型的抽取性能造成很大的影响。针对这个问题,本文首先建立了基于远监督的蛋白质交互关系抽取基本模型,利用远监督产生的训练数据来训练分类模型,并在人工标注语料上进行测试,通过实验结果进一步分析了训练数据中存在的噪音问题。接下来本文建立了基于主题集合的蛋白质交互关系抽取模型,在交叉预测的基础上利用关键词和句子相似性抽取蛋白质对签名档对应的主题集合,并将主题集合之外的句子视为噪音进行清除,利用去噪后的数据训练分类模型并在人工标注语料上进行测试。实验通过对多个不同参数组合进行测试,得到的最好结果与远监督基本模型相比,有交互蛋白质对和无交互蛋白质对的F1度量分别提高了1.49%和9.18%,去噪效果明显。为了充分利用训练数据中句子类别间的相互关系,本文引入了多示例多标记学习模型用于蛋白质交互关系抽取中,将蛋白质对签名档中的句子及其类别构造为多示例多标记模型,利用最大期望算法来确定句子的类别,进而清除训练数据中的噪音。实验结果表明,基于多示例多标记的迭代算法对于训练数据中的噪音识别更加准确,相比于远监督的基本模型,在有交互蛋白质的F1度量略有提升的基础上,无交互蛋白质对的F1度量提高了14.84%,模型性能提高明显,且抽取结果更加平衡。
【学位单位】:南京航空航天大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q811.4;TP391.1
【部分图文】:
图 3.2 HPRD 数据库首页Med 是一个由美国国立医学图书馆建立的免费的搜索引擎,提供生物医学方面的摘要下载。PubMed 是目前应用最广泛的免费的生物医学搜索引擎,它的数据库LINE,MEDLINE 收录的包括医学、护理、兽医、卫生保健及临床前学科方面的书600 多万条,这些数据来自全球 70 多个国家和地区的 4800 多家生物医学期刊,其英文文献,70%到 80%的文献包含作者的英文摘要[49]。MEDLINE 的核心主题是医其它同医学相关的领域,如护理或其它健康科学。PubMed 引擎免费提供文献摘
逻辑回归(Logistic Regression)作为机器学习中经典的一种分类模型,是二分类问题中用的解决方法之一[53]。逻辑回归算法训练速度快,预测较为准确,模型求解出的参数容易和解释,适用于基于文本的蛋白质交互关系抽取二分类问题。线性回归利用样本数据拟合出一条直线,通过拟合出的直线对未知数据进行判断。线归的公式如下:0 1 1 2 2 3 3Tn nz x x x x x(3对于逻辑回归来说,在线性回归(逻辑回归属于广义线性回归模型)的基础上,通过 sig函数对线性回归的结果进行映射。其公式如下: 1 11 1Tzxh xe e (3其中,11xye (3被称作 sigmoid 函数,sigmoid 的函数图形如图 3.5 所示:
表 4.5(续)0.90.2 690/60.5 555/51.8 563/57.6 677/48.6 631/58.1 3116/55.00.3 757/66.3 640/59.7 634/64.8 727/52.2 712/65.6 3470/61.20.4 783/68.6 676/63.1 671/686. 755/54.2 745/68.6 3630/64.00.5 805/70.6 711/66.3 683/69.8 783/56.2 766/70.5 3748/66.1从表 4.4 和表 4.5 中可以看出,在不同子集中识别出的噪音数量大致相等,说明本章提出的去噪方法能够很好地应用于整个语料;在不同的阈值组合下,对噪音的识别比例范围从 42%扩大到 66%,相比于交叉预测识别出的 34%的噪音,基于主题集合的去噪方法能够有效地识别出训练数据中的噪音,同时在不同阈值下,识别出的噪音数量变化明显,有助于挑选最佳的阈值组合;通过表 4.4 和表 4.5 对比来看,关键词次数限制C 对于噪音识别的影响明显, C 2时识别出的噪音数量整体多于 C 1时识别出的噪音数量,相对于 来说, 对于关键词在签名档中的出现次数要求更高,导致关键词集合中的关键词减少,相应地包含关键词的句子减少,因而识别出的噪音数量也就更多。为了进一步观察阈值变化对噪音识别的影响,我们分别画出了 和 时的去噪趋势变化,如图 4.6 和图 4.7 所示,图中的点表示整体训练数据中噪音的比例。
【参考文献】
本文编号:2881189
【学位单位】:南京航空航天大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q811.4;TP391.1
【部分图文】:
图 3.2 HPRD 数据库首页Med 是一个由美国国立医学图书馆建立的免费的搜索引擎,提供生物医学方面的摘要下载。PubMed 是目前应用最广泛的免费的生物医学搜索引擎,它的数据库LINE,MEDLINE 收录的包括医学、护理、兽医、卫生保健及临床前学科方面的书600 多万条,这些数据来自全球 70 多个国家和地区的 4800 多家生物医学期刊,其英文文献,70%到 80%的文献包含作者的英文摘要[49]。MEDLINE 的核心主题是医其它同医学相关的领域,如护理或其它健康科学。PubMed 引擎免费提供文献摘
逻辑回归(Logistic Regression)作为机器学习中经典的一种分类模型,是二分类问题中用的解决方法之一[53]。逻辑回归算法训练速度快,预测较为准确,模型求解出的参数容易和解释,适用于基于文本的蛋白质交互关系抽取二分类问题。线性回归利用样本数据拟合出一条直线,通过拟合出的直线对未知数据进行判断。线归的公式如下:0 1 1 2 2 3 3Tn nz x x x x x(3对于逻辑回归来说,在线性回归(逻辑回归属于广义线性回归模型)的基础上,通过 sig函数对线性回归的结果进行映射。其公式如下: 1 11 1Tzxh xe e (3其中,11xye (3被称作 sigmoid 函数,sigmoid 的函数图形如图 3.5 所示:
表 4.5(续)0.90.2 690/60.5 555/51.8 563/57.6 677/48.6 631/58.1 3116/55.00.3 757/66.3 640/59.7 634/64.8 727/52.2 712/65.6 3470/61.20.4 783/68.6 676/63.1 671/686. 755/54.2 745/68.6 3630/64.00.5 805/70.6 711/66.3 683/69.8 783/56.2 766/70.5 3748/66.1从表 4.4 和表 4.5 中可以看出,在不同子集中识别出的噪音数量大致相等,说明本章提出的去噪方法能够很好地应用于整个语料;在不同的阈值组合下,对噪音的识别比例范围从 42%扩大到 66%,相比于交叉预测识别出的 34%的噪音,基于主题集合的去噪方法能够有效地识别出训练数据中的噪音,同时在不同阈值下,识别出的噪音数量变化明显,有助于挑选最佳的阈值组合;通过表 4.4 和表 4.5 对比来看,关键词次数限制C 对于噪音识别的影响明显, C 2时识别出的噪音数量整体多于 C 1时识别出的噪音数量,相对于 来说, 对于关键词在签名档中的出现次数要求更高,导致关键词集合中的关键词减少,相应地包含关键词的句子减少,因而识别出的噪音数量也就更多。为了进一步观察阈值变化对噪音识别的影响,我们分别画出了 和 时的去噪趋势变化,如图 4.6 和图 4.7 所示,图中的点表示整体训练数据中噪音的比例。
【参考文献】
相关期刊论文 前2条
1 李丽双;刘洋;黄德根;;基于组合核的蛋白质交互关系抽取[J];中文信息学报;2013年01期
2 蔡自兴,李枚毅;多示例学习及其研究现状[J];控制与决策;2004年06期
相关硕士学位论文 前5条
1 郭瑞;基于迁移学习和词表示的蛋白质交互关系抽取[D];大连理工大学;2015年
2 封二英;基于大规模文本的蛋白质交互关系自动提取研究[D];南京航空航天大学;2012年
3 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
4 陈平;基于SVM的中文文本分类相关算法的研究与实现[D];西北大学;2008年
5 胡杨;生物文献中蛋白质相互作用关系抽取[D];哈尔滨工业大学;2007年
本文编号:2881189
本文链接:https://www.wllwen.com/yixuelunwen/swyx/2881189.html