基于上下文语义相似性约束的蛋白质交互关系识别
发布时间:2017-11-09 02:33
本文关键词:基于上下文语义相似性约束的蛋白质交互关系识别
更多相关文章: 蛋白质交互 词性 单词相似性 关系相似性 Minimum Cuts SVM
【摘要】:蛋白质交互(Protein-Protein Interaction,PPI)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储。PPI信息对生物、医药研究有着重要的意义,因此生物医学专家试图以手工收集信息的方法从文献中识别PPI信息,然后以统一的格式保存于关系数据库中。然而,随着生物医学文献大量地增加,以手工收集信息的方式已经难以满足实际需求。因此,研究如何从文献中识别PPI信息是一项亟待解决问题。目前常用的基于机器学习的方法大多是以单个句子为研究对象,这种方法依赖人工标注,且忽略了蛋白质交互的上下文信息。为了避免出现这些问题,本文以大规模语料库为研究依据,根据蛋白质丰富的上下文信息进行PPI识别。本文从文本数据库中收集了蛋白质对的上下文信息,从以下三个方面进行了研究。第一,研究上下文特征,从词性和单词相似性这两个角度对向量进行加权。得到的结果与不进行加权的结果相比,有交互蛋白质对F值提升了2.51%,无交互蛋白质对F值提升了1.85%。第二,根据蛋白质对关系描述文本之间的相似性,从关系相似性角度构建分类器进行PPI识别,重点比较了四种权重计算方法。第三,为了将上下文特征与文本之间的相似性这两种类型的信息进行有效地结合,采用了Minimum Cuts算法,利用上下文之间的相似性约束判断。在实验中,我们选择了不同比例的训练数据构建分类器。实验结果表明,当训练数据为80%时,与只有上下文特征信息的SVM的结果相比,识别结果有了3%-4%的提升。并且,Minimum Cuts以20%的训练数据得到了SVM以80%训练数据得到的识别结果。
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q51;Q811.4;TP391.1
,
本文编号:1159955
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1159955.html