当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习的蛋白质远同源性检测方法研究

发布时间:2020-08-07 20:53
【摘要】:蛋白质是组成生命系统的基础物质之一,参与几乎所有生命活动。随着生物测序技术的发展,人们已经积累了大量的蛋白质序列数据,而蛋白质结构数据却增长缓慢,这两者之间形成了巨大的鸿沟。蛋白质远同源性检测的相关研究对预测蛋白质结构和功能具有重要意义,吸引了大量的研究人员从不同角度对其进行深入研究。由于生物实验成本高昂,因此探索基于蛋白质序列预测蛋白质远同源关系的机器学习方法变得日益紧迫和重要,其中的关键问题是如何向量化表示蛋白质序列和训练预测模型。生物序列是描述生命的“语言”,鉴于生物序列与自然语言的相似性,本文借鉴自然语言处理思想向量化表示蛋白质序列,提出多个基于机器学习的蛋白质远同源关系检测方法。主要研究内容包括以下几个方面:第一,基于排序学习技术的检测方法。传统基于排序策略方法中,蛋白质的远同源关系均是基于序列比对方法检测的,然而序列比对方法具有较高的假阳性问题,尤其是对于相似性较低的蛋白质序列,使得构建的蛋白质特征向量中包含大量噪音。针对此问题,本文借鉴文本信息检索中“查询-文档对”的思想,构建蛋白质之间的“查询-蛋白质对”,并利用多个序列比对方法的打分构建特征矩阵。然后基于排序学习技术训练模型对候选远同源蛋白质重新排序。实验结果表明,该模型不仅能够纠正候选远同源蛋白质中的假阳性错误,并且还能提高排序的稳定性。第二,基于序列顺序频率矩阵的检测方法。带有进化信息的蛋白质序列表示能够明显提高蛋白质远同源性检测的性能,然而传统获取蛋白质序列进化信息的方法忽略了局部氨基酸之间的依赖关系,损失了大量的蛋白质序列进化信息。针对该问题,本文借鉴自然语言处理中语义相似的主题具有相似关键词的思想,将具有远同源关系的蛋白质序列看作是语义相似的主题,将氨基酸子串看作是组成蛋白质序列的“字词”,提出序列顺序频率矩阵,并采用机器学习方法训练分类模型。实验结果表明,该方法能够提取出蛋白质多序列比对中关键的氨基酸子串和多个氨基酸之间的依赖关系,获取到的蛋白质序列进化信息明显多于传统方法,进一步提高了检测性能,并且验证了局部氨基酸依赖关系对提高蛋白质远同源性检测具有重要意义。第三,基于氨基酸向量和循环神经网络的检测方法。传统蛋白质序列的特征向量通常是由人工构建的,而基于人类现有的知识一般难以从蛋白质序列中提取出较为复杂的氨基酸模式,造成蛋白质特征向量中的表示信息不完整。针对这一问题,本文借鉴自然语言处理中“词向量”思想,将氨基酸子串看作是组成蛋白质序列的“字词”,提出氨基酸向量,并结合循环神经网络训练蛋白质远同源检测模型。实验结果不仅验证了生成的氨基酸向量符合一定的氨基酸子串理化性质,并且还表明了基于循环神经网络检测方法的性能明显优于基于人工构建特征的检测方法。第四,基于集成融合的检测框架。针对基于排序策略和分类策略的蛋白质远同源性检测方法中的优势和不足,本文首先采用排序策略检测可信度较高的远同源蛋白质,然后再利用集成分类策略进一步检测可信度较低的远同源蛋白质。该框架能够利用多种蛋白质向量化表示方法从不同角度描述蛋白质序列的特性,并整合排序和分类策略的优势。实验结果表明,该框架通过融合排序与分类两种策略进一步提高了检测性能,并且扩大了检测方法的适用范围。综上所述,本文围绕蛋白质远同源性检测问题进行深入研究和讨论,借鉴自然语言处理思想向量化表示蛋白质序列,并提出多个基于机器学习的方法检测蛋白质的远同源关系,逐步提高检测性能,最终取得了良好的效果。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP181;Q811.4
【图文】:

蛋白质序列,数据库,生物技术,生物序列


进技术深入研究生物序列。基于语言文法的理论已经用于解问题[20]。目的及意义质是生命系统内重要的基础物质之一,是生命活动的重要白质,那么生命就无法维持。因此,蛋白质的相关研究对医学、农业等领域都具有重要的意义。分子生物学的研究已经进入后基因组时代,随着生物技术结构的测序技术日趋成熟,而蛋白质三维结构检测技术发昂的生物技术且效率低。进入 21 世纪以来,蛋白质序列数然而相应的蛋白质三维结构数据却增长缓慢,如图 1-2 所 月,Swiss-Prot 数据库[21]中人工确认的蛋白质序列已经达 PDB(Protein Data Bank)数据库[22]中已知三维结构的蛋7 条。两者之间的数据规模差距将近 4 倍,并且逐渐增加

树形结构,数据集,家族


- 6 -emote Homology Detection)。同源检测的目标是识别新测定蛋而远同源性检测的目标是识别新测定蛋白质所属的超家族。家族中的蛋白质序列相似度为 15%~30%,而相同家族中的蛋 50%以上。因此,远同源性检测的难度远大于近同源性检测白质结构和功能比序列更具有保守性(Conservation),随着图 1-3 SCOP 数据集的树形结构Figure 1-3 The tree-like structure of SCOP database

多序列比对,空间结构,甘油激酶,双序


使得结构和功能相似的蛋白质间的序列相似性可能较低。也就是说,具有离同源关系的蛋白质间也可能具有相似的空间结构和功能。例如,肌动蛋、已糖激酶[31]和甘油激酶[32]之间的序列相似性低于 30%,但他们具有相似间结构,如图 1-4 所示,并且同属于一个蛋白质超家族 Actin-like ATPasein[33]。然而,采用传统的序列分析方法却无法检测到他们之间的远距离同系。因此,设计准确、敏感的计算的方法识别蛋白质之间的远距离同源关蛋白质序列分析中的难点问题,也是结构预测中的关键问题。2 基于比对的方法最早的机器学习方法基于双序列比对算法,将查询蛋白质序列与数据库中已知结构的序列进行比对,基于比对分数计算同源性。常用的双序列比对有全局最优的 Needleman-Wunsch 算法[34]和局部最优的 Smith-Waterman 算甘油激酶图 1-4 三种蛋白的多序列比对及其空间结构Figure 1-4 The multiple sequence alignment of three proteins and their structures

【参考文献】

相关期刊论文 前2条

1 王栋;孙济洲;李福超;;基于半监督支持向量机的并行远同源检测方法[J];计算机应用研究;2009年12期

2 沈世镒;生物序列的语义分析与第二密码规则的探索[J];工程数学学报;2004年05期

相关博士学位论文 前2条

1 潘丁;人膝骨关节炎滑液蛋白质组学研究及国人骨关节炎流行病学Meta分析[D];中南大学;2014年

2 王晓敏;基于蛋白质相互作用网络的功能模块识别及功能预测研究[D];国防科学技术大学;2013年



本文编号:2784514

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2784514.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户af025***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com