当前位置:主页 > 科技论文 > 基因论文 >

基于基因本体结构的蛋白质功能预测研究

发布时间:2020-10-19 16:50
   蛋白质是生命活动的主要物质基础,参与并执行生物体内的各种重要功能。整合海量生物数据中的蛋白质特征和功能信息并对蛋白质进行自动且准确的功能标注,可以帮助人类更好地认识和理解生命过程,对疾病分析、药物研发和生物能源开发等领域的发展都有极大的推动作用。近年来,基于机器学习技术的蛋白质功能预测研究受到广泛的关注,获得了较高的精度。但是,这些方法通常假定已有的蛋白质功能标注信息是完整的,并把蛋白质功能预测问题建模为一般的多标签学习问题,忽略了由于实验条件限制和生物学研究热点等因素造成的功能标注不完整性和不平衡性,以及功能标签之间的层次结构关系在功能预测中的重要作用,预测精度依然有限。多种异构蛋白质数据源可以转化为蛋白质之间的功能关联网络克服异构性,一些方法通过整合这些关联网络提高了功能预测精度。然而,这类方法在整合的效率和效果等方面均存在困难。充足的正负样例有助于提高分类器的区分能力进而提升预测精度,由于负样例的缺失,大部分蛋白质功能预测方法仅能利用蛋白质已知的正样例,或启发式地选定负样例,极少关注对负样例的识别,也限制了预测精度。本文针对蛋白质功能预测研究中存在的上述问题,以如何结合基因本体层次结构为出发点,以提高蛋白质功能预测精度为目标,以机器模型构建与求解为基本手段,围绕蛋白质缺失功能预测,负样例预测和面向多源数据集成的蛋白质功能预测分别展开深入研究,提出一些计算方法。本文的主要贡献包括:1、针对蛋白质功能标注普遍存在缺失的问题,提出一种基于有向混合图的蛋白质功能预测方法(dHG)。dHG针对蛋白质功能标签的不完整性,标签之间层次结构关系和蛋白质缺失标注的规律,设计了一种由蛋白质互作网和基因本体有向无环图构成的有向混合图,并在该混合图上设计有向重启动随机游走预测蛋白质功能。分析表明,dHG不仅能更好地预测蛋白质缺失功能,还能预测功能完全未知蛋白质的功能,效率也较以往方法更高。为更进一步利用有向混合图的结构差异性,提出一种基于异步随机游走的蛋白质功能预测方法(NewGOA)。NewGOA不仅考虑了有向混合图中蛋白质互作网和基因本体子图之间的结构差异性,还考虑了蛋白质互作网中的噪声互作。NewGOA继承了dHG的所有优点,实验表明NewGOA获得的预测精度和效率比dHG和其他相关方法更高,这些混合图上的随机游走策略还可以推广应用到其他关联预测问题中。2、针对蛋白质的负样例极少,限制了分类器的区分性和精度等问题,首先提出一种基于基因本体结构的蛋白质负样例预测方法(NegGOA)。NegGOA分别基于功能层次结构关联和功能共同出现的经验条件概率对蛋白质的缺失功能进行预估,再根据这两类预估筛选蛋白质的负样例功能。分析表明,NegGOA受蛋白质功能标注的不完整性影响较小,它预测的负样例不仅错误率更低,且还能显著提升蛋白质功能预测的精度。为进一步整合利用蛋白质特征信息和已知的少量负样例,提出一种基于正负样例的蛋白质功能预测方法(ProPN)。ProPN利用已知的蛋白质-功能正负关联信息、蛋白质互作信息和功能标签关联构建符号混合图,再通过符号混合图上的信息传播算法预测蛋白质功能。分析表明,ProPN不仅能较好地预测蛋白质负样例,还能预测蛋白质未知的正样例。考虑到蛋白质功能标签空间巨大,蛋白质互作网中存在较多的噪声互作和缺失互作等现实困难,本文进一步提出一种基于降维的蛋白质不相关功能预测方法(IFDR)。IFDR通过在蛋白质互作网邻接矩阵和蛋白质-功能标签关联矩阵上分别进行随机游走,挖掘蛋白质之间的内在关系和预估蛋白质的缺失功能标签,再将上述2个矩阵投影降维为低维实数矩阵,再利用半监督回归预测负样例。在多个模式的生物蛋白质数据集上的实验表明,IFDR比已有相关算法能够更准确地预测负样例,对网络和标签空间的降维均可以提高负样例预测精度。3、在基于多源数据集成整合预测蛋白质功能方面,提出一种基于多网络语义集成的蛋白质功能预测方法(SimNet)。SimNet首先利用加权的重合相似性度量构建蛋白质之间的语义网络,再将多个蛋白质关联网络向该语义网络对准,进而优化各个网络的权重系数并整合这些网络成一个复合网络,再在复合网络上基于局部全局一致性学习方法预测蛋白质功能。分析表明,SimNet能相对以往的相关方法更高效准确地整合多源数据预测蛋白质功能。为了区分性地整合多个网络,并处理较大的功能标签集合,提出一种基于多网络数据协同矩阵分解的蛋白质功能预测方法(ProCMF)。ProCMF基于非负矩阵分解将蛋白质功能标注矩阵分解为两个低秩矩阵,并基于这两个低秩矩阵分别定义基于网络结构和标签关联的平滑性正则项约束指导矩阵协同分解,再对不同网络设置权重,并把权重优化和功能预测统一到一个目标方程中。在酵母菌,人类和老鼠蛋白质数据集上的实验证明ProCMF较现有相关算法能获得更好的预测结果,并能高效地处理大量存在关联的功能标签,区分性地整合多个网络,且对输入参数鲁棒。
【学位单位】:西南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP18;Q51
【部分图文】:

标签,蛋白质,例子,蛋白质功能


通过对蛋白质功能标注的准确预测,的了解各类蛋白质的生物特性,对药物开发、疾病等诸多方面均有着重要的理论和现实意义。现状功能预测质功能预测模型通常假设现有的蛋白质功能标签是完功能标签对未标注功能的蛋白质进行计算预测。然而于资源的限制,实验方案的局限以及不断更新的生地在补充和完善。人类蛋白质组项目组织也重申我们能知之甚少[25]。图 1-1 中举了一个具体的蛋白质功‘GO:0005886’(plasma membrane),‘GO0071944’(cmembrane)是酵母菌蛋白质‘YOL086C’与 2016 年 年 7 月的该蛋白质标签集合中并没标注。而从图中三个功能都是该蛋白质已知功能标签节点的子孙节点

蛋白质功能,标签,示例,功能


Ontology(GO,基因本体)不够齐全且更新迭代较慢,而 GO 已被作为蛋白能标注的基准,应用更为广泛。因此,本文的研究也基于 GO 及其提供的蛋白能标注文件(GOA)展开。矩阵A的定义如下:1( , )0i t ti t A, 蛋白质 标注 或者 的子孙节点功能, 其它(蛋白质功能预测问题根据目标不同可以分为对部分功能已知的蛋白质进能预测和对功能完全未知的蛋白质进行功能预测。对功能完全未知的蛋白质根据其特征属性计算与其它特征相似蛋白质的关联,从而达到功能预测[7,15,22-24];而部分功能已知蛋白质进行功能预测,不仅需要利用其特征数据考虑蛋白质已知功能在基因本体上的层次结构信息,计算该蛋白质缺失功能在性,从而进行预测[4,8,9,13]。而蛋白质负样例功能预测问题不同于蛋白质功能预测,其目标是标签出蛋白质不会带有某一类功能,即将关联矩阵 中的 0 更新为-1,后者是将关中的 0 更新为 1,显示表明某个蛋白质具有某一功能,也不同于蛋白质噪标签识别,它是将将关联矩阵 A中的相应元素从 1 更新为 0,从而剔除噪声

层次结构图,标签,蛋白质功能,混合图


上侧的子图即为一个 GO 有向无环图的简单示例,子图节点,节点间的有向箭头表示标签之间的层次结构关系3 的父节点,GO1 为 GO4 的祖先节点。下侧的子图为一图中每个矩形表示一个蛋白质节点,节点的连线表示蛋互作的强度或置信度。蛋白质的功能标签信息通过功能表示,其中实线表示蛋白质已知的功能标签信息,带“?能标签(蛋白质实际应具有该功能,但该功能尚未被标失的功能标签称为蛋白质的新功能。为了简洁,完全未5)的新功能标签并未在图中体现。可以发现,每个蛋白定义一个层次结构图,该蛋白质的缺失功能标签只能是节点。如 P2 的层次结构图由 GO2 和 GO3 构成,它的O3 的子孙节点。这些缺失功能是蛋白质已知功能的进一质互作网,基因本体层次结构关系和已知蛋白质功能标签的有向混合图。蛋表示已知功能关联,而它们之间虚线带“?”的边表示潜在的蛋白质新功
【参考文献】

相关期刊论文 前3条

1 郭茂祖;代启国;徐立秋;刘晓燕;;一种蛋白质复合体模块度函数及其识别算法[J];计算机研究与发展;2014年10期

2 李彦辉;郭政;马文财;杨达;王栋;张敏;朱晶;钟国才;李永进;姚晨;王靖;;通过蛋白质互作网络预测已知部分功能的蛋白质的精细功能[J];科学通报;2007年20期

3 高磊;李霞;郭政;朱明珠;李彦辉;饶绍奇;;结合蛋白质互作与基因表达谱信息大范围预测蛋白质的精细功能[J];中国科学C辑:生命科学;2006年05期



本文编号:2847465

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2847465.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9a7c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com