基于流形学习的蛋白质功能预测与优化

发布时间:2018-09-14 10:02
【摘要】:后基因组时代中,随着高通量实验技术的快速发展,大量的蛋白质数据被收集起来。然而,蛋白质数据与功能标注数据之间的差距却在不断变大。即使如酵母菌这样得到广泛研究的物种,其仍有近四分之一的蛋白质功能无法确定。因此,从计算角度设计出高效的蛋白质功能的自动标注方法成为生物信息学领域的重要挑战之一。此外,由高通量实验方法或计算预测方法获得的蛋白质功能标注数据包含了较高比例的假阳性和假阴性噪声,严重影响了与蛋白质功能标注相关的生物、医疗的应用效果。在本论文中,依据蛋白质相互作用网络的拓扑结构、流形学习方法和图理论知识,我们提出了三种有效的计算方法用来解决蛋白质功能的自动预测以及功能标注数据中的噪声问题。全文的主要工作概括如下:(1)针对蛋白质功能的自动标注问题,提出了一种新的整合流形学习和多标签学习的蛋白质功能预测框架。首先,利用边介数对蛋白质相互作用网络进行加权处理。然后,利用等度规特征映射(ISOMAP)算法将该加权网络嵌入到低维表示空间中,从而获得蛋白质数据的低维特征表示;最后,将蛋白质功能预测转化成经典地多标签学习问题,并且能够采用多种多标签学习方法进行蛋白质功能的预测与评估工作。实验结果表明,提出的方法能够取得了更加合理的蛋白质低维特征表示,并且相比于其他对比方法取得了更加准确的预测精度。(2)提出一种鲁棒的融合功能相关性的多标签线性回归方法来预测蛋白质的功能。首先,采用基于流形学习的ISOMAP算法将边介数加权的蛋白质相互作用网络嵌入到低维子空间中。然后,根据蛋白质低维数据的分布特点,将线性回归理论扩展到多标签情境中,通过余弦相似性计算蛋白质功能标签之间的相似性,并将其作为规则项加入到多标签线性回归模型的目标函数中。最后,评估了提出的算法在酵母菌数据库上的有效性。实验结果表明,提出的方法相比于其他现有的方法实现了更加令人满意的预测性能。(3)为了解决蛋白质功能标注数据中包含大量噪声的问题,提出了一种基于图规则化l1-范数的主成分分析法(Gl1PCA)进行蛋白质功能优化。首先,该方法通过蛋白质相互作用网络与功能相似性矩阵分别构建了一个蛋白质图与一个功能图。然后,将蛋白质图与功能图经过拉普拉斯变化后以规则项的形式被整合到了l1-范数的主成分分析法(l1PCA)的目标函数之中。最后,给出了该优化模型的一种基于增广拉格朗日乘子法(ALM)的快速解法,并利用理论证明与优化实验验证了提出的算法的正确性。实验结果表明,提出的算法能够有效的优化蛋白质的功能标注数据。
[Abstract]:In the post-genome era, with the rapid development of high-throughput experimental techniques, a large number of protein data have been collected. However, the gap between protein data and functional labeling data is widening. Even in species widely studied, such as yeasts, nearly a quarter of their protein functions remain uncertain. It is one of the most important challenges in bioinformatics to design efficient automatic annotation methods for protein functions from computational perspective. In addition, high-throughput experimental methods or computational prediction methods contain a high proportion of false-positive and false-negative noises, which seriously affect the protein function annotation phase. In this paper, based on the topological structure of protein-protein interaction network, manifold learning method and graph theory, we propose three effective computational methods to solve the problem of automatic prediction of protein function and noise in function labeling data. 1) To solve the problem of automatic annotation of protein function, a new framework for protein function prediction based on integrated manifold learning and multi-label learning is proposed. First, the protein-protein interaction network is weighted by the edge median. Then, the weighted network is embedded into the low-dimensional representation space by the ISOMAP algorithm. Finally, the protein function prediction is transformed into a classical multi-label learning problem, and many multi-label learning methods can be used to predict and evaluate protein function. The experimental results show that the proposed method can achieve a more reasonable protein low-dimensional feature representation. (2) A robust multi-label linear regression method based on functional correlation is proposed to predict protein function. Firstly, an ISOMAP algorithm based on manifold learning is used to embed the edge-median weighted protein-protein interaction network into a low-dimensional subspace. Secondly, according to the distribution characteristics of low-dimensional protein data, the linear regression theory is extended to multi-label situation, and the similarity between protein functional labels is calculated by cosine similarity, which is added as a rule term to the objective function of multi-label linear regression model. Finally, the yeast count of the proposed algorithm is evaluated. Experimental results show that the proposed method achieves better predictive performance than other existing methods. (3) In order to solve the problem of large amount of noise in protein function annotation data, a graph regularized L1-norm based principal component analysis (Gl1PCA) is proposed to optimize protein function. Firstly, a protein graph and a function graph are constructed by the protein interaction network and the function similarity matrix respectively. Then, the protein graph and the function graph are integrated into the objective function of L1-norm principal component analysis (l1PCA) in the form of regular terms after Laplace transformation. A fast algorithm based on augmented Lagrange multiplier (ALM) is proposed to solve the optimization model. The validity of the proposed algorithm is verified by theoretical proof and optimization experiments. The experimental results show that the proposed algorithm can effectively optimize the protein functional annotation data.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q51;TP181

【相似文献】

相关期刊论文 前10条

1 曾岚,徐晋麟,李亦学,石铁流;大规模蛋白质功能预测方法的进展[J];生命的化学;2005年01期

2 卢宏超;石秋艳;石宝晨;张治华;赵屹;唐素勤;熊磊;王强;陈润生;;基于蛋白质网络功能模块的蛋白质功能预测[J];生物化学与生物物理进展;2006年05期

3 王繁业;李亚非;;用于新药开发的新的蛋白质功能预测方法[J];化学与生物工程;2006年09期

4 王秀鹤;王正华;王勇献;张振慧;;基于分组重量编码的蛋白质功能预测[J];生物信息学;2007年01期

5 倪青山;王正志;黎刚果;孟祥林;;基于K近邻的蛋白质功能的预测方法[J];生物医学工程研究;2009年02期

6 蒋英芝;贺连华;刘建军;;蛋白质功能研究方法及技术[J];生物技术通报;2009年09期

7 胡敏菁;吴建盛;施识帆;刘宏德;孙啸;;面向蛋白质功能位点识别的机器学习平台构建[J];生物信息学;2010年01期

8 赵研;卢奕南;权勇;;基于模糊积分多源数据融合的蛋白质功能预测[J];南京大学学报(自然科学版);2012年01期

9 吴建盛;;基于新型机器学习方法的蛋白质功能预测与分析[J];信息通信;2012年05期

10 刘言;沈素萍;方慧生;陈凯先;;蛋白质功能预测方法概述[J];生物信息学;2013年01期

相关会议论文 前10条

1 卢乃浩;张燕;李海玲;高中洪;;蛋白质酪氨酸硝化修饰对蛋白质功能影响及抗氧化剂的作用[A];第六届全国化学生物学学术会议论文摘要集[C];2009年

2 郭延芝;李梦龙;;蛋白质功能预测中的特征筛选与优化[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年

3 汪世华;;蛋白质芯片用于快速检测的研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年

4 郭延芝;文志宁;李梦龙;;基于序列信息的蛋白质功能预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年

5 王靖;李霞;高磊;朱明珠;杨德武;;蛋白质功能位点和结构域与人类蛋白质互作关联分析[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年

6 刘克良;梁远军;;肽类药物研究进展[A];2006第六届中国药学会学术年会大会报告集[C];2006年

7 刘俊峰;王新泉;王占新;安晓敏;常文瑞;梁栋材;;造血干细胞中特异表达新基因kd93的重组表达和晶体结构研究[A];中国科协2005年学术年会生物物理与重大疾病分会论文摘要集[C];2005年

8 常珊;李春华;龚新奇;陈慰祖;王存新;;蛋白质不同区域的氨基酸保守性网络分析[A];第十次中国生物物理学术大会论文摘要集[C];2006年

9 张长胜;来鲁华;;基于关键相互作用的蛋白质功能设计[A];第五届全国化学生物学学术会议论文摘要集[C];2007年

10 李亦学;;蛋白质组功能注释[A];中国蛋白质组学第二届学术大会论文摘要论文集[C];2004年

相关重要报纸文章 前4条

1 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年

2 刘云涛;北大蛋白质功能设计研究获新进展[N];中国医药报;2007年

3 记者 吴仲国;日首次公开招募研究人员[N];科技日报;2001年

4 华琳 王治强;我校三项“973”项目通过科技部验收[N];新清华;2005年

相关博士学位论文 前9条

1 滕志霞;基于序列和PPI网络的蛋白质功能预测方法研究[D];哈尔滨工业大学;2016年

2 孙承磊;基于数据挖掘技术的蛋白质功能预测研究[D];上海大学;2013年

3 窦永超;预测蛋白质功能位点的几种新数学模型[D];大连理工大学;2011年

4 施绍萍;基于支持向量机的蛋白质功能预测新方法研究[D];南昌大学;2012年

5 俞晓晶;基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D];中国科学院研究生院(上海生命科学研究院);2006年

6 张同亮;基于智能计算的蛋白质功能预测研究[D];东华大学;2008年

7 马志强;蛋白质功能预测的非同源性计算方法研究[D];吉林大学;2009年

8 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年

9 张拓;两种特殊类型蛋白质功能残基的预测与生物序列比对[D];南开大学;2009年

相关硕士学位论文 前10条

1 郭金文;基于序列循环关系网络模型的蛋白质功能预测技术研究[D];福建师范大学;2015年

2 刁印;基于图理论和互作网络的蛋白质功能预测研究[D];大连理工大学;2015年

3 张信;基于多数据源融合的蛋白质功能预测方法研究[D];大连理工大学;2015年

4 刘殿昆;NaHCO_3胁迫下柽柳(T.hispida)根部差异表达蛋白质的研究[D];东北林业大学;2016年

5 梁华东;基于流形学习的蛋白质功能预测与优化[D];安徽大学;2017年

6 王博;基于频繁功能模式的蛋白质功能预测[D];吉林大学;2012年

7 赵研;模糊积分在蛋白质功能预测上的应用[D];吉林大学;2012年

8 李希;基于序列特征的蛋白质功能类预测方法研究[D];湖南大学;2010年

9 王秀鹤;基于序列和相互作用的蛋白质功能预测[D];国防科学技术大学;2006年

10 邓小龙;基于随机游走的蛋白质功能预测方法的研究[D];吉林大学;2012年



本文编号:2242391

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2242391.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6b641***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com