基于流形学习的蛋白质功能预测与优化
[Abstract]:In the post-genome era, with the rapid development of high-throughput experimental techniques, a large number of protein data have been collected. However, the gap between protein data and functional labeling data is widening. Even in species widely studied, such as yeasts, nearly a quarter of their protein functions remain uncertain. It is one of the most important challenges in bioinformatics to design efficient automatic annotation methods for protein functions from computational perspective. In addition, high-throughput experimental methods or computational prediction methods contain a high proportion of false-positive and false-negative noises, which seriously affect the protein function annotation phase. In this paper, based on the topological structure of protein-protein interaction network, manifold learning method and graph theory, we propose three effective computational methods to solve the problem of automatic prediction of protein function and noise in function labeling data. 1) To solve the problem of automatic annotation of protein function, a new framework for protein function prediction based on integrated manifold learning and multi-label learning is proposed. First, the protein-protein interaction network is weighted by the edge median. Then, the weighted network is embedded into the low-dimensional representation space by the ISOMAP algorithm. Finally, the protein function prediction is transformed into a classical multi-label learning problem, and many multi-label learning methods can be used to predict and evaluate protein function. The experimental results show that the proposed method can achieve a more reasonable protein low-dimensional feature representation. (2) A robust multi-label linear regression method based on functional correlation is proposed to predict protein function. Firstly, an ISOMAP algorithm based on manifold learning is used to embed the edge-median weighted protein-protein interaction network into a low-dimensional subspace. Secondly, according to the distribution characteristics of low-dimensional protein data, the linear regression theory is extended to multi-label situation, and the similarity between protein functional labels is calculated by cosine similarity, which is added as a rule term to the objective function of multi-label linear regression model. Finally, the yeast count of the proposed algorithm is evaluated. Experimental results show that the proposed method achieves better predictive performance than other existing methods. (3) In order to solve the problem of large amount of noise in protein function annotation data, a graph regularized L1-norm based principal component analysis (Gl1PCA) is proposed to optimize protein function. Firstly, a protein graph and a function graph are constructed by the protein interaction network and the function similarity matrix respectively. Then, the protein graph and the function graph are integrated into the objective function of L1-norm principal component analysis (l1PCA) in the form of regular terms after Laplace transformation. A fast algorithm based on augmented Lagrange multiplier (ALM) is proposed to solve the optimization model. The validity of the proposed algorithm is verified by theoretical proof and optimization experiments. The experimental results show that the proposed algorithm can effectively optimize the protein functional annotation data.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q51;TP181
【相似文献】
相关期刊论文 前10条
1 曾岚,徐晋麟,李亦学,石铁流;大规模蛋白质功能预测方法的进展[J];生命的化学;2005年01期
2 卢宏超;石秋艳;石宝晨;张治华;赵屹;唐素勤;熊磊;王强;陈润生;;基于蛋白质网络功能模块的蛋白质功能预测[J];生物化学与生物物理进展;2006年05期
3 王繁业;李亚非;;用于新药开发的新的蛋白质功能预测方法[J];化学与生物工程;2006年09期
4 王秀鹤;王正华;王勇献;张振慧;;基于分组重量编码的蛋白质功能预测[J];生物信息学;2007年01期
5 倪青山;王正志;黎刚果;孟祥林;;基于K近邻的蛋白质功能的预测方法[J];生物医学工程研究;2009年02期
6 蒋英芝;贺连华;刘建军;;蛋白质功能研究方法及技术[J];生物技术通报;2009年09期
7 胡敏菁;吴建盛;施识帆;刘宏德;孙啸;;面向蛋白质功能位点识别的机器学习平台构建[J];生物信息学;2010年01期
8 赵研;卢奕南;权勇;;基于模糊积分多源数据融合的蛋白质功能预测[J];南京大学学报(自然科学版);2012年01期
9 吴建盛;;基于新型机器学习方法的蛋白质功能预测与分析[J];信息通信;2012年05期
10 刘言;沈素萍;方慧生;陈凯先;;蛋白质功能预测方法概述[J];生物信息学;2013年01期
相关会议论文 前10条
1 卢乃浩;张燕;李海玲;高中洪;;蛋白质酪氨酸硝化修饰对蛋白质功能影响及抗氧化剂的作用[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
2 郭延芝;李梦龙;;蛋白质功能预测中的特征筛选与优化[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
3 汪世华;;蛋白质芯片用于快速检测的研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
4 郭延芝;文志宁;李梦龙;;基于序列信息的蛋白质功能预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
5 王靖;李霞;高磊;朱明珠;杨德武;;蛋白质功能位点和结构域与人类蛋白质互作关联分析[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
6 刘克良;梁远军;;肽类药物研究进展[A];2006第六届中国药学会学术年会大会报告集[C];2006年
7 刘俊峰;王新泉;王占新;安晓敏;常文瑞;梁栋材;;造血干细胞中特异表达新基因kd93的重组表达和晶体结构研究[A];中国科协2005年学术年会生物物理与重大疾病分会论文摘要集[C];2005年
8 常珊;李春华;龚新奇;陈慰祖;王存新;;蛋白质不同区域的氨基酸保守性网络分析[A];第十次中国生物物理学术大会论文摘要集[C];2006年
9 张长胜;来鲁华;;基于关键相互作用的蛋白质功能设计[A];第五届全国化学生物学学术会议论文摘要集[C];2007年
10 李亦学;;蛋白质组功能注释[A];中国蛋白质组学第二届学术大会论文摘要论文集[C];2004年
相关重要报纸文章 前4条
1 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
2 刘云涛;北大蛋白质功能设计研究获新进展[N];中国医药报;2007年
3 记者 吴仲国;日首次公开招募研究人员[N];科技日报;2001年
4 华琳 王治强;我校三项“973”项目通过科技部验收[N];新清华;2005年
相关博士学位论文 前9条
1 滕志霞;基于序列和PPI网络的蛋白质功能预测方法研究[D];哈尔滨工业大学;2016年
2 孙承磊;基于数据挖掘技术的蛋白质功能预测研究[D];上海大学;2013年
3 窦永超;预测蛋白质功能位点的几种新数学模型[D];大连理工大学;2011年
4 施绍萍;基于支持向量机的蛋白质功能预测新方法研究[D];南昌大学;2012年
5 俞晓晶;基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D];中国科学院研究生院(上海生命科学研究院);2006年
6 张同亮;基于智能计算的蛋白质功能预测研究[D];东华大学;2008年
7 马志强;蛋白质功能预测的非同源性计算方法研究[D];吉林大学;2009年
8 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年
9 张拓;两种特殊类型蛋白质功能残基的预测与生物序列比对[D];南开大学;2009年
相关硕士学位论文 前10条
1 郭金文;基于序列循环关系网络模型的蛋白质功能预测技术研究[D];福建师范大学;2015年
2 刁印;基于图理论和互作网络的蛋白质功能预测研究[D];大连理工大学;2015年
3 张信;基于多数据源融合的蛋白质功能预测方法研究[D];大连理工大学;2015年
4 刘殿昆;NaHCO_3胁迫下柽柳(T.hispida)根部差异表达蛋白质的研究[D];东北林业大学;2016年
5 梁华东;基于流形学习的蛋白质功能预测与优化[D];安徽大学;2017年
6 王博;基于频繁功能模式的蛋白质功能预测[D];吉林大学;2012年
7 赵研;模糊积分在蛋白质功能预测上的应用[D];吉林大学;2012年
8 李希;基于序列特征的蛋白质功能类预测方法研究[D];湖南大学;2010年
9 王秀鹤;基于序列和相互作用的蛋白质功能预测[D];国防科学技术大学;2006年
10 邓小龙;基于随机游走的蛋白质功能预测方法的研究[D];吉林大学;2012年
,本文编号:2242391
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2242391.html