蛋白质—蛋白质相互作用的简易预测工具开发与实例研究

发布时间:2020-08-21 16:08
【摘要】:理解蛋白质-蛋白质相互作用(蛋白互作)是当代生物学的重要挑战任务,蛋白互作的计算预测与分析也已成为近期生物信息学领域的热门研究课题之一。在本研究中,作者首先建立了一个一般性的蛋白互作预测器,这一预测器利用了互作蛋白对间非随机的密码子对使用信息。此后,作者进一步针对两个重要实例——泛素化位点与微管结合蛋白开展了更为具体的研究。泛素化位点是底物被泛素化修饰的位点,它与泛素化酶直接互作。由于泛素化系统的复杂性,目前仍不清楚泛素化位点的哪些特征使其能特异地与泛素化酶结合并被修饰。因此,在第一项实例研究中,作者试图通过统计分析,挖掘人类泛素化位点的结构特征。微管结合蛋白,顾名思义,是微管的互作伙伴。微管作为一种高度动态的蛋白复合体,它与伙伴的互作关系往往不能被一般的二元蛋白互作组所完全覆盖。在第二项实例研究中,作者通过人工文献搜集得到了一个高可信度的微管结合蛋白的数据集,并据此提取特征,构建了全新的微管结合蛋白在线分析工具。 最近,借由机器学习技术,不依赖同源性的简单序列编码被越来越多地应用于蛋白互作的预测问题上。初步分析显示,酵母中互作蛋白对间的密码子对使用与随机蛋白对显著不同。受这一现象启发,作者开发了一种基于密码子对频率差异编码与支持向量机分类模型的蛋白互作预测器CCPPI.在正负样本平衡的酵母数据集上进行的十折交叉检验结果表明,提出的编码优于其它简单序列编码。而在更严格的、非平衡的大规模独立测试集上,CCPPI展示出与同类方法可比或更优的精度,其整体预测性能也排名前列。通过对CCPPI真阳性预测结果的统计分析,作者发现它倾向于反映互作蛋白对间蛋白质组水平共表达、功能相似的关系,这一特点或许有利于其对蛋白互作的预测。另一方面,和同类蛋白互作预测器一样,CCPPI也被发现存在假阳性率高的问题。尽管如此,进一步与依赖同源性的蛋白互作预测方法的比较表明,CCPPI与基于保守性或系统发育谱相关性的预测方法能相互补充。因此,当这些依赖同源性的方法失效时,CCPPI将是一个良好的备选蛋白互作预测器。作者构建了CCPPI在线预测服务器,免费对学术界开放使用,具体网址是http://protein.cau. edu.cn/ccppi。 对于绝大多数人类蛋白质来说,其存续与功能是受泛素化过程调控的。时至今日,通过高通量蛋白质组学实验,数以万计的人类泛素化位点被鉴定出来。然而,泛素化位点的选择机制仍不明确,这要归因于泛素化位点侧翼复杂的序列模式。作者对一个包含有505个人类蛋白质结构的数据集开展了系统的分析。这一结构数据集覆盖了1330个高置信度的泛素化位点。定量分析结果显示,泛素化位点具有更高的可及性。而一个意外发现是,泛素化位点具有更高的中心性。进一步分析表明,泛素化位点更高的中心性与其能够影响(包括蛋白互作界面在内的)多种蛋白质功能位点的特性有关。作者的分析还表明,在一维序列上,泛素化位点的侧翼呈现出非随机的局部构象模式;而在三维空间上,泛素化位点则被一组非随机的氨基酸残基所围绕。最后,定量分析结果清楚地显示泛素化位点的结构特征与序列模式是能够相互补充的,这实质上暗示了结构水平上的泛素化位点选择机制存在的可能性。 微管是真核生物细胞骨架的主要成分之一。它能调控细胞形态、细胞分裂、胞内运输、细胞信号转导等诸多生物过程,而微管的这些生物学功能正是通过一系列微管结合蛋白行使与控制的。领域内专家已经注意到已知的微管结合蛋白具有明显的多样性,而新种类的微管结合蛋白也不断地被鉴定出来。与此产生鲜明对比的是,目前尚没有专门收录已知微管结合蛋白的数据库,也没有专门的预测器以帮助发现新的微管结合蛋白。作者建立了一个以微管结合蛋白为中心的在线分析工具MAPanalyzer,它包括了两个部分:微管结合蛋白数据库与微管结合蛋白预测器。微管结合蛋白数据库的核心数据集是完全由作者人工文献搜集得到的。这些信息与其它通过自动化流程得到的蛋白注释共同组成了微管结合蛋白数据库。人工搜集的核心数据集也使得进一步提取微管结合蛋白的代表性模体成为可能。利用这些代表性模体,设计了一个半监督的支持向量机分类器,并将其与同源序列搜索方法BLAST整合,以构成新的微管结合蛋白预测器。在基于高质量独立测试集和拟南芥全基因组数据集的预测性能评测中,整合的预测器的表现不仅优于其构成组分(即支持向量机分类器与BLAST),还优于该领域内另一个常用的同源蛋白搜索工具PSI-BLAST.和CCPPI一样,MAPanalyzer (http://systbio.cau.edu.cn/mappred/)同样可供学术界免费使用。
【学位授予单位】:中国农业大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q51
【图文】:

蛋白质序列,数据库记录,增长情况,蛋白


UniProtKB/Swiss-Prot数据库中。一个事实是,尽管同出一门(UniProt Consortium, 2015),两者的蛋白条目数长期存在着数量级的差异,而且这个差异正在逐步加大。如图1-1所示,根据UniProt定期更新的数据库统计信息(http://www.uniprot.org/statistics/), 2014年1月,TrEMBL蛋白记录数约为5000万,而Swiss-Prot蛋白记录数约为54万。而仅仅一年过后,TrEMBL蛋白记录数己迅速跃进至接近9000万的水平,而Swiss-Prot增长平缓,仅达到接近55万(547085)的水平。值得注意的是,考虑到序列同源性,蛋白质序列信息总量与功能信息总量的差异并没有如此巨大。然而

预测方法,互作,蛋白质相互作用,蛋白


的计算预测方法成为了对实验鉴定方法的重要补充。如图1-2所示,蛋白互作的计算预测方法大体可以归为依赖同源性的方法与不依赖同源性的方法。依赖同源性的方法可以进一步分为直接映射方法和共进化方法,不依赖同源性的方法又可以分为关联法与基于序列的机器学习方法。下面首先对一些代表性方法进行简介,然后对本论文所涉及的机器学习法的一般流程加以详细介绍。1.1.2.1 依赖同源性的计算预测方法直系同源蛋白互作对映射法(interologmapping):直系同源蛋白互作对(interolog)这一概念最早由Vidal课题组提出,指的是不同物种间一对直系同源蛋白间保守的互作关系(Matthews et al.,2001)o他们发现,这种保守的互作关系并不罕见,在抽选的直系同源蛋白对中,16%-31%的互作关系在物种间是保守的。这一发现大大鼓舞了相关方法学的发展,即将模式生物测定的蛋白互作信息转移给其它物种的直系同源蛋白对。这一方法的优点是不需要任何异源数据(如转录组)信息

蛋白质—蛋白质相互作用的简易预测工具开发与实例研究


图.妞州仁.0r门}wco甲佃娜颐训0口taeIs"护峨下阳O肠州.f口d.月,娜喊的亡C加r脚衬抽倪协的翻e矛,p目川

【共引文献】

相关期刊论文 前10条

1 庄振华;王年;李学俊;梁栋;王继;;癌症基因表达数据的熵度量分类方法[J];安徽大学学报(自然科学版);2010年02期

2 陈乐;王年;苏亮亮;王蕊平;;基于邻接谱主分量分析的肿瘤分类方法[J];安徽大学学报(自然科学版);2011年04期

3 叶爱霞;王年;苏亮亮;;基于非负矩阵分解和Normal_Matrix的肿瘤基因分类[J];安徽大学学报(自然科学版);2012年03期

4 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期

5 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期

6 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期

7 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期

8 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期

9 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期

10 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期

相关会议论文 前10条

1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年

2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年

3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年

4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年

5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年

6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年

7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年

8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年

10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年

相关博士学位论文 前10条

1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年

2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年

3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年

4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年

5 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年

6 章鹏;多尺度特征检测:方法和应用研究[D];中国科学技术大学;2010年

7 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年

8 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年

9 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年

10 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年

相关硕士学位论文 前10条

1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年

2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年

3 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年

4 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年

5 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年

6 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年

7 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年

8 韩艳;基于支持向量机的发酵过程建模研究[D];大连理工大学;2010年

9 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年

10 梁怀志;基于嵌入式的车型分类系统的设计与实现[D];大连理工大学;2010年



本文编号:2799587

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/2799587.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ba8c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com