基于多目标粒子群算法的蛋白质结构优化研究
发布时间:2020-11-09 04:45
蛋白质结构预测问题是从蛋白质的一维结构即氨基酸序列预测蛋白质的三维结构,而蛋白质优化则是由一个粗糙的初始预测结构得到更加接近真实的结构。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医药学的研究,都是非常重要的。目前,蛋白质结构优化主要面临三个挑战。一个是关于三维结构的实验先验知识不足、能量函数的描述不够准确,所以能量极小值的结构并不能保证是最接近真实结构的;另一个是缺乏高效的优化算法来进行巨大构像空间的搜索,往往无法有效地搜索到较优的结构;还有就是缺乏有效的蛋白质结构质量评测方法来从候选结构集中选择最好的结构。针对以上三个问题,本文提出了一个全新的基于多目标粒子群算法的蛋白质结构优化方法:AIR(Artificial Intelligence-based protein Refinement method)。其基本思想是选择多个能量函数作为多目标优化的目标函数从而来减少单个能量函数带来的误差,并且运用群智能粒子群算法的信息共享机制来进行更快速准确的结构搜索,最后根据多目标优化问题的特性使用数学统计的方式选择最终结构。AIR整体可分为三步骤:(1)收集多个待优化的初始结构作为输入;(2)利用多目标粒子群方法进行多次的迭代,计算每个结构的目标函数值并根据Pareto最优选择非支配的结构;(3)在最终的非支配结构中根据期望边际效用进行排序,选出最终的优化结构作为输出。为了验证优化效果,本文在具有代表性的测试集上进行了多方面的实验,并且与领域内其他方法进行了对比,实验结果证明多目标方法AIR的可行性,优化后的蛋白质结构在均方根误差RMSD(Root Mean Square Derivation)、TM-score(Template Model score)等评价指标上都取得非常不错的表现,且优化表现明显优于其他方法。此外,为了加快研究成果的转化与普及,还搭建了一个在线网络平台供研究人员实时免费的访问,访问地址是:www.csbio.sjtu.edu.cn/bioinf/AIR/。
【学位单位】:上海交通大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q51;TP18
【部分图文】:
上海交通大学硕士学位论文.1.2 蛋白质的多级结构蛋白质是构成生命的物质基础,是一种复杂的有机化合物,而氨基酸是组白质的基本单位。自然界中蛋白质种类繁多,但组成蛋白质的氨基酸主要有,通过氨基酸的不同种类和不同比例进行组合。氨基酸分子呈线性排列,通水缩合形成肽链,即相邻氨基酸残基的羧基和氨基通过肽键链接在一起,而肽链通过复杂的折叠形成不同层次的结构。生物学界常常将蛋白质的结构分为四个层次(如图 1-1 所示):一级结构,也组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部,肽链中的主链借助氢键,有规则的卷曲折叠成沿一维方向具有周期性结构象,主要有 螺旋、 折叠,还有一些不规则的卷曲;三级结构,即指一条链在二级结构或者超二级结构甚至结构域的基础上,进一步盘绕、折叠,依级键的维系固定所形成的特定空间结构[3];四级结构是由不同的三级结构通基之间的相互作用形成的具有某种功能的蛋白质复合物分子[4]。
螺旋是蛋白质中最常见最典型含量最丰富的二级结构元件,这种结构有天的稳定性。其围绕中心的轴进行旋转,每个螺旋周期包含 3.6 个氨基酸残基,两个螺旋间与轴平行。同一肽链上的每个残基的酰胺氢原子和位于它后面的第个残基上的羰基氧原子之间形成氢键,这种氢键大致与螺旋轴平行。从整体外上看是圆筒状,氢键的作用以及这种螺旋状结构使得其稳定性相当好[9]。 折叠也是一种重复性的结构,其示意图如图 1-2 所示,它们是通过肽链间肽段间的氢键维系。其主链骨架以一定的折叠形式形成一个折叠的片,可以把们想象为由折叠的条状纸片侧向并排而成,每条纸片可看成是一条肽链,肽主链纸条形成锯齿状,处于最伸展的构象。 折叠可分为平行式和反平行式两种类。三级结构是将多肽链通过多种相互作用来进行折叠,形成比较稳定的三维结,也叫做亚基,这个过程也叫做蛋白质的折叠。四级结构是由多个多肽链在拥完整的三维结构后以非共价键相连所形成的空间排布,这种相互作用力包括氢、离子键等。
息运用到三维结构的预测中。在 Rosetta 中,考虑到计算量,其蛋白质结构未采用全原子模型,而是由C 简化模型来表示的,该简化模型包括蛋白质主要重原子,如碳、氮、氧原子,以及侧链的Cb 原子,搜索策略是蒙特卡和模拟退火,也是应用非常广泛的优化算法。Rosetta 在 CASP(Critical Asnt of Structure Prediction)比赛上的表现一直非常不错。还有一个有名的方法是与Rosetta 齐头并进的还有Yang Zhang实验室I-TASSER[11],它是一个蛋白质结构与功能预测的方法,也是从头预测与模相结合的一种实现。它主要通过四个步骤实现:首先从一个氨基酸序列开用串线方法到已知蛋白质结构库中找到相似的局部片段,未找到相似结构片段则通过从头预测方法产生初始局部结构;然后将这些结构片段拼接成三维结构,并通过蒙特卡洛方法进行优化组装;接着把这些组装后的结构类,选择聚类中心作为该次迭代产生的结构;重复以上过程进行多次迭代从这多次迭代产生的结构中选择能量最低态的结构作为最终输出的预测结构这类方法也会比较依赖数据库中的结构信息,而且需要设计准确的打以及合适的组装方式。
【参考文献】
本文编号:2875911
【学位单位】:上海交通大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q51;TP18
【部分图文】:
上海交通大学硕士学位论文.1.2 蛋白质的多级结构蛋白质是构成生命的物质基础,是一种复杂的有机化合物,而氨基酸是组白质的基本单位。自然界中蛋白质种类繁多,但组成蛋白质的氨基酸主要有,通过氨基酸的不同种类和不同比例进行组合。氨基酸分子呈线性排列,通水缩合形成肽链,即相邻氨基酸残基的羧基和氨基通过肽键链接在一起,而肽链通过复杂的折叠形成不同层次的结构。生物学界常常将蛋白质的结构分为四个层次(如图 1-1 所示):一级结构,也组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部,肽链中的主链借助氢键,有规则的卷曲折叠成沿一维方向具有周期性结构象,主要有 螺旋、 折叠,还有一些不规则的卷曲;三级结构,即指一条链在二级结构或者超二级结构甚至结构域的基础上,进一步盘绕、折叠,依级键的维系固定所形成的特定空间结构[3];四级结构是由不同的三级结构通基之间的相互作用形成的具有某种功能的蛋白质复合物分子[4]。
螺旋是蛋白质中最常见最典型含量最丰富的二级结构元件,这种结构有天的稳定性。其围绕中心的轴进行旋转,每个螺旋周期包含 3.6 个氨基酸残基,两个螺旋间与轴平行。同一肽链上的每个残基的酰胺氢原子和位于它后面的第个残基上的羰基氧原子之间形成氢键,这种氢键大致与螺旋轴平行。从整体外上看是圆筒状,氢键的作用以及这种螺旋状结构使得其稳定性相当好[9]。 折叠也是一种重复性的结构,其示意图如图 1-2 所示,它们是通过肽链间肽段间的氢键维系。其主链骨架以一定的折叠形式形成一个折叠的片,可以把们想象为由折叠的条状纸片侧向并排而成,每条纸片可看成是一条肽链,肽主链纸条形成锯齿状,处于最伸展的构象。 折叠可分为平行式和反平行式两种类。三级结构是将多肽链通过多种相互作用来进行折叠,形成比较稳定的三维结,也叫做亚基,这个过程也叫做蛋白质的折叠。四级结构是由多个多肽链在拥完整的三维结构后以非共价键相连所形成的空间排布,这种相互作用力包括氢、离子键等。
息运用到三维结构的预测中。在 Rosetta 中,考虑到计算量,其蛋白质结构未采用全原子模型,而是由C 简化模型来表示的,该简化模型包括蛋白质主要重原子,如碳、氮、氧原子,以及侧链的Cb 原子,搜索策略是蒙特卡和模拟退火,也是应用非常广泛的优化算法。Rosetta 在 CASP(Critical Asnt of Structure Prediction)比赛上的表现一直非常不错。还有一个有名的方法是与Rosetta 齐头并进的还有Yang Zhang实验室I-TASSER[11],它是一个蛋白质结构与功能预测的方法,也是从头预测与模相结合的一种实现。它主要通过四个步骤实现:首先从一个氨基酸序列开用串线方法到已知蛋白质结构库中找到相似的局部片段,未找到相似结构片段则通过从头预测方法产生初始局部结构;然后将这些结构片段拼接成三维结构,并通过蒙特卡洛方法进行优化组装;接着把这些组装后的结构类,选择聚类中心作为该次迭代产生的结构;重复以上过程进行多次迭代从这多次迭代产生的结构中选择能量最低态的结构作为最终输出的预测结构这类方法也会比较依赖数据库中的结构信息,而且需要设计准确的打以及合适的组装方式。
【参考文献】
相关期刊论文 前5条
1 刘言;沈素萍;方慧生;陈凯先;;蛋白质功能预测方法概述[J];生物信息学;2013年01期
2 肖晓伟;肖迪;林锦国;肖玉峰;;多目标优化问题的研究概述[J];计算机应用研究;2011年03期
3 林亚静;刘志杰;龚为民;;蛋白质结构研究[J];生命科学;2007年03期
4 徐建华,朱家勇;生物信息学在蛋白质结构与功能预测中的应用[J];医学分子生物学杂志;2005年03期
5 罗刚,陈春俊,李治;多目标优化问题中目标间矛盾性关系的研究[J];西南交通大学学报;1999年04期
本文编号:2875911
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2875911.html