基于知识的蛋白质结构预测复合打分函数
发布时间:2021-08-14 02:49
蛋白质的三维结构对于研究它的功能及其相关的药物设计至关重要,多年来,科学家们提出了各种各样基于氨基酸序列的蛋白质三维结构预测方法。通常来说,蛋白质结构预测包含构象产生和构象筛选两个基本过程,其中,在对大批量构象进行筛选时,能否挑出最接近天然结构的蛋白质构象,结构评估函数也即是通常所说的打分函数的精准与否显得尤为重要。根据统计力学,一个物理系统的稳定状态对应于它的最低自由能,对于包含大量原子的蛋白质大分子当然也不例外,因此对于从物理自由能角度推导的打分函数来说,理想的打分函数应该给予天然蛋白质最低能量分数。由于蛋白质数据库(Protein Data Bank,PDB)中包含了大量通过实验解出的蛋白质结构数据信息,同时考虑到其数量不断增长的态势,基于知识的蛋白质结构打分函数在近几十年获得了广泛关注,在蛋白质结构预测领域取得了很大成功,精细化程度也相应得到不断的提高。然而,出于对计算速度以及打分函数设计简化性的考虑,当前的基于知识的打分函数通常只考虑非成键相互作用,而把构象熵以及共价键的键长势能和键角势能部分排除在外。这种处理方式导致打分函数在对具有良好的共价键结构的蛋白质三维构象进行打分时...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:106 页
【学位级别】:博士
【部分图文】:
蛋白质一到四级结构示意图
在图 3-3 中。从表 3-4 和图 3-3 中给出的对比结果可以看出,ITDA 表现明显优于其它 6 个打分函数,分别在 Rosetta_set(3DR)测试集上识别出 58 个靶标中的 53 个天然蛋白质结构;在 Modeller_set(3DR)测试集上识别出 20 个靶标中的 15 个天然蛋白质结构;在 I-TASSER_set(3DR)测试集上识别出 56 个靶标中的 39 个天然蛋白质结构。平均来看,ITDA 在 3 个 3DRobot 测试集上识别出全部 134 个靶标测试集中的 107 个天然蛋白质结构,成功率和 Z-score 分别为 80%和 2.47,而其它 6 个打分函数都仅仅获得了低于 10%的成功率,Z-score 值小于 2.0。(5) 与 ITScore/Pro 的对比图 3-3 ITDA 与其它 6 种打分函数在 Rosetta_set(3DR)、Modeller_set(3DR)、I-TASSER_set(3DR) 三个测试集上的总体平均成功率与 Z-score 对比。
(2) AMBER 测试集由美国佐治亚理工学院的 Skolnick 教授研究组构建的 AMBER 测试集是另一个具有相当挑战性的、测试打分函数的基准数据集。这个数据集总共包含 47 个蛋白质靶标,每一个靶标拥有 1040 个假结构。所有的结构,无论天然态还是假结构,都在AMBER/GBSA 力场下经过 2ns 的 MD 优化模拟处理。这个基准数据集最初的设计目的是用来检查 AMBER/GBSA 力场从假结构中识别天然态的有效性。由于使用AMBER 进行了 2ns 的松弛模拟,其天然态或者假结构构象中的所有原子形成了良好的堆砌,具有良好的静电和 VDW 相互作用接触。因此,若是在这个测试集上进行识别出天然态的打分测试,可想而知是具有相当的挑战性。图 4-2 展示了我们的打分函数 ITCPS 在 AMBER 基准测试集中,将蛋白质天然态从各自相应的大量假结构中识别出来的成功率。为了进行对比,图中也列出了其它九种打分函数的相应测试结果,如 ITDA、dDFIRE、ITScore/Pro、OPUS-PSP、
【参考文献】:
期刊论文
[1]蛋白质结构预测[J]. 邓海游,贾亚,张阳. 物理学报. 2016(17)
[2]Residual occurrence and energy property of proteins in HNP model[J]. 姜舟婷,窦文辉,沈瑜,孙婷婷,徐鹏. Chinese Physics B. 2015(11)
[3]生物大分子多尺度理论和计算方法[J]. 李文飞,张建,王骏,王炜. 物理学报. 2015(09)
本文编号:3341617
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:106 页
【学位级别】:博士
【部分图文】:
蛋白质一到四级结构示意图
在图 3-3 中。从表 3-4 和图 3-3 中给出的对比结果可以看出,ITDA 表现明显优于其它 6 个打分函数,分别在 Rosetta_set(3DR)测试集上识别出 58 个靶标中的 53 个天然蛋白质结构;在 Modeller_set(3DR)测试集上识别出 20 个靶标中的 15 个天然蛋白质结构;在 I-TASSER_set(3DR)测试集上识别出 56 个靶标中的 39 个天然蛋白质结构。平均来看,ITDA 在 3 个 3DRobot 测试集上识别出全部 134 个靶标测试集中的 107 个天然蛋白质结构,成功率和 Z-score 分别为 80%和 2.47,而其它 6 个打分函数都仅仅获得了低于 10%的成功率,Z-score 值小于 2.0。(5) 与 ITScore/Pro 的对比图 3-3 ITDA 与其它 6 种打分函数在 Rosetta_set(3DR)、Modeller_set(3DR)、I-TASSER_set(3DR) 三个测试集上的总体平均成功率与 Z-score 对比。
(2) AMBER 测试集由美国佐治亚理工学院的 Skolnick 教授研究组构建的 AMBER 测试集是另一个具有相当挑战性的、测试打分函数的基准数据集。这个数据集总共包含 47 个蛋白质靶标,每一个靶标拥有 1040 个假结构。所有的结构,无论天然态还是假结构,都在AMBER/GBSA 力场下经过 2ns 的 MD 优化模拟处理。这个基准数据集最初的设计目的是用来检查 AMBER/GBSA 力场从假结构中识别天然态的有效性。由于使用AMBER 进行了 2ns 的松弛模拟,其天然态或者假结构构象中的所有原子形成了良好的堆砌,具有良好的静电和 VDW 相互作用接触。因此,若是在这个测试集上进行识别出天然态的打分测试,可想而知是具有相当的挑战性。图 4-2 展示了我们的打分函数 ITCPS 在 AMBER 基准测试集中,将蛋白质天然态从各自相应的大量假结构中识别出来的成功率。为了进行对比,图中也列出了其它九种打分函数的相应测试结果,如 ITDA、dDFIRE、ITScore/Pro、OPUS-PSP、
【参考文献】:
期刊论文
[1]蛋白质结构预测[J]. 邓海游,贾亚,张阳. 物理学报. 2016(17)
[2]Residual occurrence and energy property of proteins in HNP model[J]. 姜舟婷,窦文辉,沈瑜,孙婷婷,徐鹏. Chinese Physics B. 2015(11)
[3]生物大分子多尺度理论和计算方法[J]. 李文飞,张建,王骏,王炜. 物理学报. 2015(09)
本文编号:3341617
本文链接:https://www.wllwen.com/projectlw/swxlw/3341617.html