当前位置:主页 > 理工论文 > 生物学论文 >

基于GBM算法识别蛋白质中金属离子配体的结合残基

发布时间:2020-04-12 19:28
【摘要】:蛋白质是生命的物质基础,在不同的生命过程中实现了不同的特殊功能。然而,许多蛋白质功能的实现需要结合特定的配体,超过三分之一的蛋白质需要与金属离子配体结合,因此金属离子配体对蛋白质功能的实现起着重要作用,正确识别蛋白质中金属离子配体的结合残基对人体健康及分子药物设计有重要意义。通过实验识别金属离子配体的结合残基费时耗材,且不能批量处理数据,所以利用理论计算的方法准确识别蛋白质中金属离子配体的结合残基显得尤为重要。此外,不是所有的蛋白质都有三维结构信息,因此本文从蛋白质的序列信息出发,对金属离子配体的结合残基进行了统计分析和预测,主要工作如下:(1)以10种金属离子配体Zn~(2+)、Cu~(2+)、Fe~(2+)、Fe~(3+)、Co~(2+)、Ca~(2+)、Mg~(2+)、Mn~(2+)、Na~+和K~+的结合残基为研究对象,根据前人的研究及蛋白质的生物学背景知识,选取了氨基酸残基、亲疏水、极化电荷、预测的二级结构以及相对溶剂可及性信息作为特征参数,通过对相对溶剂可及性信息进行统计分析,将相对溶剂可及性进行了重新分类,得到了4种不同的分类(SA_2、SA_V、SA_P、SA_4)。(2)以位点氨基酸、位点亲疏水、位点电荷、位点二级结构和位点相对溶剂可及性保守信息为基础特征,利用位置权重矩阵分别得到了2L维特征参数;将相对溶剂可及性4种不同分类分别对应的5*2L维特征参数输入梯度提升算法(GBM)对10种金属离子配体结合残基进行识别,根据最优的预测结果,我们得到了10种金属离子配体相对应的相对溶剂可及性的最优分类;5交叉检验下得到的最优预测结果好于前人的预测结果,预测总精度(Acc)和马氏相关系数(MCC)均高于77.9%和0.558。而且以降维之后的特征子集为特征参数,也得到了好于前人的预测结果,说明构建的预测模型稳定性较好。为了检验预测模型的实用性,对金属离子配体的预测模型进行了独立检验,得到了较好的预测结果。实验结果说明本文构建的预测模型对金属离子配体结合残基有较好的识别能力。(3)利用离散增量算法和位置权重矩阵打分算法分别对氨基酸、亲疏水、极化电荷、二级结构和相对溶剂可及性的组分信息和位点保守信息进行降维处理,得到了20维组合信息。以组合信息为特征参数,基于算法参数优化设置的GBM算法,给出了10种金属离子配体分别对应的最优算法参数以及最优预测结果。同时计算了以5*2L维位点保守信息为特征参数,GBM在算法参数优化设置下10种金属离子配体结合残基的预测结果,预测结果进一步说明GBM中算法参数的优化设置是很重要的。
【图文】:

分布情况,集样,配体,氨基酸


氨基酸组分信息在配体结合残基的识别工作中应用广泛[23,24][45],而且对配体结合残基的分类预测取得了较好的效果,所以本文对金属离子配体的氨基酸组分信息进行了统计分析,以 K+配体为例,我们统计了 20 种氨基酸在 K+配体正负集样本中的分布,对应的小提琴图见图 2-1。小提琴图是核密度图在箱线图上的叠加,结合了核密度图和箱线图的特征主要用来显示数据的分布情况。外层的核密度图表示核密度估计,而内部的箱线图中有五个统计量,最大值、上四分位数、中位数、下四分位数、最小值,这些数值给出了集中性、分散性、极端数据的分布情况,其中白点是中位数,,黑色盒型的范围是下四分位数到上四分位数,代表氨基酸的集中分布区间。每组图中左边为某一氨基酸在负集样本中出现的组分信息,右边为该种氨基酸在正集样本中出现的组分信息,纵坐标为该种氨基酸出现的频数。由图 2-1 可以明显看出:D(天冬氨酸)、E(谷氨酸)、G(甘氨酸)、L(亮氨酸)Q(谷酰胺)、S(丝氨酸)和 T(苏氨酸)在 K+配体正负集样本中的分布密度、集中分布区间和极端数据不同。

集样,亮氨酸,甘氨酸,配体


第二章 数据的统计分析和算法的介绍的箱线图可以看出,正负集样本的集中分布区间不同,负集样本中数据的集中分布区间为下四位数到中位数,即[0,1],而正集样本的集中区间为下四分位数到上四分位数,即[0,2]。同样的,L(亮氨酸)在正负集样本中的分布也存在较大差异。
【学位授予单位】:内蒙古工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51;TP301.6

【相似文献】

相关硕士学位论文 前2条

1 张晓瑾;基于GBM算法识别蛋白质中金属离子配体的结合残基[D];内蒙古工业大学;2019年

2 吴润林;基于GBM算法预测蛋白质琥珀酰化位点的研究与实现[D];辽宁大学;2017年



本文编号:2625097

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2625097.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户74467***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com