基于序列分段近邻编码的蛋白质热点残基预测方法研究

发布时间：2020-05-20 07:11

【摘要】：在蛋白质与蛋白质相互作用时,其结合自由能仅由一小部分氨基酸残基贡献,这部分关键残基被称为热点残基。蛋白质功能的实现往往依赖热点残基,热点残基大部分聚集在蛋白质相互作用界面的中心位置,对蛋白质与蛋白质的结合起着至关重要的作用。因此,加深对热点残基的理解对于生命科学的发展具有积极的贡献。当前,科研工作者们主要依靠丙氨酸突变扫描技术来判定热点残基,但是这种方法成本较高又耗时耗力,只能在小范围应用。所以急需要更准确、更高效的方法来识别蛋白质界面热点残基。本文提出了序列分段近邻编码方法,并基于随机森林(Random Forest)分类算法来构建预测模型,从而鉴别蛋白质相互作用界面中的热点残基。首先从ASEdb数据库中抽取训练集,然后提取了 10个氨基酸理化属性、16个与突出指数(PI)和深度指数(DI)相关的特征以及25个与溶剂可及表面积(ASA)相关的特征。本文改进了蛋白质编码方式,对蛋白质热点残基的预测方式提供了新思路。不同于以往蛋白质序列的自相关描述符编码、三联体组合信息编码等方式,本文考虑到与热点残基临近的氨基酸以及有一定间隔的氨基酸对热点残基的影响,调整热点残基所在区间的滑动窗口长度,并将蛋白质序列平均分割成3、4、5段,由此建立预测模型,通过交叉验证最终选取了最佳的设置参数。为了验证预测模型的可靠性,本文从BID数据库中提取出独立测试集,来验证提出的模型。最后,将本文的预测模型与现有的热点残基预测方法进行了对比,这些模型在热点残基预测研究方面具有重要意义,其中包括APIS、Robetta、FOLDEF、KFC以及MINERVA模型。在使用相同训练集构建的模型之中,本文的模型在相同测试集上,明显地提升了对蛋白质界面热点残基的预测能力,表明了本文方法的可靠性。
【图文】：

分段方法,示例,残基,热点

图３．１蛋白质序列分段方法示例逡逑Ｆｉｇ邋３．１邋Ｅｘａｍｐｌｅ邋ｏｆ邋ｐｒｏｔｅｉｎ邋ｓｅｑｕｅｎｃｅ邋ｓｅｇｍｅｎｔａｔｉｏｎ邋ｍｅｔｈｏｄ逡逑图３．１中，假设这是一整条含有热点残基或非热点残基的蛋白质序列，序列逡逑中的每个字母均表示相应的氨基酸类别，序列总长度为Ｌ，其中第二个箭头所指逡逑示的氨基酸Ｋ就是一个热点或非热点残基的样本点，依据本文在３．４．２中所述的逡逑蛋白质序列滑动窗口策略，在样本点Ｋ左右各取４个氨基酸构成一个组合，即逡逑样本点Ｋ所在的滑动窗口长度为９。逡逑在以前的方法中，通常只取样本点相邻近的氨基酸残基组成滑动窗口，来预逡逑测热点残基，并没有考虑到在一级结构下的蛋白质序列虽然为线段形，而在蛋白逡逑质的高级结构中，序列需要经过加工折叠，一个残基是由于结构上相互临近的残逡逑基与其相互作用才成为热点残基的，而这些对一个残基成为热点起到积极作用的逡逑残基

滑窗,计算方法,残基,热点

ｈｉ邋＞ｙｎｏｎ－ｈｏｔ逡逑Ｓｅｃｔｉｏｎ邋－邋Ｌ／４逡逑图３．１蛋白质序列分段方法示例逡逑Ｆｉｇ邋３．１邋Ｅｘａｍｐｌｅ邋ｏｆ邋ｐｒｏｔｅｉｎ邋ｓｅｑｕｅｎｃｅ邋ｓｅｇｍｅｎｔａｔｉｏｎ邋ｍｅｔｈｏｄ逡逑图３．１中，假设这是一整条含有热点残基或非热点残基的蛋白质序列，序列逡逑中的每个字母均表示相应的氨基酸类别，序列总长度为Ｌ，其中第二个箭头所指逡逑示的氨基酸Ｋ就是一个热点或非热点残基的样本点，依据本文在３．４．２中所述的逡逑蛋白质序列滑动窗口策略，在样本点Ｋ左右各取４个氨基酸构成一个组合，，即逡逑样本点Ｋ所在的滑动窗口长度为９。逡逑在以前的方法中，通常只取样本点相邻近的氨基酸残基组成滑动窗口，来预逡逑测热点残基，并没有考虑到在一级结构下的蛋白质序列虽然为线段形，而在蛋白逡逑质的高级结构中，序列需要经过加工折叠，一个残基是由于结构上相互临近的残逡逑基与其相互作用才成为热点残基的
【学位授予单位】：安徽大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：Q51

【相似文献】