基于序列分段近邻编码的蛋白质热点残基预测方法研究
发布时间:2020-05-20 07:11
【摘要】:在蛋白质与蛋白质相互作用时,其结合自由能仅由一小部分氨基酸残基贡献,这部分关键残基被称为热点残基。蛋白质功能的实现往往依赖热点残基,热点残基大部分聚集在蛋白质相互作用界面的中心位置,对蛋白质与蛋白质的结合起着至关重要的作用。因此,加深对热点残基的理解对于生命科学的发展具有积极的贡献。当前,科研工作者们主要依靠丙氨酸突变扫描技术来判定热点残基,但是这种方法成本较高又耗时耗力,只能在小范围应用。所以急需要更准确、更高效的方法来识别蛋白质界面热点残基。本文提出了序列分段近邻编码方法,并基于随机森林(Random Forest)分类算法来构建预测模型,从而鉴别蛋白质相互作用界面中的热点残基。首先从ASEdb数据库中抽取训练集,然后提取了 10个氨基酸理化属性、16个与突出指数(PI)和深度指数(DI)相关的特征以及25个与溶剂可及表面积(ASA)相关的特征。本文改进了蛋白质编码方式,对蛋白质热点残基的预测方式提供了新思路。不同于以往蛋白质序列的自相关描述符编码、三联体组合信息编码等方式,本文考虑到与热点残基临近的氨基酸以及有一定间隔的氨基酸对热点残基的影响,调整热点残基所在区间的滑动窗口长度,并将蛋白质序列平均分割成3、4、5段,由此建立预测模型,通过交叉验证最终选取了最佳的设置参数。为了验证预测模型的可靠性,本文从BID数据库中提取出独立测试集,来验证提出的模型。最后,将本文的预测模型与现有的热点残基预测方法进行了对比,这些模型在热点残基预测研究方面具有重要意义,其中包括APIS、Robetta、FOLDEF、KFC以及MINERVA模型。在使用相同训练集构建的模型之中,本文的模型在相同测试集上,明显地提升了对蛋白质界面热点残基的预测能力,表明了本文方法的可靠性。
【图文】:
图3.1蛋白质序列分段方法示例逡逑Fig邋3.1邋Example邋of邋protein邋sequence邋segmentation邋method逡逑图3.1中,假设这是一整条含有热点残基或非热点残基的蛋白质序列,序列逡逑中的每个字母均表示相应的氨基酸类别,序列总长度为L,其中第二个箭头所指逡逑示的氨基酸K就是一个热点或非热点残基的样本点,依据本文在3.4.2中所述的逡逑蛋白质序列滑动窗口策略,在样本点K左右各取4个氨基酸构成一个组合,即逡逑样本点K所在的滑动窗口长度为9。逡逑在以前的方法中,通常只取样本点相邻近的氨基酸残基组成滑动窗口,来预逡逑测热点残基,并没有考虑到在一级结构下的蛋白质序列虽然为线段形,而在蛋白逡逑质的高级结构中,序列需要经过加工折叠,一个残基是由于结构上相互临近的残逡逑基与其相互作用才成为热点残基的,而这些对一个残基成为热点起到积极作用的逡逑残基
hi邋>ynon-hot逡逑Section邋-邋L/4逡逑图3.1蛋白质序列分段方法示例逡逑Fig邋3.1邋Example邋of邋protein邋sequence邋segmentation邋method逡逑图3.1中,假设这是一整条含有热点残基或非热点残基的蛋白质序列,序列逡逑中的每个字母均表示相应的氨基酸类别,序列总长度为L,其中第二个箭头所指逡逑示的氨基酸K就是一个热点或非热点残基的样本点,依据本文在3.4.2中所述的逡逑蛋白质序列滑动窗口策略,在样本点K左右各取4个氨基酸构成一个组合,,即逡逑样本点K所在的滑动窗口长度为9。逡逑在以前的方法中,通常只取样本点相邻近的氨基酸残基组成滑动窗口,来预逡逑测热点残基,并没有考虑到在一级结构下的蛋白质序列虽然为线段形,而在蛋白逡逑质的高级结构中,序列需要经过加工折叠,一个残基是由于结构上相互临近的残逡逑基与其相互作用才成为热点残基的
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51
【图文】:
图3.1蛋白质序列分段方法示例逡逑Fig邋3.1邋Example邋of邋protein邋sequence邋segmentation邋method逡逑图3.1中,假设这是一整条含有热点残基或非热点残基的蛋白质序列,序列逡逑中的每个字母均表示相应的氨基酸类别,序列总长度为L,其中第二个箭头所指逡逑示的氨基酸K就是一个热点或非热点残基的样本点,依据本文在3.4.2中所述的逡逑蛋白质序列滑动窗口策略,在样本点K左右各取4个氨基酸构成一个组合,即逡逑样本点K所在的滑动窗口长度为9。逡逑在以前的方法中,通常只取样本点相邻近的氨基酸残基组成滑动窗口,来预逡逑测热点残基,并没有考虑到在一级结构下的蛋白质序列虽然为线段形,而在蛋白逡逑质的高级结构中,序列需要经过加工折叠,一个残基是由于结构上相互临近的残逡逑基与其相互作用才成为热点残基的,而这些对一个残基成为热点起到积极作用的逡逑残基
hi邋>ynon-hot逡逑Section邋-邋L/4逡逑图3.1蛋白质序列分段方法示例逡逑Fig邋3.1邋Example邋of邋protein邋sequence邋segmentation邋method逡逑图3.1中,假设这是一整条含有热点残基或非热点残基的蛋白质序列,序列逡逑中的每个字母均表示相应的氨基酸类别,序列总长度为L,其中第二个箭头所指逡逑示的氨基酸K就是一个热点或非热点残基的样本点,依据本文在3.4.2中所述的逡逑蛋白质序列滑动窗口策略,在样本点K左右各取4个氨基酸构成一个组合,,即逡逑样本点K所在的滑动窗口长度为9。逡逑在以前的方法中,通常只取样本点相邻近的氨基酸残基组成滑动窗口,来预逡逑测热点残基,并没有考虑到在一级结构下的蛋白质序列虽然为线段形,而在蛋白逡逑质的高级结构中,序列需要经过加工折叠,一个残基是由于结构上相互临近的残逡逑基与其相互作用才成为热点残基的
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51
【相似文献】
相关期刊论文 前10条
1 王建;;蛋白质相互作用数据库[J];中国生物化学与分子生物学报;2017年08期
2 陈心浩;胡俭;;基于多特征融合预测蛋白质相互作用界面[J];中南民族大学学报(自然科学版);2017年03期
3 谭从娥;黄祥云;;基于蛋白质相互作用网络分析右归丸治疗肾阳虚证的疗效机制[J];中国中医药信息杂志;2016年02期
4 杨晓敏;李英伦;;基于蛋白质相互作用“热点”区域的小分子药物设计研究进展[J];生物物理学报;2015年02期
5 冯舒s
本文编号:2672260
本文链接:https://www.wllwen.com/projectlw/swxlw/2672260.html