蛋白质突变位点数据库的构建及位点预测研究
发布时间:2020-05-21 17:12
【摘要】:随着生物数据不断地增长,研究人员开始借助于计算机来分析海量的生物学数据。蛋白质的研究一直是热门话题,研究深度逐渐拓宽。随着越来越多的蛋白质结构被解析,研究人员获得了大量的蛋白质晶体,也为研究蛋白质-蛋白质相互作用提供生物学数据支持。蛋白质-蛋白质相互作用通过控制细胞内外的生物学通路从而对生命活动的完整性产生重大影响。而热点残基扮演着蛋白质间相互作用界面的功能性位点的角色,并且对整个相互作用过程有着调节功能。近些年来,研究人员借助解析热点残基的研究工作,来进一步研究蛋白质间相互作用在细胞生命活动中的影响。本文首先收集蛋白质间相互作用的相关生物学数据,构建一个突变蛋白质间相互作用动力学和热力学数据库,并在此基础上,构建集成机器学习自相关模型来预测蛋白质复合物界面处的热点残基。具体的研究内容总结如下:1、构建突变蛋白质间相互作用动力学和热力学数据库。基于先前研究者整理收集的数据库,从以下两个方面来收集数据。首先,收集并整合以前的数据库并获得部分的数据。这些数据库收集和储存突变蛋白的热力学和动力学数据,包括SKEMPI,BID和AB-Bind。其次,再利用文献挖掘获取近三年新增的突变蛋白质的热力学和动力学数据。进行文献搜索时,本文基于两点进行考虑。第一点,从蛋白质结构开始,通过搜索关键词来锁定蛋白质复合物,将这些蛋白质复合物置于PDB-Bind数据库中进行比对,以获得具有Kd值的蛋白质复合物,然后阅读文献,获取文献中需要收集的数据。第二点,基于发表的相关文献,通过关键词进行搜索近三年所发表的相关文献,通过阅读文献的方式获得突变蛋白质的热力学和动力学数据。由此,最终获得了5291个突变体,这些突变体来自于341种蛋白质复合物。基于得到的突变数据,构建一个突变蛋白质间相互作用热力学和动力学数据库网站-dbMPIKT。用户可通过搜寻网址进入网站浏览突变数据,进行查询和下载等操作。此外,对突变数据进行简单的统计分析,利用cytoscape工具创建蛋白质相互作用网络,用户可以在网站的文件界面看到有关突变数据的生物学分析。因此,dbMPIKT数据库提供较全面的突变体数据,并对近三年的数据进行更新,更加方便研究人员获取到突变体数据。2、构建集成学习自相关模型来预测PPI界面处的功能性位点-热点残基。基于已构建的突变蛋白质相互作用热力学和动力学数据库,利用得到的数据集来进行热点残基的预测。首先,在数据集的选择上,基于相关人员的研究,最终选择五套数据集,包括:ASEdb,BID,SKEMPI,dbMPIKT以及构建的混合数据集。其中:ASEdb和BID是用于训练和测试的标准数据集,其他三组数据集用作独立的测试集。为增加模型的可靠性,将这三个数据集进行整合,得到一个数据量较大的数据集作为独立测试集。其次,本文提出将自相关函数方法应用到氨基酸序列的编码,在AAindex1上经过相关因子的筛选,得到46种氨基酸的物理化学性质来表征氨基酸序列,再利用自相关函数结合滑动窗口的思想来获得最终的特征。在分类器选择上,构建集成分类器,将支持向量机和K-最邻近算法结合进行模型的训练和测试,最后得到最终的预测模型。本文构建一个突变蛋白质间相互作用的生物学数据库和有效的预测模型,可预测热点残基且预测结果良好。本文旨在对蛋白质间相互作用的数据和热点残基预测模型方面进行研究,为蛋白质功能相关研究的研究人员提供数据基础和研究思路。
【图文】:
蛋白质突变位点数据库的构建及位点预测研宄逦逡逑一组关键词包含PPI,氨基酸突变和动力学数据。通过这两组关键词,获得425逡逑相关的文献。第二步,通过在PDB数据库中使用一些查询项目进行高级搜索逡逑得蛋白质复合物的结构,即大分子类型(仅含有蛋白质),蛋白质化学计量学逡逑(异二聚体复合物),发布日期(2013年1月1日至2016年12月31日)和X逡逑线分辨率(小于3邋A)。最终从PDB数据库中的682篇文献中获得1017个蛋逡逑质结构复合物,并将这些蛋白质复合物映射到PDB-Bind数据库中以提取其相逡逑的热力学数据[47]。最后,综合所有数据,一共发现来自85篇文献中99个复杂逡逑白质复合物的热力学数据,其中包含解离常数(Kd值)。第三步,阅读所有逡逑文献并手动记录相关的动力学和热力学数据,对数据进行收集和整合。最后,逡逑过一系列的数据收集工作,先删除掉一些冗余的数据之后得到5291个突变体,逡逑是最终收集到的所有突变体数据。逡逑
逡逑最后,展示的是数据库的文件(Document)界面。如图2.5所示,该界面一逡逑方面展示突变体数据的统计和分析信息,包括:突变体数目和种类的统计分析,逡逑蛋白质对来源分析和PPI网络图的构建。这些数据可以帮助了解整个数据库的数逡逑据数目。另一方面,,该界面则是对网站中的每一个界面进行详细的解说,让用户逡逑清晰的知道每个界面具有的功能,方便使用。逡逑Doc—nt逦焉逦Coatactus逡逑u,,逡逑Home逦Browse逦D0^?J0ad逦Upload逡逑Introduction逦1.邋SKEMPI邋D
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51;Q811.4
【图文】:
蛋白质突变位点数据库的构建及位点预测研宄逦逡逑一组关键词包含PPI,氨基酸突变和动力学数据。通过这两组关键词,获得425逡逑相关的文献。第二步,通过在PDB数据库中使用一些查询项目进行高级搜索逡逑得蛋白质复合物的结构,即大分子类型(仅含有蛋白质),蛋白质化学计量学逡逑(异二聚体复合物),发布日期(2013年1月1日至2016年12月31日)和X逡逑线分辨率(小于3邋A)。最终从PDB数据库中的682篇文献中获得1017个蛋逡逑质结构复合物,并将这些蛋白质复合物映射到PDB-Bind数据库中以提取其相逡逑的热力学数据[47]。最后,综合所有数据,一共发现来自85篇文献中99个复杂逡逑白质复合物的热力学数据,其中包含解离常数(Kd值)。第三步,阅读所有逡逑文献并手动记录相关的动力学和热力学数据,对数据进行收集和整合。最后,逡逑过一系列的数据收集工作,先删除掉一些冗余的数据之后得到5291个突变体,逡逑是最终收集到的所有突变体数据。逡逑
逡逑最后,展示的是数据库的文件(Document)界面。如图2.5所示,该界面一逡逑方面展示突变体数据的统计和分析信息,包括:突变体数目和种类的统计分析,逡逑蛋白质对来源分析和PPI网络图的构建。这些数据可以帮助了解整个数据库的数逡逑据数目。另一方面,,该界面则是对网站中的每一个界面进行详细的解说,让用户逡逑清晰的知道每个界面具有的功能,方便使用。逡逑Doc—nt逦焉逦Coatactus逡逑u,,逡逑Home逦Browse逦D0^?J0ad逦Upload逡逑Introduction逦1.邋SKEMPI邋D
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51;Q811.4
【相似文献】
相关期刊论文 前10条
1 王建;;蛋白质相互作用数据库[J];中国生物化学与分子生物学报;2017年08期
2 陈心浩;胡俭;;基于多特征融合预测蛋白质相互作用界面[J];中南民族大学学报(自然科学版);2017年03期
3 谭从娥;黄祥云;;基于蛋白质相互作用网络分析右归丸治疗肾阳虚证的疗效机制[J];中国中医药信息杂志;2016年02期
4 杨晓敏;李英伦;;基于蛋白质相互作用“热点”区域的小分子药物设计研究进展[J];生物物理学报;2015年02期
5 冯舒s
本文编号:2674632
本文链接:https://www.wllwen.com/projectlw/swxlw/2674632.html