基于未标记样本信息的蛋白质相互作用位点半监督预测
发布时间:2020-09-03 12:30
蛋白质相互作用位点的识别在药物设计方面具有不可替代的意义。然而在实际情况下,由于目前只有小部分的蛋白质相互作用能够被实验方法鉴别出来,所以蛋白质序列上的大多数位点不能被定义为界面位点或非界面位点,这将导致蛋白质相互作用位点的预测缺乏准确性和泛化能力。本文主要通过未标记出来的蛋白质位点信息来对相互作用位点进行预测。在数据处理部分,首先删减冗余的蛋白质链,通过预处理得到91条蛋白质链用于实验。接着对残基进行定义,并基于氨基酸的进化保守性,从HSSP数据库与Consurf Server中提取了五种特征:残基空间序列谱、残基序列信息熵与相对熵、残基序列保守权重以及残基进化速率。将这五种保守性特征加以融合并重新编码,得到的数据集将用于之后的实验。在位点预测部分,本文充分利用了大量未标记样本,并提出了三种半监督支持向量机模型对蛋白质相互作用位点进行预测。首先,结合标签均值和自训练思想,提出了基于多核学习的标签均值自训练半监督支持向量机(Means3vm-mkl)和基于迭代优化的标签均值自训练半监督支持向量机(Means3vm-iter)。然后我们对上述模型进行了优化,使用一种安全的半监督支持向量机(S4VM)来防止性能下降。从最终的预测结果可以得出,使用未标记样本极大提高了预测的准确性,相比于只利用标记样本的分类模型在准确率上提高了12%。三种半监督SVM模型都能实现对相互作用位点的预测,其中S4VM表现最佳,正确率达到70.7%,灵敏度以及特异度分别为62.67%,78.72%。相较于传统的实验以及计算方法而言,分类效果得到较大提升。
【学位单位】:安徽工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:Q51;TP181
【部分图文】:
图 3.1 用于实验的 91 条蛋白质链3.2 实验数据集的相关定义得到 91 条蛋白质链后,本文对表面残基、界面残基进行定义。这是因为对于一条蛋白质链而言,它是由表面残基和非表面残基共同组成,而只有表面残基才是本文所需要的数据。本文按照 Fariselli 等人实验中使用的方法来对数据加以定义[48],若存在某个残基相对可接触表面积达到其最大可接触表面积的 16%,那么这样的残基即被定义成表面残基,否则即为非表面残基。表 3.2 展示的是不同氨基酸最大可接触表面积值。从该表中也可以看出,不同氨基酸之间最大的可接触的表面积的值同样存在着差异性。表 3.1 二十种常用氨基酸及其最大可接触表面积
“.”的含义是对应位置的残基展现出较弱的保守性。图 3.3 多序列比对图3.3.1 残基空间序列谱本文首先提取的特征为氨基酸残基对应空间序列谱,这个特征在很多研究和实验中经常被使用[54]。它属于蛋白质进化保守性特征,在实际应用中能通过多序列比对等实验方法获得[55]。它代表蛋白质基础空间结构之中,在对应残基序列上各氨基酸出现的频率。本文在这只考虑表 1.1 中展示的常见的 20 种氨基酸。图 3.4 残基空间序列谱
图 3.3 多序列比对图3.3.1 残基空间序列谱本文首先提取的特征为氨基酸残基对应空间序列谱,这个特征在很多研究和实验中经常被使用[54]。它属于蛋白质进化保守性特征,在实际应用中能通过多序列比对等实验方法获得[55]。它代表蛋白质基础空间结构之中,在对应残基序列上各氨基酸出现的频率。本文在这只考虑表 1.1 中展示的常见的 20 种氨基酸。
【学位单位】:安徽工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:Q51;TP181
【部分图文】:
图 3.1 用于实验的 91 条蛋白质链3.2 实验数据集的相关定义得到 91 条蛋白质链后,本文对表面残基、界面残基进行定义。这是因为对于一条蛋白质链而言,它是由表面残基和非表面残基共同组成,而只有表面残基才是本文所需要的数据。本文按照 Fariselli 等人实验中使用的方法来对数据加以定义[48],若存在某个残基相对可接触表面积达到其最大可接触表面积的 16%,那么这样的残基即被定义成表面残基,否则即为非表面残基。表 3.2 展示的是不同氨基酸最大可接触表面积值。从该表中也可以看出,不同氨基酸之间最大的可接触的表面积的值同样存在着差异性。表 3.1 二十种常用氨基酸及其最大可接触表面积
“.”的含义是对应位置的残基展现出较弱的保守性。图 3.3 多序列比对图3.3.1 残基空间序列谱本文首先提取的特征为氨基酸残基对应空间序列谱,这个特征在很多研究和实验中经常被使用[54]。它属于蛋白质进化保守性特征,在实际应用中能通过多序列比对等实验方法获得[55]。它代表蛋白质基础空间结构之中,在对应残基序列上各氨基酸出现的频率。本文在这只考虑表 1.1 中展示的常见的 20 种氨基酸。图 3.4 残基空间序列谱
图 3.3 多序列比对图3.3.1 残基空间序列谱本文首先提取的特征为氨基酸残基对应空间序列谱,这个特征在很多研究和实验中经常被使用[54]。它属于蛋白质进化保守性特征,在实际应用中能通过多序列比对等实验方法获得[55]。它代表蛋白质基础空间结构之中,在对应残基序列上各氨基酸出现的频率。本文在这只考虑表 1.1 中展示的常见的 20 种氨基酸。
【相似文献】
相关期刊论文 前10条
1 王建;;蛋白质相互作用数据库[J];中国生物化学与分子生物学报;2017年08期
2 陈心浩;胡俭;;基于多特征融合预测蛋白质相互作用界面[J];中南民族大学学报(自然科学版);2017年03期
3 谭从娥;黄祥云;;基于蛋白质相互作用网络分析右归丸治疗肾阳虚证的疗效机制[J];中国中医药信息杂志;2016年02期
4 杨晓敏;李英伦;;基于蛋白质相互作用“热点”区域的小分子药物设计研究进展[J];生物物理学报;2015年02期
5 冯舒s
本文编号:2811432
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2811432.html