基于智能算法的TA蛋白靶向预测方法研究

发布时间：2020-03-19 08:11

【摘要】：随着人类基因组计划的实施,以及更多生物基因组测序计划的完成,生物学数据呈爆炸性增长,传统的生化试验方法已经远远不能满足需求。智能算法在生物信息领域有其独特的优势。已有研究表明,智能算法能成功解决生物信息学的这些问题。但是在蛋白质靶向预测上仍然面临着诸多问题和挑战。比如真核生物中末端锚定蛋白质(tail-anchored proteins,TA蛋白)靶向预测尚未有智能算法应用的实现。TA蛋白靶向与CpG岛的低甲基化存在相关性,因此,CpG岛的低甲基化可以作为TA蛋白靶向的相关特征因素。针对上述问题,本文做了大量的调研工作,对CpG岛识别及TA蛋白靶向预测进行深入的研究。大量的研究表明,已有的经典算法识别和分类准确率相对偏低,无法满足CpG岛序列识别和TA蛋白靶向预测等研究所要求的准确率。针对上述问题,本文以CpG岛序列识别为作为研究的切入点,TA蛋白靶向预测作为后续研究。采用智能算法可以很好的解决以上问题,同时提高了识别和预测的准确率。在CpG岛序列识别和TA蛋白靶向预测的研究中取得了不错的成果。本文的主要工作及创新点概括如下:1.本文提出了一种用遗传算法和隐马尔可夫模型结合的CpG岛序列识别方法。该方法通过遗传算法优化隐马尔科夫模型参数,得出的模型可以更好的用于CpG岛序列识别。2.本文通过严格筛选,我们获得了428个真核生物TA蛋白的数据,用于TA蛋白靶向定位预测;采用7种TA蛋白序列特征提取方法;并且增加了疏水性和电荷量这两类特征训练模型,可以有效的提高模型的分类准确率。3.本文构建了一种朴素贝叶斯的特征提取方法来提取TA蛋白序列特征。采用mRMR算法对蛋白质数据进行特征选择;最后,采用支持向量机去训练模型。在训练过程中基于网格方式对参数~?和惩罚系数C进行优化,并对实验结果进行分析。4.本文分别训练并比较了5种机器学习模型在TA蛋白靶向预测的结果。即:随机森林(RF)、逻辑回归(LR)、朴素贝叶斯(NB)、K-最近邻(KNN)和梯度提升树(GBDT)。最后,本文利用遗传算法全局搜索的能力,对HMM参数进行优化。将其改进方案应用到CpG岛序列识别中,可以提高CpG岛序列识别的准确率。对于TA蛋靶向预测,构建了一种朴素贝叶斯特征提取方案,采用SVM可以实现对TA蛋白靶向预测。后续研究中,本文采用了七种特征提取方法来提取蛋白质序列特征,通过集成五种智能算法的分类结果,可以更好的预测TA蛋白在亚细胞器的靶向,预测精度达到84%。
【图文】：

隐马尔可夫模型,识别方法,遗传算法,识别能力

以更好的优化HMM参数，从而提高对CpG岛识别能力。遗传算法和隐马尔可夫模型结合的CpG岛识别方法的流程如图3-1所示。图3-1. 遗传算法和隐马尔可夫模型结合的CpG岛识别方法

交叉操作,染色体,适应度

适应度值高的染色体比适应度值低的染色体存程中，未被选中的染色体被删除。我们选用轮盘赌的方式决。根据染色体自身的适应度值，分别对应不同大小的区域面体是ix ，适应度函数是 ( )if x ，，则 ix被选择的概率是：1( )( )( )iijNjf xp xf x 染色体 tS的累加概率:1( )i jijq p x 操作交叉操作[31-32]是重组父代染色体的结合。被选中体。因此，可以看出该操作可以把最优的父代进行交叉从而基于轮盘赌机制选择出来的。
【学位授予单位】：山东师范大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：Q811.4;TP18

【相似文献】