基于W-GDipC和LRMR-Ri方法的抗冻蛋白预测研究
发布时间:2020-05-16 16:52
【摘要】:抗冻蛋白在多个领域都具有广阔的应用前景。随着后基因组时代的到来,各种数据库收录的蛋白质序列数据日趋完善,促进了生物信息学的发展。当前,许多研究小组致力于研究生物序列提取算法、特征选择以及分类算法的研究,并成功将其应用蛋白质结构和功能谱的分类和预测中,但在抗冻蛋白领域鲜有研究。基于此,本文主要针对抗冻蛋白的特征表达方式以及特征选择方法进行了深入的研究,并从多方面进行试验加以论证。本文的主要工作总结如下:第一,针对抗冻蛋白的特征表达。首先,本文基于所选背景抗冻蛋白序列的研究,提出了一种改进的序列特征提取方法即加权广义二肽组成(W-GDipC),该方法通过线性加权融合两种特征表达-广义二肽组成(GDipC)和二肽组成(DipC)。再次,本文还对加权融合表达式中的融合系数展开了讨论,融合系数范围在0-1之间,每次增加十个百分点。最后,本文通过五折交叉验证分别构建了具有不同特征的支持向量机(SVM)和决策树(DT)以及随机梯度下降(SGD)分类器与加权广义二肽组成(W-GDipC)特征提取方法进行对比实验论证。第二,针对抗冻蛋白的特征选择。首先,本文引入机器学习方法中四种常用的特征选择算法套索回归(Lasso),岭回归(Ridge),互信息和最大信息系数(Mic)和过滤式选择(Relief),分别对高维抗冻蛋白特征表达进行处理。其次,本文进一步提出了基于岭回归的集成特征选择(LRMR-Ri)方法。最后,本文将改进的特征选择方法与原始特征选择方法分别在抗冻蛋白数据集(二分类)上与膜蛋白数据集(多分类)使用不同的分类算法进行了实验,并基于五种评价指标通过五折交叉检验客观验证该方法的有效性。最终的实验结果表明,我们所提的加权广义二肽组成方法不仅能够保留两种单一特征的重要特性,而且又丰富了抗冻蛋白序列的特征表达。其次,本文所提的基于岭回归的集成特征选择方法能够在一定程度上避免产生局部最优或次最优特征子集,更大程度地筛除冗余特征,提炼出更有效的抗冻蛋白特征子集。
【图文】:
图2.邋1:二肽组成与广义二肽组成匹配规则示意图逡逑其中/丨,r2,r3,,…,为抗冻蛋白序列,A表示两个残基之间的等长间隔。逡逑广义二肽组成(GDipC)中等长间距残基对的数学表达式为:逡逑
时也避免了使用单一的广义二肽组成(GDipC)提取方法和二肽组成(DipC)提取逡逑方法导致局部数据稀疏,从而达到使现有特征数据更具完整性和简洁性的目的[M]。逡逑具体融合实验流程如图3.邋1所示。逡逑[抗冻蛋白序列]逦逦邋逦逦逡逑、逦逦^逦支持向虽机逦决策树逦随机悌度下降逡逑T逦逦;;逦;;逦逦逡逑zum逦广义二》;组成邋逦?!逦分类逡逑I逦^逦1逡逑加权广义二AFP逦Non-AFP逡逑1逦邋^—邋邋^邋^逡逑图3.1:抗冻蛋白(AFP)预测模型构建流程图逡逑20逡逑
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51
本文编号:2667037
【图文】:
图2.邋1:二肽组成与广义二肽组成匹配规则示意图逡逑其中/丨,r2,r3,,…,为抗冻蛋白序列,A表示两个残基之间的等长间隔。逡逑广义二肽组成(GDipC)中等长间距残基对的数学表达式为:逡逑
时也避免了使用单一的广义二肽组成(GDipC)提取方法和二肽组成(DipC)提取逡逑方法导致局部数据稀疏,从而达到使现有特征数据更具完整性和简洁性的目的[M]。逡逑具体融合实验流程如图3.邋1所示。逡逑[抗冻蛋白序列]逦逦邋逦逦逡逑、逦逦^逦支持向虽机逦决策树逦随机悌度下降逡逑T逦逦;;逦;;逦逦逡逑zum逦广义二》;组成邋逦?!逦分类逡逑I逦^逦1逡逑加权广义二AFP逦Non-AFP逡逑1逦邋^—邋邋^邋^逡逑图3.1:抗冻蛋白(AFP)预测模型构建流程图逡逑20逡逑
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51
【参考文献】
相关博士学位论文 前1条
1 王彤;高维生物数据的分类与预测研究[D];上海交通大学;2009年
本文编号:2667037
本文链接:https://www.wllwen.com/projectlw/swxlw/2667037.html
教材专著