基于机器学习的蛋白质类别及蛋白质-配体相互作用预测研究
发布时间:2017-12-10 07:22
本文关键词:基于机器学习的蛋白质类别及蛋白质-配体相互作用预测研究
更多相关文章: 蛋白质类别预测 蛋白质-配体相互作用预测 机器学习 特征提取 类不平衡问题
【摘要】:在后基因组时代,生物信息技术迅速发展,生命科学的研究重心从破译基因组序列转移到基因功能注释。依据分子生物学中心法则,携带遗传信息的基因翻译成蛋白质才能在生物体内执行多种多样的生理功能。随着高通量测序技术的日臻成熟,被测定的蛋白质序列数目呈指数增长,与此相比,被测定功能的蛋白质数目的增长速度相对滞后。已知序列的蛋白质数目和已知功能的蛋白质数目之间的差距不断扩大,蛋白质功能预测成为重要且极具挑战性的研究课题,其不仅有助于探索生命起源和遗传变异,而且有助于从细胞和分子水平上探讨人类重大疾病的发病机制,为疾病的诊断、预防和药物开发等提供重要的理论支持。通过实验方法进行蛋白质功能注释,成本昂贵、耗时耗力且无法大规模开展。因此,亟需开发可靠、经济和高通量的计算方法,快速精确地预测蛋白质功能。蛋白质类别预测和蛋白质-配体相互作用预测是蛋白质功能预测的两大重要研究分支。基于机器学习,本学位论文对蛋白质类别预测和蛋白质-配体相互作用预测进行了深入研究,具体内容如下:(1)蛋白质类别预测中的二分类问题噬菌体病毒蛋白和非病毒蛋白具有不同的生物学功能。从噬菌体蛋白中准确地识别病毒蛋白有助于理解复杂的病毒机制和开发抗细菌药物。现有的计算方法未全方位的提取蛋白质序列特征,且利用单一的分类器构建预测模型。基于Stacking方法,提出了新的噬菌体病毒蛋白预测方法。该方法从蛋白质序列中提取氨基酸的组成、位置、顺序、分布、理化属性和进化等信息。基于不同的特征提取策略,分别构建不同的随机森林预测模型,并利用逻辑回归算法整合随机森林预测模型的预测结果。在独立测试集上,该方法的预测性能优于现有方法,是预测噬菌体病毒蛋白的有效工具。在生物体内,抗氧蛋白在维持氧化/抗氧化的平衡过程中发挥着重要作用,且对于疾病的治疗具有潜在的价值。准确地预测抗氧蛋白为揭示氧化/抗氧化平衡的生理机制和开发抗氧化药物提供理论依据。针对现有方法的局限性,通过多源特征提取和分类器选择策略,构建了预测抗氧蛋白的集成学习方法。为进一步提高预测性能,该方法利用Relief-增量特征选择剔除冗余和不相关的特征。在独立测试集上,该方法取得了较为均衡的敏感性和特异性,远远优于现有方法。抗血管生成肽对于血管生成具有抑制作用,有助于治疗与血管生成相关的疾病。准确地预测抗血管生成肽能够为理解血管的生成机制和发展抗肿瘤疗法提供重要线索。现有方法通过单分类器建立预测模型,并未利用特征选择技术获取具有高度识别能力的特征。通过分别选取具有高敏感性以及高特异性的基分类器模型,构建了预测抗血管生成肽的集成分类器模型。为降低计算复杂度和提高预测能力,利用特征选择技术获取与分类目标更相关的特征。与现有方法在相同的基准数据集上的预测性能比较结果表明,该集成分类器是预测抗血管生成肽的有效方法。(2)蛋白质类别预测中的多分类问题不同类型J蛋白在疾病发展中发挥着不同功能。准确地识别J蛋白的类型将为阐明不同类型J蛋白在相关生物学过程中的功能提供线索,并有助于理解疾病的发作机制。现有方法采用的特征编码方式单一,尚未解决类不平衡问题。基于欠采样方法,借鉴集成学习思想,构建了J蛋白类型预测模型。该预测模型有效地解决了类不平衡问题。与现有方法相比,该集成分类器模型的敏感性和特异性更均衡。在生物体内,不同离子通道的芋螺毒素所发挥的生理功能和对疾病的治疗潜力有较大差异。准确地预测芋螺毒素离子通道类型有助于破译芋螺毒素的生理机制和药理学特性。现有方法从蛋白质序列中只提取了氨基酸的组成信息,并未解决类不平衡问题。通过提取蛋白质序列中的氨基酸组成、分布、顺序、理化属性和二级结构信息,利用少数类过采样算法增加少数类样本的数目,建立了新的芋螺毒素离子通道类型预测模型。在独立测试集上,该预测模型对不同类型芋螺毒素的预测精度都高于现有方法,验证了其强大预测能力。(3)蛋白质-配体相互作用预测蛋白质-适配体相互作用在生物体内发挥着各种生理功能,并具有潜在的疾病治疗价值。快速有效地预测蛋白质-适配体相互作用有助于深刻理解蛋白质-适配体相互作用的作用机制和开发基于适配体的疗法。现有方法采用单分类器构建预测模型,仅从序列中提取了氨基酸组成信息,并未处理类不平衡问题。为此,基于多源特征提取策略,利用集成学习方法构建蛋白质-适配体相互作用预测模型。在训练集上的10交叉验证结果表明,该方法的敏感性和特异性较为均衡,有效地解决了数据不平衡问题。为客观地评价该方法的预测能力,与现有方法在独立测试集上进行了性能比较。实验结果显示,该方法的敏感性和Youden指数均优于现有方法。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:Q51;TP181
,
本文编号:1273636
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1273636.html