当前位置:主页 > 理工论文 > 生物学论文 >

基于多核学习的蛋白质序列分类问题的研究与应用

发布时间:2020-10-17 09:09
   蛋白质是地球上生物体的必要组成成分,针对蛋白质的功能预测已成为生物蛋白领域的一个研究热点。嗜热蛋白质可作极端环境下的生物催化剂,有着加速化学反应、降低工业制造成本、减少能源消耗等优点,因此针对嗜热蛋白质的有效功能预测在各类制造业中有着极为重要的作用。随着人类基因组计划的推进和实施,越来越多的蛋白质序列被测定,传统的蛋白质功能识别方法因其耗时长、效率低等缺点已无法满足需求,开发实时有效的蛋白质功能预测方法迫在眉睫。机器学习算法的兴起和计算机计算能力的增强,为海量数据的信息挖掘提供了便利。本文主要研究了多核学习算法在蛋白质序列功能预测中的应用,具体研究内容如下:1)为了更好地表示蛋白质,本文提出了一种新的基于word2vec的特征提取方法。该方法将蛋白质序列看作一个文本句子,将二肽看作一个词语,使用word2vec算法将每个二肽转化为词向量表示,然后依据蛋白质序列中出现二肽对应的词向量得到序列的向量表示。实验结果表明,该方法可提升模型预测准确率。2)多核学习方法第一步是选取基础核函数,包括核函数个数、类别及其内部参数,由于常规方法盲目且耗时耗力,本文提出了基于贪心算法的核函数选择方法。该方法考虑特征向量主要源于不同的特征提取方法,故首先将特征提取方法个数作为核函数个数,然后针对特征向量中不同特征提取方法对应的特征组,使用贪心算法选出最佳核函数,从而得到基础核函数的选择结果。3)本文提出了基于多核学习的蛋白质序列分类模型。相对于其它方法,多核学习方法具有更高的灵活性。本文首先使用基于贪心算法的核函数选择方法完成基础核函数的选择,然后使用简单多核学习算法学习最佳组合核函数,最后使用最佳组合核作为核函数的SVM算法训练分类模型。实验结果表明,该模型能够很好地识别出嗜热蛋白质,在本文使用的嗜热蛋白质序列数据集上,10折交叉验证的结果为:准确率94.72%,嗜热蛋白质的召回率为94.84%,MCC值0.8939,ROCAUC值0.9859,优于其它机器学习方法和已有方法。4)开发了针对嗜热蛋白质序列预测的web服务,便于其他相关研究者使用本文提出的模型。
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:Q51;TP181
【部分图文】:

蛋白质,结构示意图,氨基酸,氨基


图 2-1 蛋白质四种结构示意图2.1.2 氨基酸相关介绍蛋白质结构与其功能之间的关系密不可分,而一级结构是其它高级结构的础,又有着直观、简单且易于获取和预测等优点,故本文主要使用蛋白质的一级构对蛋白质进行功能预测。当今自然界中发现的氨基酸约有 300 多种,但在基翻译中,由于部分密码子是冗余的,参与蛋白质合成的标准氨基酸只有 20 种。基酸是生物学上重要的有机化合物之一,每个氨基酸都由中心碳原子、氢原子、基、氨基和侧链 R 基(又称为侧链基团)共同组成,具体的氨基酸分子的结构式如图 2-2 所示,不同种类氨基酸之间主要的区别就是侧链 R 基之间的差异,链 R 基往往决定着氨基酸的种类和各种理化性质。在生物学中,通常每种氨基都用与其对应的英文大写字母表示,如表 2-1 即为 20 种标准氨基酸及其对应的文字母简称。不同氨基酸分子之间是由其氨基和羧基相连脱去一个水分子进行接的,其中连接的化学键称为肽键。通常所说的二肽指的是两个氨基酸脱水缩合

示意图,氨基酸分,通式,子结构


酸相关介绍构与其功能之间的关系密不可分,而一级结构是其它观、简单且易于获取和预测等优点,故本文主要使用蛋行功能预测。当今自然界中发现的氨基酸约有 300 多部分密码子是冗余的,参与蛋白质合成的标准氨基酸上重要的有机化合物之一,每个氨基酸都由中心碳原子链 R 基(又称为侧链基团)共同组成,具体的氨基酸示,不同种类氨基酸之间主要的区别就是侧链 R 基之决定着氨基酸的种类和各种理化性质。在生物学中,通的英文大写字母表示,如表 2-1 即为 20 种标准氨基酸不同氨基酸分子之间是由其氨基和羧基相连脱去一个接的化学键称为肽键。通常所说的二肽指的是两个氨基更广泛的定义是指由两个氨基酸和一个肽键组成的多肽物理位置上相邻。

示意图,模型结构,目标词,示意图


电子科技大学硕士学位论文目标词的前面两个词和后面两个词的初始词向量表示(通常为 One-hot 表ction 投影层为神经网络的隐层,与输入层的连接方式为全连接,outpu要是对目标词的预测;图中右侧为 skip-gram 模型,input 输入层为目标词始词向量表示,projection 投影层为神经网络的隐层,与输入层的连接方接,output 输出层主要是对目标词上下文信息的预测,主要预测目标词的词和后面两个词。
【参考文献】

相关期刊论文 前1条

1 蒋英芝;贺连华;刘建军;;蛋白质功能研究方法及技术[J];生物技术通报;2009年09期


相关硕士学位论文 前1条

1 邵丽芬;基于深度学习的蛋白质序列分类问题的研究与应用[D];电子科技大学;2018年



本文编号:2844583

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2844583.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9010b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com