多功能酶分类预测中的特征表达与融合算法研究
发布时间:2020-03-18 22:03
【摘要】:多功能酶作为一种生物催化剂在生物的各种反应中都起到了非常重要的作用。正确区分多功能酶在基因工程和细胞工程中能起到关键性作用。本文目的是通过多标签分类器对多功能酶进行功能预测,由于多功能酶的预测受到数据集、特征表达、分类器的选择影响,因此,本文从这些方面展开了研究工作。具体研究工作如下:(1)多功能酶的研究中前人构建的数据集同源性太高,在对低同源性多功能酶进行预测时精度不是很高,因此,本文构建出了较低同源性多功能酶数据集进行多功能酶的预测。(2)针对特征表达,本文提出了多重进化信息PSSM矩阵。多重进化信息PSSM矩阵相对于传统的PSSM矩阵能够表达出多功能酶序列的更多进化信息。本文还结合二维Gabor变换对PSSM矩阵进行局部特征提取。通过Gabor变换可以将PSSM矩阵进行多尺度、多方向的分解,因此,能得到PSSM更多的信息。相对于现有的基于PSSM矩阵的特征提取法(DPC-PSSM)本文的方法在分类效果上有一定的优势。基于氨基酸序列特征表达中,本文提出了二肽局部词特征提取法,提取到的特征相对于AAC、AmPseAAC有更好的效果。(3)针对实验中得到的多种特征信息,本文进行了特征融合。首先。运用特征抽取融合方法进行特征的融合,在特征抽取中运用到了递归特征消除法(RFE)。其次,将融合后的数据进行归一化和除冗余。经过处理后的融合特征数据在召回率、精度、F-值和平均精度这四种指标上能达到92.21%、93.73%、91.11%、97.68%。(4)针对多功能酶分类预测问题,本文使用了随机K标签集成分类算法,在随机K标签分类算法中基分类器的选择上做了详细的讨论。本文中分别用了支持向量机分类模型(SVM)、K近邻分类模型(KNN)、贝叶斯分类模型(NB)、随机森林分类模型(RF)四个分类器进行实验。通过五折交叉验证以及四种评估指标对这些基分类器进行分析,发现随机森林作为基分类器取得的性能最好。本文构建的模型与其它多标签分类模型相比,能取得比较良好的分类效果。
【图文】:
太多的多功能酶被发现,其二、传统物理化学手段的费用太高。后期技术的迅速逡逑发展学者们对多功能酶的研究更加方便。从1996年以后每年都有几篇论文发表出逡逑来。从1986年到2018年这些年期间发表的关于多功能酶的论文数量如图1.1所逡逑示。从国外的研宄来看(主要是通过外文库sci检索),最早能搜索到的论文为逡逑1978年,JK.Stoops在脂肪酸合成酶的研宄中发现有多功能酶参与反应,并发表逡逑出两篇多功能酶的论文[54][55]。其后的每年都有大量的关于多功能酶的论文发表。逡逑2005年生物学家通过多序列对比分析来区分多功能酶。逡逑在多功能酶的分类预测上近些年来也有很多人运用机器学习方法来进行研究,逡逑其主要用到的分类算法是多标签分类学习。2012年Ferrari邋L邋D利用BRKNN多逡逑标签分类器对多功能酶进行了分类预测,在平均精度上能达到89%[37]。2014年逡逑Zuo等人在利用双层分类模型进行多功能酶的分类研宄,其中第一层是单标签分逡逑类器主要是判断是不是多功能酶,第二层构建了多标签分类器,对第一层选择出逡逑的多功能酶进行分类预测。他们的模型得到了非常好的成果,并且预测出了多种逡逑3逡逑
逦A逡逑|逡逑图3.2:邋85%的同源性中各功能酶的条数图3.3:邋65%的同源性中各功能酶的条数逡逑3.邋2多重进化信息PSSM矩阵逡逑本章提到的多重进化信息PSSM矩阵,主要是运用不同的氨基酸置换矩阵来逡逑进行PSSM矩阵的生成。因为不同的氨基酸置换矩阵代表的氨基酸之间的进化信逡逑息是不同的。因此,我们通过加入的氨基酸置换矩阵的不同,就可以得到多种进逡逑化信息PSSM矩阵。得到的多种PSSM矩阵我们将其称为多重进化信息PSSM矩逡逑阵。逡逑3.2.1多重进化信息PSSM矩阵生成原理逡逑不论是传统的PSSM矩阵还是本章中提出的多重进化信息PSSM矩阵,都是逡逑要经过多重序列对比后得到位置频率矩阵,位置频率矩阵表示每个位置中出现的逡逑相应的20种常见的氨基酸概率。位置频率矩阵在表达序列的位置特异性上往往会逡逑出现很大的偏差。传统的PSSM矩阵处理这种偏差时是运用概形矩阵(高度保守逡逑区域的氨基酸的置换)来进行迭代处理,直到误差小于设定的值为止。本文中多逡逑重进化信息矩阵是往位置频率矩阵中加入伪计数使其偏差减少。逡逑在伪计数添加的多少是一个比较难以把握的点,本章中伪计数大小的计算是逡逑通过运用氨基酸置换矩阵计算出来。因为,氨基酸置换矩阵表示的是某种进化条逡逑件下的氨基酸之间的突变。所以
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP181;Q55
本文编号:2589249
【图文】:
太多的多功能酶被发现,其二、传统物理化学手段的费用太高。后期技术的迅速逡逑发展学者们对多功能酶的研究更加方便。从1996年以后每年都有几篇论文发表出逡逑来。从1986年到2018年这些年期间发表的关于多功能酶的论文数量如图1.1所逡逑示。从国外的研宄来看(主要是通过外文库sci检索),最早能搜索到的论文为逡逑1978年,JK.Stoops在脂肪酸合成酶的研宄中发现有多功能酶参与反应,并发表逡逑出两篇多功能酶的论文[54][55]。其后的每年都有大量的关于多功能酶的论文发表。逡逑2005年生物学家通过多序列对比分析来区分多功能酶。逡逑在多功能酶的分类预测上近些年来也有很多人运用机器学习方法来进行研究,逡逑其主要用到的分类算法是多标签分类学习。2012年Ferrari邋L邋D利用BRKNN多逡逑标签分类器对多功能酶进行了分类预测,在平均精度上能达到89%[37]。2014年逡逑Zuo等人在利用双层分类模型进行多功能酶的分类研宄,其中第一层是单标签分逡逑类器主要是判断是不是多功能酶,第二层构建了多标签分类器,对第一层选择出逡逑的多功能酶进行分类预测。他们的模型得到了非常好的成果,并且预测出了多种逡逑3逡逑
逦A逡逑|逡逑图3.2:邋85%的同源性中各功能酶的条数图3.3:邋65%的同源性中各功能酶的条数逡逑3.邋2多重进化信息PSSM矩阵逡逑本章提到的多重进化信息PSSM矩阵,主要是运用不同的氨基酸置换矩阵来逡逑进行PSSM矩阵的生成。因为不同的氨基酸置换矩阵代表的氨基酸之间的进化信逡逑息是不同的。因此,我们通过加入的氨基酸置换矩阵的不同,就可以得到多种进逡逑化信息PSSM矩阵。得到的多种PSSM矩阵我们将其称为多重进化信息PSSM矩逡逑阵。逡逑3.2.1多重进化信息PSSM矩阵生成原理逡逑不论是传统的PSSM矩阵还是本章中提出的多重进化信息PSSM矩阵,都是逡逑要经过多重序列对比后得到位置频率矩阵,位置频率矩阵表示每个位置中出现的逡逑相应的20种常见的氨基酸概率。位置频率矩阵在表达序列的位置特异性上往往会逡逑出现很大的偏差。传统的PSSM矩阵处理这种偏差时是运用概形矩阵(高度保守逡逑区域的氨基酸的置换)来进行迭代处理,直到误差小于设定的值为止。本文中多逡逑重进化信息矩阵是往位置频率矩阵中加入伪计数使其偏差减少。逡逑在伪计数添加的多少是一个比较难以把握的点,本章中伪计数大小的计算是逡逑通过运用氨基酸置换矩阵计算出来。因为,氨基酸置换矩阵表示的是某种进化条逡逑件下的氨基酸之间的突变。所以
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP181;Q55
【参考文献】
相关期刊论文 前2条
1 鄢凯舟;陆兵;梁钰婷;张云开;陈桂光;梁智群;;融合酶构建技术在酶的改性以及多功能酶的构建方面的应用[J];中国生物工程杂志;2014年07期
2 孙晶京;;使用伪氨基酸模型和K近邻分类器预测酶的分类[J];计算机工程与应用;2013年09期
相关硕士学位论文 前2条
1 魏继翔;基于特征提取的酶识别问题研究[D];山东经济学院;2011年
2 黄炜娟;多功能酶的预测及结构功能模式分析[D];厦门大学;2009年
,本文编号:2589249
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2589249.html