基于深度学习与领域规则建模的蛋白质信号肽及其切割位点预测
发布时间:2021-03-30 01:27
为了提升蛋白质信号肽及其切割位点预测精度,有效区分3种不同类型的信号肽,提出基于位置特异性打分矩阵(PSSM)和同源检测迭代的隐马尔科夫(HMM)文件的深度学习预测方法。设计基于自注意力机制的神经网络模型用于信号肽预测,并使用基于知识迁移的模型集成方法提升预测效果。设计基于门控循环单元(GRU)网络的条件随机场(CRF)来预测信号肽切割位点,并集成领域规则方法提升预测能力。实验结果表明,该文方法对革兰氏阴性菌和革兰氏阳性菌的Sec/SPI、Sec/SPII与Tat/SPI信号肽预测任务的平均马修斯相关系数(MCC)为0.962。该文方法对革兰氏阴性菌和革兰氏阳性菌的Sec/SPI、Sec/SPII与Tat/SPI信号肽切割位点预测任务的平均召回率和准确率分别为0.698和0.662。在部分信号肽样本上,该文方法能正确预测SignalP 5.0方法预测错误的样本,2种方法在切割位点的预测上存在着一定的互补性。
【文章来源】:南京理工大学学报. 2020,44(03)北大核心CSCD
【文章页数】:10 页
【部分图文】:
基于深度模型的信号肽预测器结构图
本文基于深度模型的信号肽切割位点预测器Signal-3Lnew的结构如图2所示,它是1个残基级别(Residue-level)的分类器,它的特征提取部分与图1的序列级别(Sequence-level)分类器相同。网络部分首先采用3层的门控循环单元网络来抽取氨基酸残基间的相关性,该层的输出被送入2层的全连接层,将输出的特征变换为L×3的矩阵。进一步使用条件随机场(Conditional random field,CRF)算法[9,29,30]来标注氨基酸残基序列,进而识别唯一的切割位点。给定1个具有L个残基的蛋白质,预测网络输出L×3矩阵,使用CRF从该矩阵预测蛋白质序列类标:给定输入h1,h2,…,hL,其中L表示输入序列的长度,那么标签序列y=y1,y2,…,yL的分布为
图3统计了在Sec/SPI、Sec/SPII、Tat/SPI 3种不同信号肽作为正样本时,不同模型的效果对比,比对的指标为MCC。采用特定类别样本训练得到的模型GruAttenspe与加入其他生物类别样本共同训练的模型GruAttenall对比。从图3的实验结果可以发现,考虑Sec/SPI信号肽的MCC1指标,对于革兰氏阴性菌,GruAttenspe效果优于GruAttenall,高出了0.036。对于革兰氏阳性菌,两者的效果一致,都是0.949。
本文编号:3108580
【文章来源】:南京理工大学学报. 2020,44(03)北大核心CSCD
【文章页数】:10 页
【部分图文】:
基于深度模型的信号肽预测器结构图
本文基于深度模型的信号肽切割位点预测器Signal-3Lnew的结构如图2所示,它是1个残基级别(Residue-level)的分类器,它的特征提取部分与图1的序列级别(Sequence-level)分类器相同。网络部分首先采用3层的门控循环单元网络来抽取氨基酸残基间的相关性,该层的输出被送入2层的全连接层,将输出的特征变换为L×3的矩阵。进一步使用条件随机场(Conditional random field,CRF)算法[9,29,30]来标注氨基酸残基序列,进而识别唯一的切割位点。给定1个具有L个残基的蛋白质,预测网络输出L×3矩阵,使用CRF从该矩阵预测蛋白质序列类标:给定输入h1,h2,…,hL,其中L表示输入序列的长度,那么标签序列y=y1,y2,…,yL的分布为
图3统计了在Sec/SPI、Sec/SPII、Tat/SPI 3种不同信号肽作为正样本时,不同模型的效果对比,比对的指标为MCC。采用特定类别样本训练得到的模型GruAttenspe与加入其他生物类别样本共同训练的模型GruAttenall对比。从图3的实验结果可以发现,考虑Sec/SPI信号肽的MCC1指标,对于革兰氏阴性菌,GruAttenspe效果优于GruAttenall,高出了0.036。对于革兰氏阳性菌,两者的效果一致,都是0.949。
本文编号:3108580
本文链接:https://www.wllwen.com/projectlw/swxlw/3108580.html