基于深度学习与领域规则建模的蛋白质信号肽及其切割位点预测

发布时间：2021-03-30 01:27

　　为了提升蛋白质信号肽及其切割位点预测精度,有效区分3种不同类型的信号肽,提出基于位置特异性打分矩阵（PSSM）和同源检测迭代的隐马尔科夫（HMM）文件的深度学习预测方法。设计基于自注意力机制的神经网络模型用于信号肽预测,并使用基于知识迁移的模型集成方法提升预测效果。设计基于门控循环单元（GRU）网络的条件随机场（CRF）来预测信号肽切割位点,并集成领域规则方法提升预测能力。实验结果表明,该文方法对革兰氏阴性菌和革兰氏阳性菌的Sec/SPI、Sec/SPII与Tat/SPI信号肽预测任务的平均马修斯相关系数（MCC）为0.962。该文方法对革兰氏阴性菌和革兰氏阳性菌的Sec/SPI、Sec/SPII与Tat/SPI信号肽切割位点预测任务的平均召回率和准确率分别为0.698和0.662。在部分信号肽样本上,该文方法能正确预测SignalP 5.0方法预测错误的样本,2种方法在切割位点的预测上存在着一定的互补性。

【文章来源】：南京理工大学学报. 2020,44(03)北大核心CSCD

【文章页数】：10 页

【部分图文】：

基于深度模型的信号肽预测器结构图

结构图,信号肽,位点,结构图

本文基于深度模型的信号肽切割位点预测器Signal-3Lnew的结构如图2所示,它是1个残基级别(Residue-level)的分类器,它的特征提取部分与图1的序列级别(Sequence-level)分类器相同。网络部分首先采用3层的门控循环单元网络来抽取氨基酸残基间的相关性,该层的输出被送入2层的全连接层,将输出的特征变换为L×3的矩阵。进一步使用条件随机场(Conditional random field,CRF)算法[9,29,30]来标注氨基酸残基序列,进而识别唯一的切割位点。给定1个具有L个残基的蛋白质,预测网络输出L×3矩阵,使用CRF从该矩阵预测蛋白质序列类标:给定输入h1,h2,…,hL,其中L表示输入序列的长度,那么标签序列y=y1,y2,…,yL的分布为

统计图,信号肽,统计图,模型

图3统计了在Sec/SPI、Sec/SPII、Tat/SPI 3种不同信号肽作为正样本时,不同模型的效果对比,比对的指标为MCC。采用特定类别样本训练得到的模型GruAttenspe与加入其他生物类别样本共同训练的模型GruAttenall对比。从图3的实验结果可以发现,考虑Sec/SPI信号肽的MCC1指标,对于革兰氏阴性菌,GruAttenspe效果优于GruAttenall,高出了0.036。对于革兰氏阳性菌,两者的效果一致,都是0.949。

本文编号：3108580

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/projectlw/swxlw/3108580.html

上一篇：喀斯特植物叶片草酸钙晶体特征与耐旱关系初步研究
下一篇：慢性应激对情感环路脑区间相互投射神经元突触前小结形态及数量的影响

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|