当前位置:主页 > 科技论文 > 软件论文 >

基于序列模型的肽序列可信度评估

发布时间:2021-03-10 12:30
  在肽序列鉴定过程中对候选肽序列与实验串联质谱匹配对(肽谱匹配对)进行评估打分是非常关键的一步,准确有效的可信度评估算法能提高肽序列鉴定的准确度。传统的打分算法通常利用预测出的理论质谱谱图与实验质谱谱图的相似度分数进行分数计算,无法充分有效地利用肽碎裂规律。本文针对这一问题提出了一种结合肽序列信息表征的多分类概率和式可信度评估算法:deep Score-α。deep Score-α使用一维残差网络对序列底层信息进行抽取,再通过多头注意力机制融合序列不同肽键位点对当前肽键断裂位点产生的影响从而生成最终的碎片离子相对强度分布概率矩阵,结合肽序列碎片离子的实际相对强度计算出最终的肽谱匹配可信度。该算法从常用开源鉴定工具Comet以及MSGF+的鉴定结果中提取候选肽序列进行重新打分并与原有结果进行了比较:deep Score-α在人类蛋白组数据集中FDR=0.01时保留的肽序列数量相较于Comet和MSGF+提升了约14%,Top1命中率(正确肽序列得分最高的谱图所占比例)最大提升约5%。使用人类蛋白组数据集训练的模型在Proteome Tools2数据集上进行泛化性能测试,deep Score... 

【文章来源】:山东理工大学山东省

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

基于序列模型的肽序列可信度评估


氨基酸结构通式Fig2.1Thegeneralstructuralformulaforaminoacids

肽链,缩合,氨基酸,离子


山东理工大学硕士学位论文第二章深度学习与质谱技术8图2.2三个氨基酸通过脱水缩合作用形成肽链Fig2.2Threeaminoacidsformingpeptidechainsbydehydrationandcondensation2.1.2串联质谱技术质谱分析是一种通过测量离子质荷比(质量-电荷比)进而对试验样品进行分析的方法,在试验样品经过离子源时,试验样品中的组分发生,生成不同荷质比的带电荷的离子,再经加速电场形成离子束,最后进入分析器得出最终结果。在使用串联质谱(MS/MS)进行蛋白质鉴定的过程中,样品蛋白质首先被酶解,然后送入质谱仪中进行离子化,产生母离子并获得相应的一级质谱,再选择一些母离子通过一些离子解离方法进行碎裂,再次分析,记录下各个离子碎片的质荷比(m/z)和强度信息,其流程如图2.3所示。用的离子解离方法包括CID(Collision-inducedDissociation,即通过撞击使得肽键断裂从而达到多肽碎裂目的的方法)和HCD(High-energyC-trapDissociation,即在高能条件下让肽键断裂进而碎裂多肽的方法,该方法碎裂规律与CID相似,但碎裂能量更高),还有一些如ETD(electrontransferdissociation)、ECD(electroncatchdissociation)等。图2.3蛋白质鉴定中串联质谱数据获取流程Fig2.3Thedataacquisitionprocessoftandemmassspectrometryinproteinidentification经过质谱仪获得的原始质谱图是碎片离子的峰形图,为了后续存储计算方便,通常将原始质谱图中的离子峰转换为(m/z,intensity)这样的形式来保存,其中,m/z表示离子峰的中心质荷比,intensity表示离子峰的强度。在描述离子峰的强度时,一

流程图,质谱,数据获取,蛋白质


山东理工大学硕士学位论文第二章深度学习与质谱技术8图2.2三个氨基酸通过脱水缩合作用形成肽链Fig2.2Threeaminoacidsformingpeptidechainsbydehydrationandcondensation2.1.2串联质谱技术质谱分析是一种通过测量离子质荷比(质量-电荷比)进而对试验样品进行分析的方法,在试验样品经过离子源时,试验样品中的组分发生,生成不同荷质比的带电荷的离子,再经加速电场形成离子束,最后进入分析器得出最终结果。在使用串联质谱(MS/MS)进行蛋白质鉴定的过程中,样品蛋白质首先被酶解,然后送入质谱仪中进行离子化,产生母离子并获得相应的一级质谱,再选择一些母离子通过一些离子解离方法进行碎裂,再次分析,记录下各个离子碎片的质荷比(m/z)和强度信息,其流程如图2.3所示。用的离子解离方法包括CID(Collision-inducedDissociation,即通过撞击使得肽键断裂从而达到多肽碎裂目的的方法)和HCD(High-energyC-trapDissociation,即在高能条件下让肽键断裂进而碎裂多肽的方法,该方法碎裂规律与CID相似,但碎裂能量更高),还有一些如ETD(electrontransferdissociation)、ECD(electroncatchdissociation)等。图2.3蛋白质鉴定中串联质谱数据获取流程Fig2.3Thedataacquisitionprocessoftandemmassspectrometryinproteinidentification经过质谱仪获得的原始质谱图是碎片离子的峰形图,为了后续存储计算方便,通常将原始质谱图中的离子峰转换为(m/z,intensity)这样的形式来保存,其中,m/z表示离子峰的中心质荷比,intensity表示离子峰的强度。在描述离子峰的强度时,一

【参考文献】:
期刊论文
[1]肽段的理论串联质谱图预测方法研究进展[J]. 周撷璇,任睿,高婉铃,黄运有,曾文锋,孔德飞,郝天舒,张知非,詹剑锋.  生物化学与生物物理进展. 2019(02)
[2]深度学习方法在生物质谱及蛋白质组学中的应用[J]. 赵新元,秦伟捷,钱小红.  生物化学与生物物理进展. 2018(12)



本文编号:3074665

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3074665.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e77a7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com