宏蛋白质组中蛋白质推断策略研究
发布时间:2021-06-23 13:08
近十年以来,基于质谱技术的宏蛋白质组学在表征微生物群落特征方面表现出巨大潜力。蛋白质推断将从数据库检索引擎获得的肽段-谱图匹配与蛋白质联系起来,它是宏蛋白质组学研究的核心问题之一。然而,由于微生物群落本身的复杂性,与单一物种的蛋白质组学相比,宏蛋白质组学中的蛋白质推断要困难得多。目前还没有一个数据分析平台可以用来比较不同蛋白质推断策略对分析结果的影响,或提供数据特征探索功能,帮助研究者构建合适的蛋白质推断工作流。为解决上述问题,本研究首先构建了一个宏蛋白质组数据分析平台MAP(Metaproteomics Analysis Pipelines)。它由两个模块构成:(1)以蛋白质为中心的分析模块,该模块集成了三个基础的蛋白质推断处理器。用户可以根据输入数据特征组合这三个处理器,定制蛋白质推断工作流,并对不同工作流产生的数据分析结果进行多维度、可视化的比较。(2)以肽段为中心的分析模块,该模块基于NCBI的NR蛋白质序列数据库和物种分类数据库计算肽段对应的最近公共祖先,从而进行物种分析。该模块基于Elasticsearch构建了一套新的存储和检索方案,与现存的类似平台的技术方案相比,它具有...
【文章来源】:重庆邮电大学重庆市
【文章页数】:98 页
【学位级别】:硕士
【部分图文】:
蛋白质推断示意图
重庆邮电大学硕士学位论文第2章宏蛋白质组学中的蛋白质推断策略及相关技术10地,定义R为样本中存在的蛋白质集合,E为相应的肽段集合,D为观测到的谱图集合,ε是肽段的索引。R和E表示真实存在的蛋白质和肽段的随机变量,r和e是随机变量的特定值。公式2.7通过边缘化所有谱图可能匹配的肽段集合来消除未知肽段E造成的不确定性,可推导出公式2.8。L(=|)∝Pr(|=)(2.7)=5&Pr (1=1)Pr (1=1|=)13(2.8)为了能够在大数据集上运行Fido,Fido引入了三种图转换程序:分区(partitioning),聚类(clustering)和修剪(pruning)来优化程序执行效率(图2.1)。分区是指将原始输入的二分图依据连通性分割成小的子二分图;聚类是指将匹配到相同肽段的蛋白质进行合并;修剪是指依据设定的PSM置信度阈值,将部分低于阈值的节点分配到不同的子图中,这样可以降低二分图的复杂性,提升计算效率。Fido模型的局限性在于它需要一个诱饵数据库以结合ROC优化通过网格搜索来找到参数的最佳值,这降低了运行效率[59]。图2.1Fido算法的预处理流程[76]从上面的介绍可以看出,宏蛋白质组学中的蛋白质推断策略多样,目前还没有统一定论。普遍认为针对不同特征的数据,其最优的蛋白质推断策略也不同。例如,在使用基于规则的推断策略时,需要权衡特异性和敏感性,从而选择合适的阈值。在使用基于概率模型的推断策略时,需要考虑共享肽段对算法的影响。因此本研究提出构建一个宏蛋白质组学数据分析平台,通过该平台用户不仅能够便捷高效地执
重庆邮电大学硕士学位论文第3章宏蛋白质组学数据分析平台MAP的构建19图3.1蛋白质合并示意图表3.1蛋白质protein1和protein2的谱系信息超界门纲目科属种superkingdom1phylum1class1order1family1genus1species1superkingdom1phylum1class1order1family1genus1species23.2.2肽段处理器肽段处理器(peptidehandler)根据肽段的属性执行蛋白质推断。依据肽段匹配到的蛋白质集合的数目可分为两类:(1)独有肽段:肽段仅匹配到一个蛋白质集合;(2)共享肽段:肽段出现在多个蛋白质集合中。无法仅通过共享肽段确定具体存在于样本中的蛋白质集合。肽段处理器的参数设置面板如图3.2所示,肽段处理器支持:(1)基于蛋白质集合所包含的独有肽段的数目进行蛋白质推断。一种常用的策略是第2章提到的“两肽规则”,即保留至少包含2个独有肽段的蛋白质集合,可以通过设置图3.2中的参数“uniquepeptidethreshold”为2实现。;(2)基于蛋白质所包含的肽段总数进行蛋白质推断。例如,可以设置图3.2中的参数“totalpeptidethreshold”为2,从而防止所谓的“one-hitwonders[92]”,即单个错误的PSM造成错误的蛋白质鉴定的情况。
【参考文献】:
期刊论文
[1]宏蛋白质组学信息分析的基本策略及其挑战[J]. 徐洪凯,闫克强,何燕斌,闻博,杨焕明,刘斯奇. 生物化学与生物物理进展. 2018(01)
[2]基于质谱的定量蛋白质组学策略和方法研究进展[J]. 常乘,朱云平. 中国科学:生命科学. 2015(05)
本文编号:3244996
【文章来源】:重庆邮电大学重庆市
【文章页数】:98 页
【学位级别】:硕士
【部分图文】:
蛋白质推断示意图
重庆邮电大学硕士学位论文第2章宏蛋白质组学中的蛋白质推断策略及相关技术10地,定义R为样本中存在的蛋白质集合,E为相应的肽段集合,D为观测到的谱图集合,ε是肽段的索引。R和E表示真实存在的蛋白质和肽段的随机变量,r和e是随机变量的特定值。公式2.7通过边缘化所有谱图可能匹配的肽段集合来消除未知肽段E造成的不确定性,可推导出公式2.8。L(=|)∝Pr(|=)(2.7)=5&Pr (1=1)Pr (1=1|=)13(2.8)为了能够在大数据集上运行Fido,Fido引入了三种图转换程序:分区(partitioning),聚类(clustering)和修剪(pruning)来优化程序执行效率(图2.1)。分区是指将原始输入的二分图依据连通性分割成小的子二分图;聚类是指将匹配到相同肽段的蛋白质进行合并;修剪是指依据设定的PSM置信度阈值,将部分低于阈值的节点分配到不同的子图中,这样可以降低二分图的复杂性,提升计算效率。Fido模型的局限性在于它需要一个诱饵数据库以结合ROC优化通过网格搜索来找到参数的最佳值,这降低了运行效率[59]。图2.1Fido算法的预处理流程[76]从上面的介绍可以看出,宏蛋白质组学中的蛋白质推断策略多样,目前还没有统一定论。普遍认为针对不同特征的数据,其最优的蛋白质推断策略也不同。例如,在使用基于规则的推断策略时,需要权衡特异性和敏感性,从而选择合适的阈值。在使用基于概率模型的推断策略时,需要考虑共享肽段对算法的影响。因此本研究提出构建一个宏蛋白质组学数据分析平台,通过该平台用户不仅能够便捷高效地执
重庆邮电大学硕士学位论文第3章宏蛋白质组学数据分析平台MAP的构建19图3.1蛋白质合并示意图表3.1蛋白质protein1和protein2的谱系信息超界门纲目科属种superkingdom1phylum1class1order1family1genus1species1superkingdom1phylum1class1order1family1genus1species23.2.2肽段处理器肽段处理器(peptidehandler)根据肽段的属性执行蛋白质推断。依据肽段匹配到的蛋白质集合的数目可分为两类:(1)独有肽段:肽段仅匹配到一个蛋白质集合;(2)共享肽段:肽段出现在多个蛋白质集合中。无法仅通过共享肽段确定具体存在于样本中的蛋白质集合。肽段处理器的参数设置面板如图3.2所示,肽段处理器支持:(1)基于蛋白质集合所包含的独有肽段的数目进行蛋白质推断。一种常用的策略是第2章提到的“两肽规则”,即保留至少包含2个独有肽段的蛋白质集合,可以通过设置图3.2中的参数“uniquepeptidethreshold”为2实现。;(2)基于蛋白质所包含的肽段总数进行蛋白质推断。例如,可以设置图3.2中的参数“totalpeptidethreshold”为2,从而防止所谓的“one-hitwonders[92]”,即单个错误的PSM造成错误的蛋白质鉴定的情况。
【参考文献】:
期刊论文
[1]宏蛋白质组学信息分析的基本策略及其挑战[J]. 徐洪凯,闫克强,何燕斌,闻博,杨焕明,刘斯奇. 生物化学与生物物理进展. 2018(01)
[2]基于质谱的定量蛋白质组学策略和方法研究进展[J]. 常乘,朱云平. 中国科学:生命科学. 2015(05)
本文编号:3244996
本文链接:https://www.wllwen.com/projectlw/swxlw/3244996.html
教材专著