Acr基因的保守特征分析与自动化识别方法的研究
发布时间:2021-01-29 13:14
基因编辑在生命科学领域的科学研究和应用中扮演了越来越重要的角色,近年来,一种抑制CRISPR-Cas系统功能的蛋白——Acr,开始进入我们的视野,并且成为了当前研究的热点。Acr可以保护MGE片段,也可以作为调节基因编辑系统的工具。一些噬菌体通过Acr对CRISPR-Cas系统的抑制功能,成功地感染细菌并将其遗传材料整合到宿主的基因组中。由于目前我们对Acr的认识还十分有限,科学家们只能使用比较单一的方法在细菌中的基因组中定位大致的Acr,然后通过实验进行验证,费时费力。因此对Acr相关的特征进行系统的分析,设计一套完整的Acr识别系统,将极大地促进我们对Acr的了解和鉴定。为此,我们系统地调查了Acr的特征,结合机器学习的方法,利用决策树构建了一个比较准确的Acr识别系统。在本工作中,我们从五个角度分析了Acr的特征:1)与非Acr蛋白相比,Acr蛋白拥有较短的序列长度,分布在81234aa的范围内;2)在Genbank中,Acr通常被注释为假定蛋白,而非Acr蛋白则有具体的功能;3)大部分的Acr的编码基因(66.7%)都位于基因组岛上,其中81.8%属于pr...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
Acr与非Acr蛋白序列长度差异分析
诜⑾值乃?蠥cr的蛋白质序列的长度的平均值,然后分析了其分布(图2-1.c)。从图中可以看出,在不同属中Acr蛋白的长度与所有Acr蛋白的长度分布较为相似,说明物种对Acr蛋白的长度影响不大。考虑到细菌自身的蛋白和外来的可移动遗传元件MGEs上的蛋白之间在序列长度上可能存在差异,我们从Genbank获得了69个Acr所在的53个基因组的所有蛋白序列,并将这些蛋白分为细菌自身和外来MGEs两大类,然后分析了这两类蛋白之间的长度差异。总体来说,MGEs上的蛋白的长度小于基因组自身蛋白的长度(平均长度分别为267aa、317aa),但是从图2-2.a可以看出,这两类蛋白的长度分布有很高的重叠度。Studentt检验显示,这两类蛋白质的序列长度之间存在显著差异(p=6.29e-47)。说明在大多数情况下,MGEs上的蛋白的长度确实小于细菌自身的蛋白长度。值得注意的是,当我们将蛋白的范围缩小到MGEs上的所有蛋白,将MGEs上的所有的蛋白分为Acr和非Acr(同时排除Acr的同源蛋白),然后分析它们之间的蛋白质序列长度差异,结论依然与之前一致(图2-2.b)。Acr蛋白的序列长度明显小于非Acr(平均长度分别为137aa、270aa),Studentt检验为极显著差异(p=2.68e-5)。图2-2不同类型蛋白的长度分布。(a)MGEs内外蛋白的长度分布;(b)Acr与MGEs上的非Acr蛋白之间的长度比较
电子科技大学硕士学位论文142.2.2Acr蛋白的功能分析在Genbank中,基因组内所有基因都注释了其产物及其功能,但是有的基因因为测序或者对基因组的分析还不够完整,有的蛋白被注释为假定蛋白(hypotheticalprotein)或者是与其他基因组有保守性,但是没有明确功能的蛋白(conservedhypotheticalprotein)。通过对Acr蛋白的功能进行调查,我们可以快速排除一些不可能是Acr的蛋白质,如Genbank中明确注释了功能与CRISPR-Cas系统无关的蛋白,那么这个蛋白是Acr的可能性则几乎可以忽略。图2-3蛋白的功能分布。(a)Genbank对69个Acr蛋白的功能注释分布;(b)MGEs范围内非Acr蛋白的功能分布我们从Genbank数据库中获取了我们收集到的所有69个Acr的蛋白质功能,随后我们对其进行了分类和统计调查(图2-3.a)。通过分析,我们可以看出绝大多数的Acr蛋白(72.5%)都被注释为假定蛋白,没有明确的功能。在其余的19个注释了功能的Acr蛋白中,有17个已经被明确注释为Acr,仅有2个的功能被注释为其他(表2-2)。粗略来看,在69个Acr中还是有相当一部分具有明确的注释,然而这可能是由于在近年的研究中,部分蛋白已经被注释为Acr,如果刨除这部分蛋白,那将只有极少部分的Acr具有明确的功能注释。表2-2两个有明确功能注释的Acr蛋白编号Acr名称Accession来源物种Acr蛋白功能1AcrIIA1AEO04364.1ListeriamonocytogenesJ0161gp282AcrIIA2AEO04363.1ListeriamonocytogenesJ0161gp29另外,我们还调查了细菌基因组内其他蛋白(排除Acr及Acr的同源蛋白)的功能注释情况。在细菌的基因组内,大部分蛋白(76.6%)均有明确的功能注释,
本文编号:3006947
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
Acr与非Acr蛋白序列长度差异分析
诜⑾值乃?蠥cr的蛋白质序列的长度的平均值,然后分析了其分布(图2-1.c)。从图中可以看出,在不同属中Acr蛋白的长度与所有Acr蛋白的长度分布较为相似,说明物种对Acr蛋白的长度影响不大。考虑到细菌自身的蛋白和外来的可移动遗传元件MGEs上的蛋白之间在序列长度上可能存在差异,我们从Genbank获得了69个Acr所在的53个基因组的所有蛋白序列,并将这些蛋白分为细菌自身和外来MGEs两大类,然后分析了这两类蛋白之间的长度差异。总体来说,MGEs上的蛋白的长度小于基因组自身蛋白的长度(平均长度分别为267aa、317aa),但是从图2-2.a可以看出,这两类蛋白的长度分布有很高的重叠度。Studentt检验显示,这两类蛋白质的序列长度之间存在显著差异(p=6.29e-47)。说明在大多数情况下,MGEs上的蛋白的长度确实小于细菌自身的蛋白长度。值得注意的是,当我们将蛋白的范围缩小到MGEs上的所有蛋白,将MGEs上的所有的蛋白分为Acr和非Acr(同时排除Acr的同源蛋白),然后分析它们之间的蛋白质序列长度差异,结论依然与之前一致(图2-2.b)。Acr蛋白的序列长度明显小于非Acr(平均长度分别为137aa、270aa),Studentt检验为极显著差异(p=2.68e-5)。图2-2不同类型蛋白的长度分布。(a)MGEs内外蛋白的长度分布;(b)Acr与MGEs上的非Acr蛋白之间的长度比较
电子科技大学硕士学位论文142.2.2Acr蛋白的功能分析在Genbank中,基因组内所有基因都注释了其产物及其功能,但是有的基因因为测序或者对基因组的分析还不够完整,有的蛋白被注释为假定蛋白(hypotheticalprotein)或者是与其他基因组有保守性,但是没有明确功能的蛋白(conservedhypotheticalprotein)。通过对Acr蛋白的功能进行调查,我们可以快速排除一些不可能是Acr的蛋白质,如Genbank中明确注释了功能与CRISPR-Cas系统无关的蛋白,那么这个蛋白是Acr的可能性则几乎可以忽略。图2-3蛋白的功能分布。(a)Genbank对69个Acr蛋白的功能注释分布;(b)MGEs范围内非Acr蛋白的功能分布我们从Genbank数据库中获取了我们收集到的所有69个Acr的蛋白质功能,随后我们对其进行了分类和统计调查(图2-3.a)。通过分析,我们可以看出绝大多数的Acr蛋白(72.5%)都被注释为假定蛋白,没有明确的功能。在其余的19个注释了功能的Acr蛋白中,有17个已经被明确注释为Acr,仅有2个的功能被注释为其他(表2-2)。粗略来看,在69个Acr中还是有相当一部分具有明确的注释,然而这可能是由于在近年的研究中,部分蛋白已经被注释为Acr,如果刨除这部分蛋白,那将只有极少部分的Acr具有明确的功能注释。表2-2两个有明确功能注释的Acr蛋白编号Acr名称Accession来源物种Acr蛋白功能1AcrIIA1AEO04364.1ListeriamonocytogenesJ0161gp282AcrIIA2AEO04363.1ListeriamonocytogenesJ0161gp29另外,我们还调查了细菌基因组内其他蛋白(排除Acr及Acr的同源蛋白)的功能注释情况。在细菌的基因组内,大部分蛋白(76.6%)均有明确的功能注释,
本文编号:3006947
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3006947.html