基于模体识别和机器学习的细菌基因组中sigma-54启动子预测

发布时间：2020-09-04 22:08

　　 RNA聚合酶的主要功能是利用DNA来制造RNA。在转录过程中,RNA聚合酶使用DNA作为模板并使用腺嘌呤脱氧核苷酸(A)和胸腺嘧啶脱氧核苷酸(T),胞嘧啶脱氧核苷酸(C)、尿嘧啶脱氧核苷酸(U)四种碱基来作为产生RNA的原料。细胞为了适应不同的环境、执行生物体内独特的角色以及维持生存所需的代谢过程,需要通过转录过程来控制RNA的形成,从而控制蛋白质的合成,进而来控制生物的各种性状。并且RNA聚合酶存在于所有的生物、细胞及病毒中,因此,RNA聚合酶是一种非常重要的酶。RNA聚合酶的核心酶包含5个亚单位(β,β',αⅠ和αⅡ和ω)。sigma因子识别特定的DNA序列与RNA核心酶构成RNA聚合酶全酶,sigma因子作为RNA聚合酶全酶的一个单位,是基因转录调控过程中的关键因素。它识别特定的DNA位点并将RNA聚合酶的核心酶带到靶基因的上游区域。所以,原核生物中启动子的类型是根据sigma因子的类型来定义的。目前,已知的sigma因子主要属于两类:一个是sigma-70,它调控了正常情况下大多数管家基因的转录;另一个是sigma-54,它负责调控与环境相关的特定基因的转录。正因为转录是基因表达的第一步,而sigma因子又在转录起始中起着关键作用,所以近年来对sigma因子的研究已经成为研究基因表达调控的关键点之一,也受到了各国生物学家的密切关注。sigma-54家族中的许多成员在细胞的多个代谢过程中(例如:固氮调控过程,精氨酸的分解过程等)都起着重要的作用。因此,了解基因表达的后续步骤,建立基因转录网络来揭示sigma-54启动子转录的机制是至关重要的。本文介绍了一种预测细菌基因组sigma-54启动子的新方法。新方法有机地结合了模体识别和机器学习策略,来获得sigma-54启动子的内在特征。我们通过三种数据集来验证了我们的新方法。首先在大肠杆菌基因组中的基准数据集上进行模型训练。在大肠杆菌数据集上的基准测试表明,本文的新方法可以很好的区分sigma-54启动子与周围的非功能DNA序列或随机选择的DNA序列。其次,我们将训练好的模型运用到三个不同基因组的计算预测数据上进行进一步的测试,包括:枯草芽孢杆菌(NC_000964),丙酮丁醇梭菌(NC_003030)和短乳杆菌(NC_008497)三个样本集。在其他三种细菌基因组的应用表明了我们的方法在大量细菌基因组上具有潜在的稳健性和应用能力。最后,将本文中的方法运用到了其他启动子的识别中,同样取得了不错的效果。同时,我们构建了启动子预测网络服务器,针对原核生物的5个不同的sigma因子提供预测服务。
【学位单位】：山东大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：Q811.4;TP391.4;TP181
【部分图文】：

长度分布图,特征选择,模体

山东大学硕士学位论文，我们把短序列（长度小于１２邋ｂｐｓ）忽略掉，并且短的序列可能会带来，从而影响实验结果。我们同时将负样本集中的模体也考虑在内，因区域或没有ｓｉｇｍａ因子结合的基因间区域中可能存在一些保守的模体，ｓｉｇｍａ结合区域排除。将每个预测得到的预测模体转换成位置频率矩其中人是在每个位置＿／处（从１到１，并且１是模体的长度）核苷｛Ａ，邋Ｇ，邋Ｃ，Ｔ｝）的频率。我们在ＤＭＩＮＤＡ网络服务器上通过ＢＯＢＲ菌基准数据进行了模体识别，输入的模体长度范围为］２到１６。我们中获得了邋９９个模体剖面，并从负样本集中获得了邋１０５个模体剖面。如图３．２．１所示，其中ｘ轴是预测模体的长度，并且ｙ轴是具有相应的数量，左边是大肠杆菌中的正样本长度分布图，右边是大肠杆菌中度分布图：逡逑１００１００－逡逑

平均性能,灵敏度,方法,学习器

图４．２．１：本文的方法和ｉＰｒｏ５４－ＰｓｅＫＮＣ之间的性能比较逡逑看到，基于本文策略的分类的平均性能具有较高的灵敏度，但Ｃ相比具有较低的特异性，这两种方法的准确率（Ａｃｃ）和马ＣＣ）并没有显著差异。逡逑上述分类进行了降维。在这里，我们选择了三种流行的分类学，随机森林和支持向量机来做进一步的分析。ｌｉｂＳＶＭ应用中最（－ｃ）和ｇａｍｍａ邋（－ｇ），我们使用默认值１作为成本，并将ｇａ其中ｋ是输入数据的记录数。随机森林的参数设置如下：每个）考虎的属性集的大小的缺省值被用作ｌｏｇ２（ｍ）＋ｌ，其中ｍ是输练学习器的样本量（ｂａｔｃｈＳｉｚｅｓ）被设置为１００；并且迭代次数

启动子,特征分布,模体,物种

Ｂｏｂｒｏ来获取模体，其中ｓｉｇｍａ－７０启动子中获得了邋２６２个特征，ｓｉｇｍａ－３２启动子逡逑中获得了邋２５１个特征，ｓｉｇｍａ－２８启动子中获得了邋２４９个特征，ｓｉｇｍａ－２４启动子中逡逑获得了邋２５８个特征，其特征分布如下图４．５．１所示。逡逑－２５－逡逑

【参考文献】