基于模体识别和机器学习的细菌基因组中sigma-54启动子预测
发布时间:2020-09-04 22:08
RNA聚合酶的主要功能是利用DNA来制造RNA。在转录过程中,RNA聚合酶使用DNA作为模板并使用腺嘌呤脱氧核苷酸(A)和胸腺嘧啶脱氧核苷酸(T),胞嘧啶脱氧核苷酸(C)、尿嘧啶脱氧核苷酸(U)四种碱基来作为产生RNA的原料。细胞为了适应不同的环境、执行生物体内独特的角色以及维持生存所需的代谢过程,需要通过转录过程来控制RNA的形成,从而控制蛋白质的合成,进而来控制生物的各种性状。并且RNA聚合酶存在于所有的生物、细胞及病毒中,因此,RNA聚合酶是一种非常重要的酶。RNA聚合酶的核心酶包含5个亚单位(β,β',αⅠ和αⅡ和ω)。sigma因子识别特定的DNA序列与RNA核心酶构成RNA聚合酶全酶,sigma因子作为RNA聚合酶全酶的一个单位,是基因转录调控过程中的关键因素。它识别特定的DNA位点并将RNA聚合酶的核心酶带到靶基因的上游区域。所以,原核生物中启动子的类型是根据sigma因子的类型来定义的。目前,已知的sigma因子主要属于两类:一个是sigma-70,它调控了正常情况下大多数管家基因的转录;另一个是sigma-54,它负责调控与环境相关的特定基因的转录。正因为转录是基因表达的第一步,而sigma因子又在转录起始中起着关键作用,所以近年来对sigma因子的研究已经成为研究基因表达调控的关键点之一,也受到了各国生物学家的密切关注。sigma-54家族中的许多成员在细胞的多个代谢过程中(例如:固氮调控过程,精氨酸的分解过程等)都起着重要的作用。因此,了解基因表达的后续步骤,建立基因转录网络来揭示sigma-54启动子转录的机制是至关重要的。本文介绍了一种预测细菌基因组sigma-54启动子的新方法。新方法有机地结合了模体识别和机器学习策略,来获得sigma-54启动子的内在特征。我们通过三种数据集来验证了我们的新方法。首先在大肠杆菌基因组中的基准数据集上进行模型训练。在大肠杆菌数据集上的基准测试表明,本文的新方法可以很好的区分sigma-54启动子与周围的非功能DNA序列或随机选择的DNA序列。其次,我们将训练好的模型运用到三个不同基因组的计算预测数据上进行进一步的测试,包括:枯草芽孢杆菌(NC_000964),丙酮丁醇梭菌(NC_003030)和短乳杆菌(NC_008497)三个样本集。在其他三种细菌基因组的应用表明了我们的方法在大量细菌基因组上具有潜在的稳健性和应用能力。最后,将本文中的方法运用到了其他启动子的识别中,同样取得了不错的效果。同时,我们构建了启动子预测网络服务器,针对原核生物的5个不同的sigma因子提供预测服务。
【学位单位】:山东大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q811.4;TP391.4;TP181
【部分图文】:
山东大学硕士学位论文,我们把短序列(长度小于12邋bps)忽略掉,并且短的序列可能会带来,从而影响实验结果。我们同时将负样本集中的模体也考虑在内,因区域或没有sigma因子结合的基因间区域中可能存在一些保守的模体,sigma结合区域排除。将每个预测得到的预测模体转换成位置频率矩其中人是在每个位置_/处(从1到1,并且1是模体的长度)核苷{A,邋G,邋C,T})的频率。我们在DMINDA网络服务器上通过BOBR菌基准数据进行了模体识别,输入的模体长度范围为]2到16。我们中获得了邋99个模体剖面,并从负样本集中获得了邋105个模体剖面。如图3.2.1所示,其中x轴是预测模体的长度,并且y轴是具有相应的数量,左边是大肠杆菌中的正样本长度分布图,右边是大肠杆菌中度分布图:逡逑100100-逡逑
图4.2.1:本文的方法和iPro54-PseKNC之间的性能比较逡逑看到,基于本文策略的分类的平均性能具有较高的灵敏度,但C相比具有较低的特异性,这两种方法的准确率(Acc)和马CC)并没有显著差异。逡逑上述分类进行了降维。在这里,我们选择了三种流行的分类学,随机森林和支持向量机来做进一步的分析。libSVM应用中最(-c)和gamma邋(-g),我们使用默认值1作为成本,并将ga其中k是输入数据的记录数。随机森林的参数设置如下:每个)考虎的属性集的大小的缺省值被用作log2(m)+l,其中m是输练学习器的样本量(batchSizes)被设置为100;并且迭代次数
Bobro来获取模体,其中sigma-70启动子中获得了邋262个特征,sigma-32启动子逡逑中获得了邋251个特征,sigma-28启动子中获得了邋249个特征,sigma-24启动子中逡逑获得了邋258个特征,其特征分布如下图4.5.1所示。逡逑-25-逡逑
本文编号:2812650
【学位单位】:山东大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q811.4;TP391.4;TP181
【部分图文】:
山东大学硕士学位论文,我们把短序列(长度小于12邋bps)忽略掉,并且短的序列可能会带来,从而影响实验结果。我们同时将负样本集中的模体也考虑在内,因区域或没有sigma因子结合的基因间区域中可能存在一些保守的模体,sigma结合区域排除。将每个预测得到的预测模体转换成位置频率矩其中人是在每个位置_/处(从1到1,并且1是模体的长度)核苷{A,邋G,邋C,T})的频率。我们在DMINDA网络服务器上通过BOBR菌基准数据进行了模体识别,输入的模体长度范围为]2到16。我们中获得了邋99个模体剖面,并从负样本集中获得了邋105个模体剖面。如图3.2.1所示,其中x轴是预测模体的长度,并且y轴是具有相应的数量,左边是大肠杆菌中的正样本长度分布图,右边是大肠杆菌中度分布图:逡逑100100-逡逑
图4.2.1:本文的方法和iPro54-PseKNC之间的性能比较逡逑看到,基于本文策略的分类的平均性能具有较高的灵敏度,但C相比具有较低的特异性,这两种方法的准确率(Acc)和马CC)并没有显著差异。逡逑上述分类进行了降维。在这里,我们选择了三种流行的分类学,随机森林和支持向量机来做进一步的分析。libSVM应用中最(-c)和gamma邋(-g),我们使用默认值1作为成本,并将ga其中k是输入数据的记录数。随机森林的参数设置如下:每个)考虎的属性集的大小的缺省值被用作log2(m)+l,其中m是输练学习器的样本量(batchSizes)被设置为100;并且迭代次数
Bobro来获取模体,其中sigma-70启动子中获得了邋262个特征,sigma-32启动子逡逑中获得了邋251个特征,sigma-28启动子中获得了邋249个特征,sigma-24启动子中逡逑获得了邋258个特征,其特征分布如下图4.5.1所示。逡逑-25-逡逑
【参考文献】
相关博士学位论文 前1条
1 刘丙强;原核生物中的转录调控模体预测研究[D];山东大学;2010年
本文编号:2812650
本文链接:https://www.wllwen.com/yixuelunwen/swyx/2812650.html