当前位置:主页 > 理工论文 > 生物学论文 >

基于序列的细菌终止子识别

发布时间:2020-11-18 08:42
   转录终止是基因表达的重要调节步骤,而转录的结束由终止子决定。如果基因中没有终止子,则转录不能停止,从而导致基因表达异常。检测细菌中的终止子不仅可以确定细菌生物中的操纵子结构,还可以改善基因组的注释。因此,准确识别转录终止子对于转录调控的研究来说是非常重要的。虽然生物化学实验方法可以清楚准确地识别终止子序列,但是非常耗时且昂贵。为提高效率,人们已提出一些计算方法。这些方法主要分为两类:(1)使用核酸组成信息来描述终止子。(2)将发夹结构特征以及下游的T富含区域作为特征用于描述终止子。由于这些方法不能反映终止子的统计特征,所以本文提出了基于序列信息,用机器学习的方法来识别细菌终止子。本文基于低冗余性基准数据集构建了用于识别细菌转录终止子的“iTerm-PseKNC”模型和“DeepTerm”模型。(1)“iTerm-PseKNC”是基于支持向量机(SVM)开发的终止子预测模型,该模型使用二项分布特征筛选技术得到伪K-元组核苷酸组成(PseKNC)的最佳特征子集,利用五重交叉检验来测试模型的预测性能,结果显示,该模型的预测精度达到了95%的准确率。(2)“DeepTerm”是一个基于卷积神经网络的终止子预测模型。该模型使用One-Hot编码作为输入特征,五重交叉验证测试结果显示“DeepTerm”能够获得99.40%的准确度。为了进一步评估“iTerm-PseKNC”模型和“DeepTerm”模型的泛化能力,本文构建了两个独立测试集,分别是经实验验证了的大肠杆菌和枯草芽孢杆菌Rho非依赖终止子序列。结果表明“iTerm-PseKNC”模型和“DeepTerm”模型都可以识别大肠杆菌独立测试集中的所有终止子序列,在枯草芽孢杆菌独立测试集上的测试精度分别为87.5%和99.24%。本文基于“iTerm-PseKNC”模型建立了的服务网站http://lin-group.cn/server/iTerm-PseKNC/,实验人员不需要做复杂的计算,可以直接使用该网站很轻松的预测序列是否为终止子。
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:Q78;TP18
【部分图文】:

示意图,细菌,终止子,示意图


第一章 绪论第一章 绪论1.1 细菌终止子简介在细菌中,当 RNA 聚合酶与启动子结合时,从 DNA 到 RNA 的转录开始并持续直到 RNA 聚合酶遇到转录终止子。所有 RNA 聚合酶必须终止,解离并在终止子处释放产物 RNA。所以如果基因中没有终止子,则转录不会停止,从而导致基因表达异常,因此,终止子是极其重要的 DNA 调节元件。在细菌中主要有两类终止子:Rho 独立终止子(也称为因子非依赖性或内在终止子)和 Rho 依赖性终止子(也称为因子依赖性终止子),如图 1-1 所示。非 Rho依赖终止子由于包含对称的 GC 子序列从而形成了茎环,而 Rho 依赖性终止子不包含茎环。前者仅需要 DNA 模板和 RNA 聚合酶即可实现转录终止功能,但后者还需要其他元素如 Rho 蛋白来实现功能。

示意图,碱基对,二联体,核苷酸序列


图2-1(a)表示的是长度为 L 的 DNA/RNA 序列最临近的二联体碱基对(n=2)之间反映出来的序列结构相关因子的第一层关系,同理,图 2-1(b)和图 2-1(c)分别表示的是第二临近和第三临近碱基对之间反映出来的序列结构相关因子的第二层和第三层关系,以此类推可以计算得到 。图 2-1 提取核苷酸序列二联体碱基对长程信息相关示意图在本文使用了六种 DNA 的结构属性,分别是上下、左右、前后、先后卷动、左右倾斜、旋转扭曲,对应的碱基对空间位置如图 2-2 所示。对应的碱基对结构属性值[39]还需要通过以下公式(2-7)进行标准变换,其中 符号表示在 A、T、C、G 的 16 种不同组合中取对应数量的平均值,而 SD 表示相应的标准偏差。 ( ) = 0( 1) 0( 1) 0( 1) (2-7)

序列,碱基对,特征向量,序列信息


图 2-2 碱基对空间位置关系征筛选公式(2-3)可知,特征向量的维数主要由 k 值决定,k 值越大,可序列信息。易知 4643= , 410245= , 4104857610= ,即随着 k 值征向量维数呈指数增加,这不仅会给计算机造成很大的计算压力,所谓的“高维灾难”。并且基于高维度特征向量表示的序列训练得可能不适用于其他的数据,对于其他相异性较大的样本不能做出很模型过拟合的现象。但是如果 k 值过小,特征向量包含的序列信息全面的表征 DNA 序列,得到的模型会处于欠拟合状态,即模型在训有良好的性能,便更不能对其他数据进行预测。为解决这一问题,式是当特征向量维度很大时,对特征进行筛选,留下正相关特征,冗余的特征,从而减轻计算机的计算压力,减少训练时间,并且还性能,提高模型的偏差容差[39]。
【相似文献】

相关期刊论文 前10条

1 陆军,赵雯;T_(32)终止子在棒状杆菌基因表达中的功能[J];常熟高专学报;1999年04期

2 ;HBV S基因终止子突变导致HBsAg检测阴性[J];中西医结合肝病杂志;2002年01期

3 宋君;常丽娟;张富丽;王东;李洁;;采用蒙特卡洛法评定转基因水稻样品中NOS终止子的测量不确定度[J];计量学报;2019年01期

4 李文静;冯雪;孙艳香;;水稻GluB-4终止子的克隆与功能分析[J];植物生理学报;2018年10期

5 张嵩元;邱建辉;王宣;董一名;李昱龙;张益豪;欧阳颀;;基于重组酶和终止子的状态调控开关设计[J];生物工程学报;2018年12期

6 王东;宋君;叶先林;雷绍荣;刘文娟;常丽娟;尹全;张富丽;;转基因大豆外源基因NOS终止子定量测定的不确定度分析[J];大豆科学;2013年05期

7 邓子新,Tobias Kieser,David A.Hopwood;链霉菌高拷贝质粒pIJ101 DNA的研究 Ⅱ.在大肠杆菌中具有终止子活性片段的克隆和分析[J];华中农业大学学报;1990年02期

8 贾建军,周晓黎,董俊,花群义,李文贵,周力兵,徐自忠;转基因烟草检测技术研究[J];生物技术通讯;2002年04期

9 王东;宋君;雍彬;叶先林;常丽娟;尹全;张富丽;刘文娟;雷绍荣;;转基因水稻外源基因NOS终止子定量测定的不确定度分析[J];江西农业学报;2013年10期

10 苏军;管其龙;陈子强;陈在杰;;水稻arf1基因3′-UTR片段的克隆和验证[J];应用与环境生物学报;2019年02期


相关硕士学位论文 前7条

1 冯朝琴;基于序列的细菌终止子识别[D];电子科技大学;2019年

2 王召霞;酿酒酵母终止子的人工设计及在途径优化中的应用[D];石河子大学;2019年

3 李陈孟;T7转录筛选器的构建及应用[D];北京化工大学;2018年

4 魏琳娜;酿酒酵母终止子的表征及在番茄红素合成途径中的应用[D];石河子大学;2018年

5 谢程程;玉米α-淀粉酶基因花粉特异表达载体构建及愈伤组织的遗传转化[D];四川农业大学;2014年

6 蔡翠雅;烟草安全抗青枯病基因工程研究[D];福建农林大学;2014年

7 王林;饲料生产工艺对转基因豆粕的影响[D];河南科技大学;2011年



本文编号:2888536

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2888536.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b0785***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com