细菌必需基因自训练算法的研究及实现
发布时间:2017-09-04 23:05
本文关键词:细菌必需基因自训练算法的研究及实现
【摘要】:必需基因是生物体中非常重要的一类基因,如果缺少这种基因,生物将无法存活。对于必需基因的确认,现在主要有两种方法,一种就是使用实验方法进行确认,但是这种方法耗时长,并且消耗巨大,由于实验方法的缺陷与局限性,至今也只有很少的细菌必需基因被大规模实验确定;另一种方法是利用计算机进行必需基因预测,这种方法解决了实验方法的缺陷,现今的预测方法大部分使用的是整合方法,但是这种方法非常依赖实验数据,在缺乏实验数据的时候很难对细菌必需基因进行预测。为了摆脱实验数据的限制,我们决定开发基于基因本身特征的必需基因预测算法。首先我们选择了蛋白质结构域作为预测必需基因的特征,通过实验验证,我们发现蛋白质结构域在必需基因的预测中起到了非常大的作用。之后,我们选择了25个物种作为实验物种,通过物种间的亲缘距离将不同物种间的结构域联系起来,设计了基于蛋白质结构域的必需基因预测算法。通过对25个实验物种进行多重交叉检验并计算结果AUC值,最终结果有5个物种超过了0.9;而在0.75到0.9之间的物种,也有14个;低于0.75的物种只有6个,最低的也有0.66,说明了我们的这种算法效果非常的好。然后,对于同样基于基因序列特征的必需基因预测工具Geptop,我们对其进行了改进。改进的地方如下:(1)对参考集由最初的19个物种扩充到25个;(2)对不易让人理解的评分公式进行了简化,使之简单易懂同时不降低必需基因预测准确度;(3)对预测程序进行了优化,使之效率提升。通过这三面的改进过后,Geptop的预测准确度得到了一定的提升,通过和之前的版本进行比较,19个物种中,有12个物种的结果均有所提高。同时,以大肠杆菌为例,程序的运行速度从107分钟缩减到了26分钟,效率提高了接近4倍。最后,我们尝试将基于蛋白质结构域的必需基因预测方法和Geptop结合起来,期望得到更好的预测结果。由于时间关系,我们没能找到提高预测结果的结合方式,但是我们已探索的结合方式也能给继续研究这方面的学者提供经验。
【关键词】:细菌 必需基因 蛋白质结构域
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-14
- 1.1 研究背景10
- 1.2 必需基因的识别10-12
- 1.3 本论文的结构安排12-14
- 第二章 基于蛋白质结构域的必需基因预测算法14-25
- 2.1 引言14
- 2.2 蛋白质结构域知识14-15
- 2.3 基于蛋白质结构域的必需基因预测算法15-20
- 2.3.1 实验数据的选择16-17
- 2.3.2 实验方法17-18
- 2.3.3 实验结果及分析18-20
- 2.4 基于物种亲缘性及蛋白质结构域的必需基因预测算法20-25
- 2.4.1 Cvtree理论21
- 2.4.2 算法的实现21-23
- 2.4.3 实验结果23-25
- 第三章 对Geptop软件的改进25-38
- 3.1 引言25
- 3.2 Geptop的改进25-34
- 3.2.1 参考集的筛选26-30
- 3.2.2 评分公式的改进30-31
- 3.2.3 对程序运行效率的改进31-34
- 3.3 阈值的选择34-37
- 3.4 小结37-38
- 第四章 Geptop与蛋白质结构域的结合预测方法38-48
- 4.1 引言38
- 4.2 Geptop与蛋白质结构域结合预测算法38-47
- 4.2.1 参考集的选择38
- 4.2.2 结合方法38-47
- 4.3 小结47-48
- 第五章 全文总结及展望48-50
- 致谢50-51
- 参考文献51-55
- 攻读硕士学位期间取得的成果55-56
本文编号:794366
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/794366.html
最近更新
教材专著