细菌必需基因自训练算法的研究及实现

发布时间：2017-09-04 23:05

本文关键词：细菌必需基因自训练算法的研究及实现

【摘要】：必需基因是生物体中非常重要的一类基因,如果缺少这种基因,生物将无法存活。对于必需基因的确认,现在主要有两种方法,一种就是使用实验方法进行确认,但是这种方法耗时长,并且消耗巨大,由于实验方法的缺陷与局限性,至今也只有很少的细菌必需基因被大规模实验确定;另一种方法是利用计算机进行必需基因预测,这种方法解决了实验方法的缺陷,现今的预测方法大部分使用的是整合方法,但是这种方法非常依赖实验数据,在缺乏实验数据的时候很难对细菌必需基因进行预测。为了摆脱实验数据的限制,我们决定开发基于基因本身特征的必需基因预测算法。首先我们选择了蛋白质结构域作为预测必需基因的特征,通过实验验证,我们发现蛋白质结构域在必需基因的预测中起到了非常大的作用。之后,我们选择了25个物种作为实验物种,通过物种间的亲缘距离将不同物种间的结构域联系起来,设计了基于蛋白质结构域的必需基因预测算法。通过对25个实验物种进行多重交叉检验并计算结果AUC值,最终结果有5个物种超过了0.9;而在0.75到0.9之间的物种,也有14个;低于0.75的物种只有6个,最低的也有0.66,说明了我们的这种算法效果非常的好。然后,对于同样基于基因序列特征的必需基因预测工具Geptop,我们对其进行了改进。改进的地方如下:(1)对参考集由最初的19个物种扩充到25个;(2)对不易让人理解的评分公式进行了简化,使之简单易懂同时不降低必需基因预测准确度;(3)对预测程序进行了优化,使之效率提升。通过这三面的改进过后,Geptop的预测准确度得到了一定的提升,通过和之前的版本进行比较,19个物种中,有12个物种的结果均有所提高。同时,以大肠杆菌为例,程序的运行速度从107分钟缩减到了26分钟,效率提高了接近4倍。最后,我们尝试将基于蛋白质结构域的必需基因预测方法和Geptop结合起来,期望得到更好的预测结果。由于时间关系,我们没能找到提高预测结果的结合方式,但是我们已探索的结合方式也能给继续研究这方面的学者提供经验。
【关键词】：细菌 必需基因 蛋白质结构域
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：Q811.4
【目录】：

摘要5-6
ABSTRACT6-10
第一章绪论10-14
1.1 研究背景10
1.2 必需基因的识别10-12
1.3 本论文的结构安排12-14
第二章基于蛋白质结构域的必需基因预测算法14-25
2.1 引言14
2.2 蛋白质结构域知识14-15
2.3 基于蛋白质结构域的必需基因预测算法15-20
2.3.1 实验数据的选择16-17
2.3.2 实验方法17-18
2.3.3 实验结果及分析18-20
2.4 基于物种亲缘性及蛋白质结构域的必需基因预测算法20-25
2.4.1 Cvtree理论21
2.4.2 算法的实现21-23
2.4.3 实验结果23-25
第三章对Geptop软件的改进25-38
3.1 引言25
3.2 Geptop的改进25-34
3.2.1 参考集的筛选26-30
3.2.2 评分公式的改进30-31
3.2.3 对程序运行效率的改进31-34
3.3 阈值的选择34-37
3.4 小结37-38
第四章 Geptop与蛋白质结构域的结合预测方法38-48
4.1 引言38
4.2 Geptop与蛋白质结构域结合预测算法38-47
4.2.1 参考集的选择38
4.2.2 结合方法38-47
4.3 小结47-48
第五章全文总结及展望48-50
致谢50-51
参考文献51-55
攻读硕士学位期间取得的成果55-56

，

本文编号：794366

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jiyingongcheng/794366.html

上一篇：氧化苦参碱对高脂饮食诱导胰岛素抵抗载脂蛋白E基因敲除小鼠肝脏胆固醇代谢调控基因的影响
下一篇：紫花苜蓿无序蛋白MsZFP基因的克隆及功能研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|