细菌必需基因特征分析及其分类预测研究
本文关键词:细菌必需基因特征分析及其分类预测研究
更多相关文章: 必需基因 支持向量机 特征选择 计算预测 集成学习
【摘要】:必需基因是生物体生命活动必不可少的基因,识别必需基因对于研究细胞生存的最低环境非常重要,同时也有助于探索生命的起源进化,在药物靶点设计、疾病治疗和生物工程方面有许多实际应用。目前主要采用实验方法测定必需基因,由于其耗时长、耗费大、实验结果不一致等缺点,利用计算方法预测必需基因成为重要的研究工作。近年来,许多计算方法被用来预测必需基因,尤其是基于机器学习的方法。研究人员提出各种与基因必需性有关的特征,其中包括很多高通量实验特征和拓扑特征。但还存在以下两方面的问题:一是预测模型只是针对一种或是某几种生物提出,对其他生物对象可能不适用;二是用于计算预测的各类特征包括诸多实验数据特征,这些特征都不能从序列中得到,而新基因组的实验数据特征一般都是缺失的,因此使计算预测应用范围有限。针对这些问题,本文以目前DEG(Database of Essential Genes)数据库收录的全部细菌生物必需基因作为研究对象,提取了基于序列的特征,特征选择后,用支持向量机和集成学习方法预测必需基因。主要工作如下:(1)用Hurst指数分析33种细菌生物。Hurst指数表示序列的长程相关性,通过对两类样本(必需和非必需基因)的Hurst指数进行统计分析,结果显示33个基因组中有31个基因组的必需基因Hurst指数显著性水平明显高于相应的全基因组,而非必需基因与全基因集相比没有明显差异。Hurst指数在两类样本(必需基因和非必需基因)间存在显著性差异,因此将Hurst指数作为基因必需性描述特征。(2)基因必需性关键特征子集研究。在原始特征集上用Lasso(Least absolute shrinkage and selection operator)算法进行特征选择,并把选择后的特征子集加入到支持向量机分类器来评价特征选择的有效性。设计了三个数据集(31种细菌生物构成的全部数据集、21种革兰氏阴性菌构成的数据集和10种革兰氏阳性菌构成的数据集)进行必需基因预测,在预测效果没有降低的情况下,原始特征分别从57、59和58维分别降低到40、37和38维,结果表明原始特征集中存在冗余性。(3)使用支持向量机预测必需基因。必需基因在全部基因中只是小部分,两类样本分布极不平衡,因此必需基因预测是一个不平衡学习问题。采用加权支持向量机分类器,给不同样本赋予不同的权重值,利用优化的核参数,用4种方法(自检测、交叉验证、留一物种法、跨物种预测)进行训练和预测。(4)使用集成学习预测必需基因。为进一步提高预测效果,从两方面进行改进:一是借鉴集成学习方法,根据两类样本数量,将多数类样本划分为多个数据集,再分别和少数类样本构成新的训练集,训练产生多个支持向量机分类器,通过分类器集成方法得到最终结果;二是分别用四种学习算法,支持向量机、贝叶斯、KNN和Bagging算法,分别训练产生多个分类器,最后将分类器进行集成,得到最终预测结果。
【关键词】:必需基因 支持向量机 特征选择 计算预测 集成学习
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;TP18
【目录】:
- 中文摘要3-5
- 英文摘要5-9
- 1 绪论9-16
- 1.1 引言9-11
- 1.1.1 分子生物学9-10
- 1.1.2 生物信息学及其研究内容10-11
- 1.2 课题研究背景11-12
- 1.3 国内外研究现状12-14
- 1.3.1 实验方法测定必需基因12-13
- 1.3.2 理论预测必需基因13-14
- 1.4 本文的主要研究方法和组织结构14-15
- 1.5 本章小结15-16
- 2 必需基因的特征及其选择16-38
- 2.1 基因必需性与特征16-21
- 2.1.1 基因序列特征17
- 2.1.2 氨基酸特征17-18
- 2.1.3 密码子偏性特征18-19
- 2.1.4 蛋白质亚细胞定位特征19-20
- 2.1.5 氨基酸跨膜特征20-21
- 2.1.6 氨基酸理化特性21
- 2.2 基因HURST指数特征分析21-29
- 2.2.1 数据获取22-23
- 2.2.2 数据分析过程23-24
- 2.2.3 结果及讨论24-29
- 2.3 特征选择算法及LASSO29-37
- 2.3.1 数据获取30-31
- 2.3.2 材料与方法31-34
- 2.3.3 特征选择34-35
- 2.3.4 结果分析及讨论35-37
- 2.4 本章小结37-38
- 3 基于支持向量机的必需基因预测38-56
- 3.1 支持向量机38-41
- 3.1.1 统计学习理论38
- 3.1.2 线性支持向量机38-39
- 3.1.3 非线性支持向量机39-41
- 3.2 不平衡学习41-43
- 3.2.1 数据层面处理不平衡数据42-43
- 3.2.2 算法层面处理不平衡数据43
- 3.3 预测评价方法43-45
- 3.4 支持向量机预测必需基因45-55
- 3.4.1 数据准备及预处理45-46
- 3.4.2 模型构建及核参数选择46-47
- 3.4.3 预测结果47-53
- 3.4.4 结果分析及讨论53-55
- 3.5 本章小结55-56
- 4 集成学习方法预测必需基因56-65
- 4.1 集成学习技术56-57
- 4.2 集成学习的主要算法57-59
- 4.2.1 Bagging算法57-58
- 4.2.2 Boosting算法58-59
- 4.3 模型构建59-61
- 4.3.1 训练集划分集成方法59-60
- 4.3.2 多类型分类器集成方法60-61
- 4.4 结果分析与讨论61-64
- 4.4.1 训练集划分集成学习预测61
- 4.4.2 多分类器集成分类结果61-64
- 4.5 本章小结64-65
- 5 工作总结及展望65-67
- 5.1 工作总结65-66
- 5.2 研究展望66-67
- 致谢67-68
- 参考文献68-74
- 附录74
- A. 作者在攻读硕士学位期间发表的论文目录74
- B. 作者在攻读硕士学位期间参加的科研项目74
【相似文献】
中国期刊全文数据库 前3条
1 叶远浓;郭锋彪;;微生物必需基因的理论研究现状[J];遗传;2012年04期
2 沈露露;杜敏;林兴凤;蔡婷;王大勇;;嗅觉神经元AWA功能必需基因以胰岛素信号依赖的方式调控秀丽线虫的衰老(英文)[J];Neuroscience Bulletin;2010年02期
3 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 张春霆;;细菌必需基因研究与最小基因组[A];第五届全国生物信息学与系统生物学学术大会论文集[C];2012年
2 郭锋彪;宁绿文;黄健;林昊;张会雄;;新洋葱伯克霍尔德氏菌AU-1054菌株的三条染色体上必需基因的异常分布[A];中国的遗传学研究——遗传学进步推动中国西部经济与社会发展——2011年中国遗传学会大会论文摘要汇编[C];2011年
中国博士学位论文全文数据库 前2条
1 叶远浓;细菌必需基因团簇模型及最小基因集构建[D];电子科技大学;2015年
2 林岩;微生物必需基因数据的分析[D];天津大学;2010年
中国硕士学位论文全文数据库 前5条
1 林丹;多种微生物功能基因的预测和分析[D];电子科技大学;2014年
2 邓炎炎;细菌必需基因的预测及进化特征的分析[D];电子科技大学;2016年
3 罗森;细菌必需基因自训练算法的研究及实现[D];电子科技大学;2016年
4 王宝锦;细菌必需基因特征分析及其分类预测研究[D];重庆大学;2016年
5 窦运涛;原核生物基因识别程序ZCURVE 1.02的研发和微生物必需基因的分析[D];天津大学;2005年
,本文编号:1033853
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1033853.html