基于DNA序列特征的必需基因判定研究
发布时间:2021-11-07 18:08
近年来,伴随生物信息技术的迅猛发展,可用生物数据量正呈指数增长。从各公共生物数据库中可以获得大量、准确的生物数据信息,而如何准确、高效地对这些数据进行分析与挖掘,发掘其中蕴含的内在信息也成为研究热点。作为活体细胞所需的最小基因组,“必需基因”在维持生物体进行正常生命活动和繁殖过程中充当重要角色,该类基因的缺失将导致生物体死亡或丧失繁殖能力,后果严重。医学上,必需基因在生物体存活方面发挥着重要基础作用,已成为许多抗生素和抗癌化合物中的潜在靶点,被广泛应用于病原体和癌细胞的消除,在抗生素和疫苗研制中意义重大;合成生物学上,可以有针对性地选择目标细胞的最小基因组,合成活细胞“底盘”;进化生物学上,研究必需基因可以加深对生物进化过程的理解,通过对常见同类必需基因的研究,实现对物种的同源性分析。然而,目前常用的通过生物实验筛选必需基因的方法存在诸如成本高、耗时长、工作量大、适用范围小等缺点,为提高必需基因判定效率,适应生物“大数据”时代的需求,论文从信息科学学角度出发,对基于DNA序列特征的必需基因判定算法进行研究,提出了4种判别基因必需性的有效分类器。首先,对DNA 一级序列进行特征提取,其中...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
同种分类器下羞于各特征提取的AUC值
由表3-11与图3-2对各分类器的纵向比较结果,即各分类器的AUC平均值??与图3-1中各分类器评价结果可知,随机森林(RF)与逻辑回归(LR)分类器??的AUC平均值较高,分别为0.778和0.767,且在图3-1与图3-2中较高;而决??策树(C4.5)与h近邻算法(NN)分类器在这个问题上的AUC平均值较低,分??别为0.651和0.648,在图3-1与图3-2中较低。因此随机森林(RF)分类器与??-25-??
Hi?|?lilH??图4-2.各分类器AUC值指标与对比??如表4-10与图4-2所示,论文提出的几种主要的判别必需基因分类器取得??了平均为0.8254的AUC值,其中表现最好的多特征分类器为LR-3-LR,取得了??0.834的AUC值,优于表中所示的其他五种参考分类器,且如图4-2所示,论文??提出的几种分类器的整体AUC值也优于其他五种参考分类器。说明论文所提出??的分类方法具有良好的潜力,可以成为判别基因必需性的有效工具。??-37-??
本文编号:3482315
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
同种分类器下羞于各特征提取的AUC值
由表3-11与图3-2对各分类器的纵向比较结果,即各分类器的AUC平均值??与图3-1中各分类器评价结果可知,随机森林(RF)与逻辑回归(LR)分类器??的AUC平均值较高,分别为0.778和0.767,且在图3-1与图3-2中较高;而决??策树(C4.5)与h近邻算法(NN)分类器在这个问题上的AUC平均值较低,分??别为0.651和0.648,在图3-1与图3-2中较低。因此随机森林(RF)分类器与??-25-??
Hi?|?lilH??图4-2.各分类器AUC值指标与对比??如表4-10与图4-2所示,论文提出的几种主要的判别必需基因分类器取得??了平均为0.8254的AUC值,其中表现最好的多特征分类器为LR-3-LR,取得了??0.834的AUC值,优于表中所示的其他五种参考分类器,且如图4-2所示,论文??提出的几种分类器的整体AUC值也优于其他五种参考分类器。说明论文所提出??的分类方法具有良好的潜力,可以成为判别基因必需性的有效工具。??-37-??
本文编号:3482315
本文链接:https://www.wllwen.com/projectlw/swxlw/3482315.html
教材专著