当前位置:主页 > 科技论文 > 基因论文 >

必需基因理论预测的多种算法研究

发布时间:2025-02-07 19:36
  研究必需基因对于构建最小基因集、发现潜在的药物靶标和广谱抗菌药物的研发有着非常重要的作用。由于这些基因对于机体生存、繁殖和发育有着不可替代的作用,许多科研工作者不遗余力去探寻必需基因识别的方法。从传统的实验技术到结合计算基因组学的理论识别方法,必需基因的识别逐渐成为基因组学研究领域的一个热点。我们课题组曾经提出过3款用于必需基因预测的在线服务工具,比如基于同源必需基因和物种进化距离的Geptop,根据基因名称比较进行识别的CEG-Match,从DNA序列中提取序列组成特征去构建人类必需基因预测模型的pheg。在本课题必需基因理论识别研究中,首先从Geptop算法得到启发,将同源必需性的特征与支持向量机(SVM)算法结合起来,以机器学习打分的机制去代替物种进化距离给出的特征权重,自动地去学习每个特征对区分必需基因和非必需基因的重要性度量。对于物种内的必需基因预测,在选择的25个细菌中,通过此方法得到的10-折交叉验证的AUC值(受试者工作特征曲线下面积)最高达到0.9716。对于跨物种必需基因预测,我们则选择在10-折交叉验证中AUC值超过0.90且亲缘关系距离待测物种最近的那个物种为模型...

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 必需基因简介
    1.2 必需基因研究背景和现状
    1.3 论文内容提要
第二章 病原菌必需基因识别
    2.1 引言
    2.2 必需基因数据集构建
    2.3 特征提取
        2.3.1 同源必需性比对
        2.3.2 构建特征矩阵
        2.3.3 进化距离的计算
    2.4 分类算法的选择和使用
    2.5 分类器设计和性能评估
        2.5.1 N-折交叉验证
        2.5.2 跨物种必需基因预测
        2.5.3 分类器性能评估
    2.6 预测结果与分析
        2.6.1 基因同源数目与物种间进化距离的分析
        2.6.2 交叉验证预测结果
        2.6.3 跨物种预测结果
第三章 人类必需基因识别
    3.1 引言
    3.2 必需基因数据集构建
    3.3 标准基因名确定
    3.4 特征提取和特征评价
        3.4.1 蛋白质-蛋白质互作网络的拓扑属性
        3.4.2 基因表达水平
        3.4.3 GO功能注释信息
        3.4.4 特征评价
    3.5 分类算法和性能评估
    3.6 预测结果与分析
        3.6.1 蛋白质互作网络拓扑属性预测结果
        3.6.2 基因表达水平预测结果
        3.6.3 GO功能注释预测结果
        3.6.4 特征集合预测结果
        3.6.5 特征评估和分析
第四章 总结和展望
    4.1 全文总结
    4.2 工作展望
致谢
参考文献
附录
攻读硕士学位期间取得的成果



本文编号:4031195

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/4031195.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5e11c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com