当前位置:主页 > 医学论文 > 基础医学论文 >

基于机器学习的染色体拷贝数变异致病性预测工具

发布时间:2023-01-12 20:44
  随着基因组高通量测序技术的发展,人们对人类基因组变异的检测与分析能力取得了长足的进步。然而,由于目前的染色体拷贝数变异检测工具的检测准确度不足,同时也由于拷贝数变异自身在基因组上的复杂性和不确定性,对胚系拷贝数变异的致病性的预测仍然是一个难题。尽管之前已经有研究者尝试解决这个问题,但仍然没有工具能够定量地对胚系拷贝数变异的致病性进行预测与注释。为了解决上面的问题,我们开发了一个基于机器学习算法的胚系拷贝数变异致病性预测工具。为了充分地考虑与拷贝数变异相关的生物学特征,我们在构建致病性模型的过程中,从多角度收集和挖掘相关的胚系拷贝数变异特征数据,包括编码区功能注释信息、非编码区功能注释信息、基因组保守性区域数据、单核苷酸多态性注释数据和大量的相关实验数据。对于每一个特征,我们根据其生物学意义采用相应的特征构建方法,对众多不同层面的特征数据进行向量化和标准化。除此之外,我们从The Database of Genomic Variants(DGV)和1000 Genomes Project(1000G)中收集到了大量的不同人种健康人群的拷贝数变异数据,并通过数据清洗和整合,计算出不同人种参... 

【文章页数】:78 页

【学位级别】:硕士

【文章目录】:
内容摘要
ABSTRACT
1 引言
    1.1 人类基因组拷贝数变异简介
        1.1.1 基因组拷贝数变异含义
        1.1.2 基因组拷贝数变异在临床上的研究现状
    1.2 拷贝数变异相关软件及研究进展
        1.2.1 拷贝数变异相关注释软件
        1.2.2 SNP与Indel相关注释软件
    1.3 本文涉及的拷贝数变异数据库
        1.3.0 DGV
        1.3.1 ClinVar
        1.3.2 DECIPHER
    1.4 预测拷贝数变异致病性的重要性与挑战
        1.4.1 预测拷贝数变异致病性的重要性
        1.4.2 预测拷贝数变异致病性面临的关键问题和挑战
    1.5 本文的研究内容
2 实验材料与方法
    2.1 CNV数据收集
        2.1.1 健康人群的CNV数据收集
        2.1.2 有致病性信息的CNV训练数据收集
    2.2 模型特征数据收集
        2.2.1 拷贝数变异频率等基本基因组注释特征
        2.2.2 基因组编码区生物学特征
        2.2.3 基因组非编码区生物学特征
3 CNV致病性预测模型特征构建
    3.1 特征构建类型
        3.1.1 变异左右断点特征构建
        3.1.2 变异区间内特征构建
    3.2 特征构建方法
        3.2.1 编码区(CCRS)保守区域特征构建
        3.2.2 非编码区保守区域(CDTS)特征构建
        3.2.3 编码区蛋白质功能结构注释信息特征构建
        3.2.4 pLI实验数据特征构建
        3.2.5 DNase-seq实验数据特征构建
        3.2.6 Hi-C实验数据特征构建
    3.3 CNV致病性机器学习预测模型的比较
        3.3.1 基于逻辑回归致病性预测算法
        3.3.2 基于决策树致病性预测算法
        3.3.3 基于随机森林致病性预测算法
        3.3.4 基于Adaboost致病性预测算法
        3.3.5 基于XGBoost致病性预测算法
4 不同人种的CNV参考频率文件评估
    4.1 致病性与非致病性CNV在不同人群的频率分布
    4.2 CNV缺失在不同人种和染色体上的分布
5 CNV致病性预测模型的结果与评估
    5.1 CNV致病性预测模型验证集评估方法
        5.1.1 ROC曲线以及AUC面积
        5.1.2 精确度与召回率
    5.2 独立验证集的效果评估
    5.3 CNV致病性预测模型在不同长度的CNVs中的评估效果
    5.4 CNV致病性预测模型在基因间区评估效果
    5.5 模型特征重要性排名与重要特征分析
6 CNV致病性预测模型的临床应用
    6.1 对未知致病性CNV的预测与评估
    6.2 CNV致病性预测网站构建
7 总结与展望
    7.1 总结
    7.2 展望
附录
    附录1:常见的损失函数
    附录2:CNV致病性预测模型中使用的特征名称
    附录3:所有染色体中致病性CNV与非致病性CNV的分布图
参考文献
后记


【参考文献】:
期刊论文
[1]基于AdaBoost的微博垃圾评论识别方法[J]. 黄铃,李学明.  计算机应用. 2013(12)

博士论文
[1]基于比对策略的罕见疾病和肿瘤致病基因检测[D]. 张立.华东师范大学 2018

硕士论文
[1]基于视觉的避雷器识别与跟踪算法研究[D]. 陈晓念.广东工业大学 2016



本文编号:3730424

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/jichuyixue/3730424.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d3302***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com