基于深度学习的基因型填充方法研究
发布时间:2020-12-05 14:17
全基因组关联分析(GWAS,Genome-wide association study)是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP,Single Nucleotide Polymorphism),从中筛选出与疾病相关的SNPs。GWAS通常专注于单核苷酸多态性(SNP)与人类疾病之类的性状之间的关联,但同样可以应用于任何其他遗传变异和任何其他生物的基因与遗传性状的分析。全基因组测序为GWAS分析提供基因数据支撑,是基因分析必不可少的源头。现代基因组测序过程中,由于基因检测技术能力的限制导致很多SNPs位点无法准确检测,使得GWAS结果具有一定的假阳性,尤其会给小样本的GWAS的分析造成较多的假阳性结果。因此,开发一个能有效填补出那些无法准确检测的SNP的工具是非常重要的,能弥补基因型缺失带来的全基因组关联分析的不足。现在通常的做法是通过计算机软件的方法对未观测的基因型数据进行填充,根据遗传的动态连锁不平衡特性尽最大可能还原真实基因测序过程中无法检测的SNPs位点数据。比如,Impute v2方法是用于对观察到的基因型进行分型并估算缺失基因型的计算机软件;Min...
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
LiandStephens模型填充示意图
绪论5尽管大多数现代插补工具都采用HMM框架,但是它们在定义状态空间和HMM参数方面的方式有所不同。尽管fastPHASE,MaCH(Li,etal.2010)和IMPUTE非常相似,但第一个Beagle插补算法却有所不同,因为它没有采用通常的转移和发射函数,并且单倍型模型是由参考样品和待填充样品构建的,而不是仅参考样品(Marchini,etal.2006)。但是,第二个Beagle插补算法(在版本4.1中引入)使用LiandStephens模型,并且与其他工具类似。Imputev2算法基于HMM算法,通过提高分型SNP的精度来提高未分型SNP的插补精度。大多数基于HMM的估算方法在估算参考样本的基因型时,会同时估算缺失的基因型,并对待填充中的未分型SNP进行分析整合。相比之下,在假设参考样本是正确分型的情况下,我们建议交替估计参考样本和待填充样本的共享基因中SNP的单倍型和待填充样本中独享的SNP的等位基因。同时,我们通过在马尔可夫链蒙特卡洛(MCMC)框架中重复这些步骤来解决数据中分型不确定性的问题。将分型和插补步骤分开可以使我们将更多的计算能力集中于分型并使用更多可用信息。此方法中使用的额外计算在很大程度上由后续步骤中的快速单倍体插补来平衡。这种方法可以提高传统的基于HMM的方法的插补精度,然而下一代参考样本将为插补提出新的挑战,包括更大的样本量,不分型和不完整的基因型,以及包含不同SNP位点的多个参考样本。我们的方法旨在利用以上概述的原理来应对这些挑战,并提高下一代研究中的估算准确性。图1.2Imputev2填充示意图
基于深度学习的基因型填充方法研究6Minimac3也是基于以上HMM算法做出了一些改进。为了使许多研究人员能够使用更大的参考面板,可以从大型的参考样本中收益,同时可以为极少变异等位基因的携带者提高检测效率并进行有针对性的分析,Minimac3方法提出了一种新的,更快的插补算法。该算法基于共享单体型的HMM的“状态空间缩减”;该方法利用微小基因组片段中单倍型之间的相似性来减少HMM迭代的有效状态数。我们的模型将基因组分为连续的区块,并仅在每个基因组区块的唯一单倍型上进行迭代。然后,该方法使用可逆的映射函数,该函数可以精确地重构Minimac3和Imputev2使用的状态空间。该算法的两个重要特征是,其产生的结果与原始状态空间中较繁琐的分析完全相同,并且在缺少数据的情况下仍保持计算效率。图1.3Minimac3填充流程方法1.2.2基因型的预分型由于概率框架和高丢失率,基因型填充是一个高度计算密集的过程。降低LiandStephens框架中的计算负担的主要里程碑之一是引入预分型。这个想法涉及两步插补过程:GWAS基因型的预先分型(即单倍型估计)和待填充单倍型的推算(Howieetal.2012),如图1.3所表述的过程。单独对待填充样本进行分型可
【参考文献】:
期刊论文
[1]SNP芯片基因型填充至测序数据的策略[J]. 李乐义,邵东东,丁向东,张勤. 中国科技论文. 2016(12)
[2]基因型填充方法介绍及比较[J]. 何桑,丁向东,张勤. 中国畜牧杂志. 2013(23)
本文编号:2899585
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
LiandStephens模型填充示意图
绪论5尽管大多数现代插补工具都采用HMM框架,但是它们在定义状态空间和HMM参数方面的方式有所不同。尽管fastPHASE,MaCH(Li,etal.2010)和IMPUTE非常相似,但第一个Beagle插补算法却有所不同,因为它没有采用通常的转移和发射函数,并且单倍型模型是由参考样品和待填充样品构建的,而不是仅参考样品(Marchini,etal.2006)。但是,第二个Beagle插补算法(在版本4.1中引入)使用LiandStephens模型,并且与其他工具类似。Imputev2算法基于HMM算法,通过提高分型SNP的精度来提高未分型SNP的插补精度。大多数基于HMM的估算方法在估算参考样本的基因型时,会同时估算缺失的基因型,并对待填充中的未分型SNP进行分析整合。相比之下,在假设参考样本是正确分型的情况下,我们建议交替估计参考样本和待填充样本的共享基因中SNP的单倍型和待填充样本中独享的SNP的等位基因。同时,我们通过在马尔可夫链蒙特卡洛(MCMC)框架中重复这些步骤来解决数据中分型不确定性的问题。将分型和插补步骤分开可以使我们将更多的计算能力集中于分型并使用更多可用信息。此方法中使用的额外计算在很大程度上由后续步骤中的快速单倍体插补来平衡。这种方法可以提高传统的基于HMM的方法的插补精度,然而下一代参考样本将为插补提出新的挑战,包括更大的样本量,不分型和不完整的基因型,以及包含不同SNP位点的多个参考样本。我们的方法旨在利用以上概述的原理来应对这些挑战,并提高下一代研究中的估算准确性。图1.2Imputev2填充示意图
基于深度学习的基因型填充方法研究6Minimac3也是基于以上HMM算法做出了一些改进。为了使许多研究人员能够使用更大的参考面板,可以从大型的参考样本中收益,同时可以为极少变异等位基因的携带者提高检测效率并进行有针对性的分析,Minimac3方法提出了一种新的,更快的插补算法。该算法基于共享单体型的HMM的“状态空间缩减”;该方法利用微小基因组片段中单倍型之间的相似性来减少HMM迭代的有效状态数。我们的模型将基因组分为连续的区块,并仅在每个基因组区块的唯一单倍型上进行迭代。然后,该方法使用可逆的映射函数,该函数可以精确地重构Minimac3和Imputev2使用的状态空间。该算法的两个重要特征是,其产生的结果与原始状态空间中较繁琐的分析完全相同,并且在缺少数据的情况下仍保持计算效率。图1.3Minimac3填充流程方法1.2.2基因型的预分型由于概率框架和高丢失率,基因型填充是一个高度计算密集的过程。降低LiandStephens框架中的计算负担的主要里程碑之一是引入预分型。这个想法涉及两步插补过程:GWAS基因型的预先分型(即单倍型估计)和待填充单倍型的推算(Howieetal.2012),如图1.3所表述的过程。单独对待填充样本进行分型可
【参考文献】:
期刊论文
[1]SNP芯片基因型填充至测序数据的策略[J]. 李乐义,邵东东,丁向东,张勤. 中国科技论文. 2016(12)
[2]基因型填充方法介绍及比较[J]. 何桑,丁向东,张勤. 中国畜牧杂志. 2013(23)
本文编号:2899585
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2899585.html