基于学习的第三代测序一致性序列生成
发布时间:2021-08-11 07:39
继人类基因组计划开展以来,基因测序已经广泛影响了生命科学的研究方式,各模式物种基因组在全球实验室不断被测定分析。近年来随着基因组测序数据通量的提升和成本的下降,这已成为生物医学领域的常规手段。目前以太平洋生物科技公司以及牛津纳米孔技术公司长读长测序为代表的第三代测序技术可以产生足够长度的测序片段,极大推动了基因组组装、变异检测等分析领域的发展。然而第三代测序序列具有极高的错误率(~15%),影响了分析结果的精度,局限了其在医学研究和临床诊断中的应用。因此科学家致力于开发出更高效的分析方法,以打破这种限制。基因组组装是从大量随机测序获得的短片段重建出几M甚至上百M基因组长序列的过程,最终目标是生成完整、准确的一致性序列。第三代测序技术的应用极大提高了基因组一致性序列的完整性,但测序的高错误率却限制了其准确性。尤其是在组装重复序列以及单倍型时,获得高质量且准确的一致性序列仍存在挑战。生成一致性序列的关键在于获得准确的多序列比对结果,考虑到第三代测序序列长读长、高错误率及高通量的特点,需要资源密集型的序列纠错以及一致性序列生成的步骤来获得高质量的组装结果。本研究提出了包含深度学习和强化学习方...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
基因测序技术的发展需要被提及的是,在测序技术被开创的这一段时期,除了Sanger提出的方法之外,还出现了一部分基于不同原理的测序技术,例如焦磷酸测序法和
哈尔滨工业大学工学硕士学位论文-11-测序数据(即基因第三代ONT数据),选取的模式物种包括大肠杆菌、酵母菌以及果蝇。其参考基因组长度分别为4641652个碱基、12071326个碱基、137547960个碱基。由于这三个模式物种的全基因组长度、复杂程度及杂合情况均有较大差异,可以较好地评估本文提出方法的完整性和全面性。下图即为酵母菌ONT数据的片段示例。图2-1第三代ONT数据片段示意2.2.2数据预处理由于目前并没有出现过使用深度学习方法进行一致性序列生成的研究,因此,针对基因组数据,需要进行预处理。经过不断试验,本科题采用如下处理方式:首先考虑到测序过程不同通量数据并非是完全对齐,而是呈阶梯状排布,相邻两条之间都有一定碱基数的错位,因此需要对比对后的结果进行裁剪,以免某些位点上大部分序列均为空位,具体做法是取正向第十五条序列的尾部位置向前50个位点作为块截止位点,反向第十五条序列头部位置向后50个位点作为块起始位点。之后,再将裁剪后的比对结果分割为深度为序列乘数、宽度为12个位点的小块,每一个小块用于预测块中心4个位点的碱基种类。
。状态在具体计算过程中使用1-hot编码表示,其中每个矩阵单元使用5比特进行编码,即可以表示四种碱基以及gap。与每个状态相关联的是sum-of-pairs分数,它是该状态下比对的得分。关于环境中动作(action)的描述如下,对于任意状态,智能体(agent)有进行多种动作的可能性,这也将改变多序列比对的结构。具体而言,智能体可以决定将任意一个矩阵中为碱基的元素向左或者向右推动,动作的结果是使选定的碱基水平移动一个单元,以及在移动方向上与之相邻的任何碱基。推动gap以及造成任意碱基在矩阵B之外的动作都是不合法的。如图2-2所示为状态表示矩阵向左推动第二行第五列的T之后的结果。比对调整过程中,动作是离散的,每一个动作由一个三元组表示,包含了其坐标信息以及移动方向信息。动作空间的维度即合法动作的数量由状态矩阵的大小决定,对于一个包含n条位点数为b的状态矩阵,其最大合法动作数为2nb-2n。图2-2一个三序列比对的表示及向左推动碱基T之后的状态变化由于在这个强化学习方法中只需要对小规模的比对进行调整,因此状态空间以及动作空间都不会很大,且在每一步动作后状态可以确定,即可以认为环境是已知(Model-based)的。但是,虽然这个场景的马尔科夫决策过程是已知的,也能够建立状态转移表。但是如果按照这样的做法求解该强化学习问题,与动态规划算法的时间代价相近,不符合实际需求。因此,在策略学习的过程中并不利用具体的环境模型,而是采用模型未知的算法(Model-
本文编号:3335763
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
基因测序技术的发展需要被提及的是,在测序技术被开创的这一段时期,除了Sanger提出的方法之外,还出现了一部分基于不同原理的测序技术,例如焦磷酸测序法和
哈尔滨工业大学工学硕士学位论文-11-测序数据(即基因第三代ONT数据),选取的模式物种包括大肠杆菌、酵母菌以及果蝇。其参考基因组长度分别为4641652个碱基、12071326个碱基、137547960个碱基。由于这三个模式物种的全基因组长度、复杂程度及杂合情况均有较大差异,可以较好地评估本文提出方法的完整性和全面性。下图即为酵母菌ONT数据的片段示例。图2-1第三代ONT数据片段示意2.2.2数据预处理由于目前并没有出现过使用深度学习方法进行一致性序列生成的研究,因此,针对基因组数据,需要进行预处理。经过不断试验,本科题采用如下处理方式:首先考虑到测序过程不同通量数据并非是完全对齐,而是呈阶梯状排布,相邻两条之间都有一定碱基数的错位,因此需要对比对后的结果进行裁剪,以免某些位点上大部分序列均为空位,具体做法是取正向第十五条序列的尾部位置向前50个位点作为块截止位点,反向第十五条序列头部位置向后50个位点作为块起始位点。之后,再将裁剪后的比对结果分割为深度为序列乘数、宽度为12个位点的小块,每一个小块用于预测块中心4个位点的碱基种类。
。状态在具体计算过程中使用1-hot编码表示,其中每个矩阵单元使用5比特进行编码,即可以表示四种碱基以及gap。与每个状态相关联的是sum-of-pairs分数,它是该状态下比对的得分。关于环境中动作(action)的描述如下,对于任意状态,智能体(agent)有进行多种动作的可能性,这也将改变多序列比对的结构。具体而言,智能体可以决定将任意一个矩阵中为碱基的元素向左或者向右推动,动作的结果是使选定的碱基水平移动一个单元,以及在移动方向上与之相邻的任何碱基。推动gap以及造成任意碱基在矩阵B之外的动作都是不合法的。如图2-2所示为状态表示矩阵向左推动第二行第五列的T之后的结果。比对调整过程中,动作是离散的,每一个动作由一个三元组表示,包含了其坐标信息以及移动方向信息。动作空间的维度即合法动作的数量由状态矩阵的大小决定,对于一个包含n条位点数为b的状态矩阵,其最大合法动作数为2nb-2n。图2-2一个三序列比对的表示及向左推动碱基T之后的状态变化由于在这个强化学习方法中只需要对小规模的比对进行调整,因此状态空间以及动作空间都不会很大,且在每一步动作后状态可以确定,即可以认为环境是已知(Model-based)的。但是,虽然这个场景的马尔科夫决策过程是已知的,也能够建立状态转移表。但是如果按照这样的做法求解该强化学习问题,与动态规划算法的时间代价相近,不符合实际需求。因此,在策略学习的过程中并不利用具体的环境模型,而是采用模型未知的算法(Model-
本文编号:3335763
本文链接:https://www.wllwen.com/projectlw/swxlw/3335763.html