基于群体基因组信息的个体基因变异检测算法
发布时间:2021-03-24 22:30
研究证实,关于人类进化、疾病以及遗传的信息都蕴含在人类基因组数据中。从出现人类现代生命科学以来,对于基因组数据和基因变异的研究一直是学界的热点问题。基因测序技术对人类设计基因变异检测算法有着至关重要的影响,由于高通量测序技术的蓬勃发展,因此研究出了大量基于高通量测序数据的基因变异检测算法。尽管如此,基因变异检测技术仍面临严峻的挑战,这是由于高通量测序技术本身的局限以及高重复的基因组数据决定的。在解决人类疾病的方面,基因组测序和基因组变异检测扮演者重要的角色,因而,在生物信息学研究中,检测基因组的变异信息成为热点研究方向。通过研究基因组变异检测技术的现状、基因组拼接算法的基本思想和有关基因组测序技术的发展。为了检测个体基因组出现的变异信息,本文提出了基于群体基因组信息的个体基因变异检测算法。本文的主要研究工作如下:(1)识别基因组数据中未知变异的变异区域。在基因组数据中通过滑动窗口机制识别变异区域,从而在变异区域之中判断基因变异类型。基因组数据划分成多个连续的滑动窗口,并且保证滑动窗口中reads的覆盖度,通过统计各个滑动窗口中变异位置占比得到滑动窗口变异占比曲线,进而获得变异区域,利用...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
基于贪心思想的拼接算法Fig.2-1Assemblyalgorithmbasedongreedythought
哈尔滨工业大学工学硕士学位论文-20-(3)利用得到的变异位点信息进行分析。GATK的HaplotypeCaller用以完成对SNP、INDEL变异的精确检测。HaplotypeCaller检测的过程见图2-2。HaplotypeCaller的变异检测通过检测得到ActiveRegions,在ActiveRegions进行局部重组装并确定单倍型,通过计算单倍型的正确率进行基因型检测。图2-2HaplotypeCaller进行变异检测流程Fig.2-2variantsdetectionprocessinHaplotypeCaller2.4.2基于群体基因组信息的个体基因变异检测算法流程基于群体基因组信息的个体基因变异检测算法是将未知变异区域中的reads拼接为多条contigs,再通过contigs集合与参考基因比对得到基因组变异信息。因此上可以将算法分为变异区域识别与分类、未知变异局部拼接和基因变异信息识别三个部分。在变异区域(ActiveRegions)识别与分类部分,本算法设计了滑动窗口机制,在参考基因上设置定长滑动窗口并保证滑动窗口中reads覆盖深度,统计滑动窗口中每个位置的变异概率,将变异概率超过阈值的位置定义为变异位置,统计滑动窗口中变异位置占比,得到变异位置占比曲线。通过设置阈值可以将滑动窗口分为两类,其中变异位置占比没有超过阈值的为不存在变异滑动窗口,在阈值之上的区域为存在变异的滑动窗口。在存在变异的滑动窗口中根据已知
哈尔滨工业大学工学硕士学位论文-26-这样计算得出每一个滑动窗口中的变异位置占比,同样开辟和滑动窗口个数相同大小的数组,在数组相应位置记录每一个滑动窗口的变异位置占比,便可以得到滑动窗口变异位置占比曲线。图3-1reads变异信号检测Fig.3-1readsvariantssignaldetection3.4变异区域识别分类通过上述方法获得了滑动窗口变异位置占比曲线,根据每个滑动窗口中变异位置占比在变异位置占比曲线上的位置,可以设置一个阈值,将阈值之下的滑动窗口认为是不存在变异的滑动窗口,相应的这些滑动窗口所覆盖的区域也认为不存在变异。而阈值之上的滑动窗口则是存在变异区间的。而本文在输入中有已知变异信息,那么可以根据这些已知变异信息将存在变异的这些滑动窗口进一步划分为存在已知变异信息的滑动窗口和不存在已知变异的滑动窗口。如此可以将存在已知变异信息的滑动窗口删除,这些滑动窗口中包含已知变异则不用再进行拼接和变异检测,如此减少了变异检测算法的执行时间和空间。下面将介绍变异区域的识别分类,并且获得后续局部拼接所需要的未知变异的变异区域。3.4.1变异区域识别分类在所有的变异区域之中存在部分区域中的变异是已知变异,所以这部分区域是不需要进行后续的拼接与变异检测工作的。因此需要根据已知变异信息识别已知变异的变异区间,只留下未知变异的变异区间。而根据上述方法已经获得了滑动窗口中的变异位置占比曲线,通过设置一个阈值,将滑动窗口分为阈值之上与阈值之下两部分,其中阈值之上部分是存在变异的滑动窗口,而阈值之下是不存在变异的滑动窗口。不存在变异的滑动窗口是对后续工作没有用的区域,所以该部分滑动窗口可以丢弃,从而减少算法的内存消耗。而存在变异
【参考文献】:
期刊论文
[1]三代测序技术及其应用研究进展[J]. 马丽娜,杨进波,丁逸菲,李颖康. 中国畜牧兽医. 2019(08)
[2]一种只利用序列信息预测RNA结合蛋白的深度学习模型[J]. 李洪顺,于华,宫秀军. 计算机研究与发展. 2018(01)
[3]遗传变异与人类健康[J]. 黄辉,邓建莲,张欣鑫,李扬,彭智宇. 科学通报. 2016(25)
[4]PacBio Sequencing and Its Applications[J]. Anthony Rhoads,Kin Fai Au. Genomics,Proteomics & Bioinformatics. 2015(05)
[5]下一代测序技术:技术回顾与展望[J]. 周晓光,任鲁风,李运涛,张猛,俞育德,于军. 中国科学:生命科学. 2010(01)
[6]基于FPGA的带回溯的Smith-Waterman算法加速器的设计与实现[J]. 邹丹,窦勇,夏飞,倪时策. 国防科技大学学报. 2009(05)
博士论文
[1]基于基因组测序数据的拷贝数变异检测方法研究[D]. 谭仁杰.哈尔滨工业大学 2017
[2]基于高通量测序数据的基因组变异检测方法研究[D]. 刘永壮.哈尔滨工业大学 2016
硕士论文
[1]基于序列比对骨架的基因组结构变异片段检测算法[D]. 苏俊豪.哈尔滨工业大学 2019
本文编号:3098513
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
基于贪心思想的拼接算法Fig.2-1Assemblyalgorithmbasedongreedythought
哈尔滨工业大学工学硕士学位论文-20-(3)利用得到的变异位点信息进行分析。GATK的HaplotypeCaller用以完成对SNP、INDEL变异的精确检测。HaplotypeCaller检测的过程见图2-2。HaplotypeCaller的变异检测通过检测得到ActiveRegions,在ActiveRegions进行局部重组装并确定单倍型,通过计算单倍型的正确率进行基因型检测。图2-2HaplotypeCaller进行变异检测流程Fig.2-2variantsdetectionprocessinHaplotypeCaller2.4.2基于群体基因组信息的个体基因变异检测算法流程基于群体基因组信息的个体基因变异检测算法是将未知变异区域中的reads拼接为多条contigs,再通过contigs集合与参考基因比对得到基因组变异信息。因此上可以将算法分为变异区域识别与分类、未知变异局部拼接和基因变异信息识别三个部分。在变异区域(ActiveRegions)识别与分类部分,本算法设计了滑动窗口机制,在参考基因上设置定长滑动窗口并保证滑动窗口中reads覆盖深度,统计滑动窗口中每个位置的变异概率,将变异概率超过阈值的位置定义为变异位置,统计滑动窗口中变异位置占比,得到变异位置占比曲线。通过设置阈值可以将滑动窗口分为两类,其中变异位置占比没有超过阈值的为不存在变异滑动窗口,在阈值之上的区域为存在变异的滑动窗口。在存在变异的滑动窗口中根据已知
哈尔滨工业大学工学硕士学位论文-26-这样计算得出每一个滑动窗口中的变异位置占比,同样开辟和滑动窗口个数相同大小的数组,在数组相应位置记录每一个滑动窗口的变异位置占比,便可以得到滑动窗口变异位置占比曲线。图3-1reads变异信号检测Fig.3-1readsvariantssignaldetection3.4变异区域识别分类通过上述方法获得了滑动窗口变异位置占比曲线,根据每个滑动窗口中变异位置占比在变异位置占比曲线上的位置,可以设置一个阈值,将阈值之下的滑动窗口认为是不存在变异的滑动窗口,相应的这些滑动窗口所覆盖的区域也认为不存在变异。而阈值之上的滑动窗口则是存在变异区间的。而本文在输入中有已知变异信息,那么可以根据这些已知变异信息将存在变异的这些滑动窗口进一步划分为存在已知变异信息的滑动窗口和不存在已知变异的滑动窗口。如此可以将存在已知变异信息的滑动窗口删除,这些滑动窗口中包含已知变异则不用再进行拼接和变异检测,如此减少了变异检测算法的执行时间和空间。下面将介绍变异区域的识别分类,并且获得后续局部拼接所需要的未知变异的变异区域。3.4.1变异区域识别分类在所有的变异区域之中存在部分区域中的变异是已知变异,所以这部分区域是不需要进行后续的拼接与变异检测工作的。因此需要根据已知变异信息识别已知变异的变异区间,只留下未知变异的变异区间。而根据上述方法已经获得了滑动窗口中的变异位置占比曲线,通过设置一个阈值,将滑动窗口分为阈值之上与阈值之下两部分,其中阈值之上部分是存在变异的滑动窗口,而阈值之下是不存在变异的滑动窗口。不存在变异的滑动窗口是对后续工作没有用的区域,所以该部分滑动窗口可以丢弃,从而减少算法的内存消耗。而存在变异
【参考文献】:
期刊论文
[1]三代测序技术及其应用研究进展[J]. 马丽娜,杨进波,丁逸菲,李颖康. 中国畜牧兽医. 2019(08)
[2]一种只利用序列信息预测RNA结合蛋白的深度学习模型[J]. 李洪顺,于华,宫秀军. 计算机研究与发展. 2018(01)
[3]遗传变异与人类健康[J]. 黄辉,邓建莲,张欣鑫,李扬,彭智宇. 科学通报. 2016(25)
[4]PacBio Sequencing and Its Applications[J]. Anthony Rhoads,Kin Fai Au. Genomics,Proteomics & Bioinformatics. 2015(05)
[5]下一代测序技术:技术回顾与展望[J]. 周晓光,任鲁风,李运涛,张猛,俞育德,于军. 中国科学:生命科学. 2010(01)
[6]基于FPGA的带回溯的Smith-Waterman算法加速器的设计与实现[J]. 邹丹,窦勇,夏飞,倪时策. 国防科技大学学报. 2009(05)
博士论文
[1]基于基因组测序数据的拷贝数变异检测方法研究[D]. 谭仁杰.哈尔滨工业大学 2017
[2]基于高通量测序数据的基因组变异检测方法研究[D]. 刘永壮.哈尔滨工业大学 2016
硕士论文
[1]基于序列比对骨架的基因组结构变异片段检测算法[D]. 苏俊豪.哈尔滨工业大学 2019
本文编号:3098513
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3098513.html
最近更新
教材专著