高通量测序数据的Indel识别方法研究
发布时间:2021-08-26 11:20
人类基因组计划的早期启动并非将主要资金用于测序,而是积极开发测序手段与工具,通过极大地提高测序速度,降低测序成本而完成了完整测序计划。但其对于数据的生产仍然是相对有限的,千人基因组计划使得学科发展重新进入了数据处理工具不足的环境之中。基于此,适应于高通量测序技术(High-throughput sequencing,HTS)所提供的大量数据的各类平台与工具也得到了快速发展。Indel(Insertion/Deletion)是高通量测序数据处理之中较窄的分支,却是基因结构变异之中规模较大的一个类型,在变异类型之中规模仅次于SNP(single nucleotide polymorphism,单核苷酸多态性),而成为最为常见的结构变异并广泛分布于不同结构之中,以下是本文的主要研究内容。首先,本文将人类1号染色体作为参考数据,使用几种常见的结构变异识别算法对Indel进行识别,通过实验验证,比较分析了这几种识别算法的优缺点,结果表现出了较高水平的假阳性率和假阴性率或较低水平的recall和precision,识别结果不精确,进而提出了一种新的算法来提高Indel的识别精度。然后,本文设计提出...
【文章来源】:哈尔滨师范大学黑龙江省
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
测序成本图
第1章绪论3则是规模更大的变异类型,能够直接通过染色和镜检方式分辨核型并识别变异类型。其次,SVs又可以被进一步的分为插入、缺失、反转、异位和拷贝数变异。SVs的规模大于SNP而小于畸变,在结构特征方面更加接近于畸变,但基于影响范围,其类型分布并不相同,插入和缺失的比例相对更高,因此被合并称为Indel,即in与del。相比于其他类型的SVs[2],Indel得到的研究相对较多,其规模差异性又可以进一步划分出不同类型,其中尤其以小型和微型Indel更多的为人们所重视。最后,仅针对于短Indel也即数量最多的一类SVs,发生Indel的区域图如图1-2所示,其测序方法、数据处理和应用仍然有着不同的领域差异性和算法差别,根据识别方法是否依托于参考序列而考察则较为显著的划分了应用方向,本文主要基于有参考序列的Indel识别进行讨论,因此可以更好地被利用于实践应用领域。图1-2Indel区域图Figure1-2Indelregionalfigure1.1.2课题研究的目的及意义国内外有关于高通量测序的应用已经极为广泛,十余年来的技术发展和设备更新换代带来了更为广泛的生物信息学发展。为了能够更深入地了解基因组的多样性,千人组基因计划也是随之到来。千人组基因计划是一项规模非常宏大的项目,旨在召唤全球科学家共同建立一个至今为止最详细的,并且最有医用价值的人类基因组变异[4]信息目录库。由于环境或化学因素等,生物的基因中会发生多种变异,基因变异包括了单核苷酸多态性、结构变异以及Indel,而这些变异可能会导致多种人类疾病的发生,例如先天性糖尿并冠心并21三体综合征、阿尔兹
第2章Indel识别相关技术11一步利用,而通过将打碎的序列利用两类不同算法的融合而尽可能最大相似度的匹配至参考序列。毫无疑问,LCS问题的最简单解决方案是搜索并穷举,因此需要指数时间而无法被稍大规模的序列对比问题在实践中应用。考虑到LCS问题的最优解需要,其事实上是具有最优子结构性质的,具体而言,如果两序列最后字符相同则这一字符为LCS的最后一字符,而去除这一字符的LCS是去除这一字符的两条比对序列的LCS,这就使得LCS问题被递归。那么所获得的LCS必然需要与两条比对序列中一条去除这一字符而另一条保持原有序列的比对结果相匹配,由此得到下一步递归。最终,两者进一步递归形成了获取去除末端序列的短序列比对问题,也即得以应用动态规划法进行考察。利用这一递归式,易解构造递归算法,但同样面对指数时间问题。与穷举法不同的是,该递归算法之中仅仅考察子问题空间,而这一规模是相对较小,同时子问题的数量是有限的,因此动态规划法的基本策略即应用自下向上的计算最优值以提高算法效率。以上述序列作为输入值构建矩阵,分别记录所获得的序列长度和路径,计算完成后溯源至该序列并导出,即可获得LCS算法。LCS算法回溯输出过程如图2-1所示:图2-1LCS算法回溯输出过程Figure2-1LCSalgorithmtracebackoutputprocess
【参考文献】:
期刊论文
[1]基于高通量测序数据的快速病毒物种分析工具[J]. 苏亚男,李非,伯晓晨,倪铭. 军事医学. 2018(03)
[2]16S rRNA基因高通量测序分析牛粪发酵细菌多样性[J]. 滑留帅,王璟,徐照学,张子敬,娄治国,赵洪昌,李文军,王二耀. 农业工程学报. 2016(S2)
[3]InDel标记的研究和应用进展[J]. 杨洁,赫佳,王丹碧,施恩,杨文宇,耿其芳,王中生. 生物多样性. 2016(02)
[4]基因组高通量测序数据结构变异识别算法[J]. 王春宇,郭茂祖,刘晓燕,刘扬. 智能计算机与应用. 2015(01)
[5]利用二代测序技术对鸡基因组内插入缺失变异进行检测分析[J]. 闫奕源,易国强,孙从佼,曲鲁江,杨宁. 中国家禽. 2014(23)
[6]基于高通量测序的全基因组关联研究策略[J]. 周家蓬,裴智勇,陈禹保,陈润生. 遗传. 2014(11)
[7]高通量测序技术在土壤微生物多样性研究中的研究进展[J]. 楼骏,柳勇,李延. 中国农学通报. 2014(15)
[8]基于高通量测序技术的基因组结构变异检测算法[J]. 高敬阳,齐飞,管瑞. 生物信息学. 2014(01)
[9]高通量测序技术在宏基因组学中的应用[J]. 刘莉扬,崔鸿飞,田埂. 中国医药生物技术. 2013(03)
[10]血浆游离DNA高通量测序用于21-三体综合征无创产前检测[J]. 林颖,孟露露,季修庆,张菁菁,马定远,成建,刘安,周静,胡平,许争峰. 临床检验杂志. 2013(01)
博士论文
[1]基于高通量测序数据的基因组变异检测方法研究[D]. 刘永壮.哈尔滨工业大学 2016
硕士论文
[1]双序列比对Needleman-Wunsch算法研究[D]. 姜鲜桃.内蒙古农业大学 2017
[2]基于高通量测序数据的新突变检测方法研究[D]. 邢文昊.哈尔滨工业大学 2017
[3]人类早期胚胎植入前高通量测序遗传学筛查的研究[D]. 张静.天津医科大学 2015
[4]基于第二代测序技术的人类基因组插入/缺失变异检测算法评估及检测平台搭建[D]. 任永永.昆明理工大学 2015
本文编号:3364149
【文章来源】:哈尔滨师范大学黑龙江省
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
测序成本图
第1章绪论3则是规模更大的变异类型,能够直接通过染色和镜检方式分辨核型并识别变异类型。其次,SVs又可以被进一步的分为插入、缺失、反转、异位和拷贝数变异。SVs的规模大于SNP而小于畸变,在结构特征方面更加接近于畸变,但基于影响范围,其类型分布并不相同,插入和缺失的比例相对更高,因此被合并称为Indel,即in与del。相比于其他类型的SVs[2],Indel得到的研究相对较多,其规模差异性又可以进一步划分出不同类型,其中尤其以小型和微型Indel更多的为人们所重视。最后,仅针对于短Indel也即数量最多的一类SVs,发生Indel的区域图如图1-2所示,其测序方法、数据处理和应用仍然有着不同的领域差异性和算法差别,根据识别方法是否依托于参考序列而考察则较为显著的划分了应用方向,本文主要基于有参考序列的Indel识别进行讨论,因此可以更好地被利用于实践应用领域。图1-2Indel区域图Figure1-2Indelregionalfigure1.1.2课题研究的目的及意义国内外有关于高通量测序的应用已经极为广泛,十余年来的技术发展和设备更新换代带来了更为广泛的生物信息学发展。为了能够更深入地了解基因组的多样性,千人组基因计划也是随之到来。千人组基因计划是一项规模非常宏大的项目,旨在召唤全球科学家共同建立一个至今为止最详细的,并且最有医用价值的人类基因组变异[4]信息目录库。由于环境或化学因素等,生物的基因中会发生多种变异,基因变异包括了单核苷酸多态性、结构变异以及Indel,而这些变异可能会导致多种人类疾病的发生,例如先天性糖尿并冠心并21三体综合征、阿尔兹
第2章Indel识别相关技术11一步利用,而通过将打碎的序列利用两类不同算法的融合而尽可能最大相似度的匹配至参考序列。毫无疑问,LCS问题的最简单解决方案是搜索并穷举,因此需要指数时间而无法被稍大规模的序列对比问题在实践中应用。考虑到LCS问题的最优解需要,其事实上是具有最优子结构性质的,具体而言,如果两序列最后字符相同则这一字符为LCS的最后一字符,而去除这一字符的LCS是去除这一字符的两条比对序列的LCS,这就使得LCS问题被递归。那么所获得的LCS必然需要与两条比对序列中一条去除这一字符而另一条保持原有序列的比对结果相匹配,由此得到下一步递归。最终,两者进一步递归形成了获取去除末端序列的短序列比对问题,也即得以应用动态规划法进行考察。利用这一递归式,易解构造递归算法,但同样面对指数时间问题。与穷举法不同的是,该递归算法之中仅仅考察子问题空间,而这一规模是相对较小,同时子问题的数量是有限的,因此动态规划法的基本策略即应用自下向上的计算最优值以提高算法效率。以上述序列作为输入值构建矩阵,分别记录所获得的序列长度和路径,计算完成后溯源至该序列并导出,即可获得LCS算法。LCS算法回溯输出过程如图2-1所示:图2-1LCS算法回溯输出过程Figure2-1LCSalgorithmtracebackoutputprocess
【参考文献】:
期刊论文
[1]基于高通量测序数据的快速病毒物种分析工具[J]. 苏亚男,李非,伯晓晨,倪铭. 军事医学. 2018(03)
[2]16S rRNA基因高通量测序分析牛粪发酵细菌多样性[J]. 滑留帅,王璟,徐照学,张子敬,娄治国,赵洪昌,李文军,王二耀. 农业工程学报. 2016(S2)
[3]InDel标记的研究和应用进展[J]. 杨洁,赫佳,王丹碧,施恩,杨文宇,耿其芳,王中生. 生物多样性. 2016(02)
[4]基因组高通量测序数据结构变异识别算法[J]. 王春宇,郭茂祖,刘晓燕,刘扬. 智能计算机与应用. 2015(01)
[5]利用二代测序技术对鸡基因组内插入缺失变异进行检测分析[J]. 闫奕源,易国强,孙从佼,曲鲁江,杨宁. 中国家禽. 2014(23)
[6]基于高通量测序的全基因组关联研究策略[J]. 周家蓬,裴智勇,陈禹保,陈润生. 遗传. 2014(11)
[7]高通量测序技术在土壤微生物多样性研究中的研究进展[J]. 楼骏,柳勇,李延. 中国农学通报. 2014(15)
[8]基于高通量测序技术的基因组结构变异检测算法[J]. 高敬阳,齐飞,管瑞. 生物信息学. 2014(01)
[9]高通量测序技术在宏基因组学中的应用[J]. 刘莉扬,崔鸿飞,田埂. 中国医药生物技术. 2013(03)
[10]血浆游离DNA高通量测序用于21-三体综合征无创产前检测[J]. 林颖,孟露露,季修庆,张菁菁,马定远,成建,刘安,周静,胡平,许争峰. 临床检验杂志. 2013(01)
博士论文
[1]基于高通量测序数据的基因组变异检测方法研究[D]. 刘永壮.哈尔滨工业大学 2016
硕士论文
[1]双序列比对Needleman-Wunsch算法研究[D]. 姜鲜桃.内蒙古农业大学 2017
[2]基于高通量测序数据的新突变检测方法研究[D]. 邢文昊.哈尔滨工业大学 2017
[3]人类早期胚胎植入前高通量测序遗传学筛查的研究[D]. 张静.天津医科大学 2015
[4]基于第二代测序技术的人类基因组插入/缺失变异检测算法评估及检测平台搭建[D]. 任永永.昆明理工大学 2015
本文编号:3364149
本文链接:https://www.wllwen.com/projectlw/swxlw/3364149.html
教材专著