多参考基因短序列比对工具MUGI的优化与移植
发布时间:2020-09-28 13:23
生物的进化方向由遗传信息所决定,而DNA是承载遗传信息的唯一物质。新一代的测序工具的飞速发展正使得获取基因数据变得日渐廉价。这意味着,我们正进入到基因大数据的时代。近期,一个新的课题正在兴起,其名为多参考基因的短序列比对。到目前为止,已出现的优秀比对软件已经昭示着这个课题正日趋成熟。一款优秀的多参考基因比对软件的关键在于简洁优秀的索引设计和与索引相匹配的比对算法设计。基于上述两点,我们选取了一款在当前十分优秀的比对软件MUGI进行研究。本文是从软件优化的方向来研究多参考基因的短序列比对技术。我们首先介绍了生物比对工具的研究背景和现状,分析了MUGI优化与移植的必要性。再对MUGI目前尚存在的优化空间进行分析,并提出相应的解决方案。下面介绍本文的主要研究成果和工作。一、对于MUGI软件中索引所匹配的比对算法比对速度较慢,算法设计不够具有针对性的问题,我们分别设计了新的比MUGI原算法更加具有针对性的精确比对和非精确比对算法。新的精确比对算法在增加少量的索引大小的前提下大幅提升了比对速度,而新的非精确比对算法优化了原MUGI非精确比对算法的流程,在不改变索引的情况下,提升了比对速度。二、针对MUGI比对算法是单线程所导致无法发挥多核结构服务器性能的实际问题,我们对MUGI比对算法设计了线程池,以充分利用服务器的多核结构。针对MUGI不能直接在龙芯平台运行的问题,本文首次对MUGI进行全面的移植。同时,结合龙芯的结构特征,利用龙芯的向量部件与多媒体扩展指令进行优化。做到移植优化两不误,既扩展了龙芯的运用,同时还优化了程序的性能。三、构建修改参考框架,框架中可以任意搭配修改算法。同时,本文根据变异点密度与索引大小的关系,设计了一种修改算法,最终达到了减小索引大小的效果。
【学位单位】:深圳大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q811.4
【部分图文】:
DNA 是一种长链聚合物,它承载着生物的遗传信息,其组成单位为腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶四种脱氧核苷酸,分别用 A、G、T、C 四个字符进行表示。不论是我们所提及的参考基因或者是在测序时被打算成短序列片段的read,都是由这四种脱氧核苷酸组成。这些序列都是只读的,所以称之为只读片段。对于单参考基因来说,其参考基因和短序列片段 read 都是由 FASTA 或者FASTQ[39]这两种格式的文件进行存储。但是对于多参考基因来说,建立索引时需要有整个参考基因文库的信息。文库中的参考基因分为两个部分,包括原参考基因和其他参考基因,原参考基因用 FASTA 或者 FASTQ 格式文件存储,而其他参考基因则用 VCF 文件格式存储,VCF 文件[40]记录了基因文库中的其它参考基因对于原参考基因的变异点信息。接下来,我们就要介绍着三种不同的文件格式首先,介绍 FASTA 文件格式(https://zhanglab.ccmb.med.umich.edu/FASTA/),下图是一个来源于 NCBI 的 FASTA 格式文件:
一个来源于 NCBI 的 FASTA 格式文件:图 2-2 FASTA 文件格式图ASTA 格式第一行首先以大于号“>”开头,接着是序列的标识符,在部分为“gi|197608668|ref|NM_001043364.2|”,最后是序列的描述信若干行直接存储序列,序列中允许空格,换行,空行,直到下一个大于序列结束,通常每行不超过 80 个字符。
多参考基因短序列比对工具 MUGI 的优化与移植上图是一个来源于 NCBI 的 FASTQ 格式文件:FASTQ 文件中对于每条短序列通常用四行进行描述。第一行以“@”起始,后接序列标识及相关信息。第二行记录序列,第三行以“+”起始,后面接序列标示符、描述信息或什么也不接,第四行则记录质量信息。最后,我们介绍 VCF 文件格式,VCF 文件格式用于记录描述遗传变异,是GATK[41]所钟爱的表示方法。
本文编号:2828847
【学位单位】:深圳大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q811.4
【部分图文】:
DNA 是一种长链聚合物,它承载着生物的遗传信息,其组成单位为腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶四种脱氧核苷酸,分别用 A、G、T、C 四个字符进行表示。不论是我们所提及的参考基因或者是在测序时被打算成短序列片段的read,都是由这四种脱氧核苷酸组成。这些序列都是只读的,所以称之为只读片段。对于单参考基因来说,其参考基因和短序列片段 read 都是由 FASTA 或者FASTQ[39]这两种格式的文件进行存储。但是对于多参考基因来说,建立索引时需要有整个参考基因文库的信息。文库中的参考基因分为两个部分,包括原参考基因和其他参考基因,原参考基因用 FASTA 或者 FASTQ 格式文件存储,而其他参考基因则用 VCF 文件格式存储,VCF 文件[40]记录了基因文库中的其它参考基因对于原参考基因的变异点信息。接下来,我们就要介绍着三种不同的文件格式首先,介绍 FASTA 文件格式(https://zhanglab.ccmb.med.umich.edu/FASTA/),下图是一个来源于 NCBI 的 FASTA 格式文件:
一个来源于 NCBI 的 FASTA 格式文件:图 2-2 FASTA 文件格式图ASTA 格式第一行首先以大于号“>”开头,接着是序列的标识符,在部分为“gi|197608668|ref|NM_001043364.2|”,最后是序列的描述信若干行直接存储序列,序列中允许空格,换行,空行,直到下一个大于序列结束,通常每行不超过 80 个字符。
多参考基因短序列比对工具 MUGI 的优化与移植上图是一个来源于 NCBI 的 FASTQ 格式文件:FASTQ 文件中对于每条短序列通常用四行进行描述。第一行以“@”起始,后接序列标识及相关信息。第二行记录序列,第三行以“+”起始,后面接序列标示符、描述信息或什么也不接,第四行则记录质量信息。最后,我们介绍 VCF 文件格式,VCF 文件格式用于记录描述遗传变异,是GATK[41]所钟爱的表示方法。
【参考文献】
相关期刊论文 前1条
1 彭飞;顾乃杰;高翔;孙明明;;龙芯3B的SIMD编译优化及分析[J];小型微型计算机系统;2012年12期
相关硕士学位论文 前2条
1 刘国强;SOAP2在龙芯平台上的移植和优化[D];深圳大学;2015年
2 刘波;基于龙芯SIMD技术的RealVideo解码优化[D];中国石油大学;2008年
本文编号:2828847
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2828847.html
最近更新
教材专著