基因测序数据无损压缩的优化研究与实现
发布时间:2020-06-18 00:45
【摘要】:自人类基因组计划以来,基因测序技术飞速发展,使得基因测序的耗时大大缩短,经济成本也迅速下降。在此基础上,基因测序技术的临床应用日益广泛,基因测序数据呈现爆发式的增长。而存储硬件成本的下降速度远远无法与基因测序数据的增长速度相匹配,使得基因测序行业的数据存储问题成为瓶颈。高效率的压缩算法是解决这一瓶颈的有效方式。本文针对人类基因组测序生成的FASTQ格式的文件,在调研其他压缩算法的基础上,提出一种高压缩效率的无损压缩算法DFQZ。压缩过程主要分成两个步骤:第一步是根据每个部分的数据特征,将该部分的数据转换成更加简洁的描述形式,生成编码文件;第二步是调用LZMA和ZPAQ等通用压缩算法对第一步生成的编码文件进一步压缩。DFQZ的特点包括:1)在进行压缩前,DFQZ将FASTQ文件分成基本信息、基因序列和质量值三个部分,并分别针对每个部分设计不同的压缩算法。2)对于基本信息部分,采用索引查找的方案,将基本信息分成ID部分和描述部分,分别进行索引查找,记录序号和单独的X、Y,并且兼容不同版本FASTQ。3)对于基因序列部分,利用了数据的生物特性,将基因序列比对到一个已知的参考序列上,只保存比对的位置和结果,极大的提升了压缩效率。比对过程中用到了业内认可度最高的BWA算法,同时DFQZ也支持更加轻快的基于哈希表查找的比对方法。4)对BWA比对方案进行优化加速,提升压缩的速度。5)对于paired-ends测序生成的两个FASTQ文件,可以使用BWA模型时可以同时压缩,进一步提升压缩比。6)支持快速模式和最佳模式两种方案,以适应不同需求。本文提供了一种针对人类基因组测序生成的FASTQ文件的无损压缩算法DFQZ。相对于其他压缩算法,该算法能更好的利用数据特点,对压缩比有一定的提升,为基因测序行业解决数据存储问题提供了一定的帮助。实验中用到的所有测试数据均为基因测序真实数据。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:Q811.4
【图文】:
平均每MB基因测序数据成本与时间的关系
DNA的结构
本文编号:2718423
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:Q811.4
【图文】:
平均每MB基因测序数据成本与时间的关系
DNA的结构
【参考文献】
相关期刊论文 前4条
1 辛效威;彭兆红;叶菁;;高通量测序在分子诊断中的应用及其标准化管理初探[J];标准科学;2015年10期
2 王潇;张艳亮;段勇;;基因测序技术及其在肺癌中的应用[J];临床检验杂志;2014年09期
3 代从新;姚勇;王任直;;新一代基因测序技术在肿瘤研究中的应用及发展前景[J];中国微侵袭神经外科杂志;2013年05期
4 杨焕明;“人类基因组计划”及其意义[J];安徽科技;2003年05期
本文编号:2718423
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2718423.html
最近更新
教材专著