当前位置:主页 > 科技论文 > 数学论文 >

FASTQ文件无损压缩算法研究

发布时间:2020-06-07 09:11
【摘要】:基因测序技术的迅猛发展使得测序成本直线下降,测序数据规模急剧攀升,为数据分析及使用带来诸多不便。FASTQ格式是目前应用最广泛的测序数据存储格式之一,因此有必要设计针对FASTQ格式文件的压缩算法,从而实现测序数据的高效存储及传输。本文提出一种FASTQ文件无损压缩算法FTComp,该算法分两阶段处理FASTQ文件。第一阶段是FASTQ文件的预处理部分,算法根据文件格式特征,对数据进行分类提取,生成标识符序列、DNA序列以及质量分数序列。针对标识符序列,算法对所有标识符序列进行分区,根据区域文本特征为其匹配相应数据处理方式;针对DNA序列,FTComp算法结合分组编码以及游程编码对序列进行编码处理;针对质量分数序列,算法使用游程编码思想对序列进行预处理。FTComp算法在第二阶段使用本文提出的无损压缩算法HyBWT作为压缩器,对第一阶段产生的数据进行二次压缩。HyBWT算法首先对文本进行BWT变换,并对变换后的文本构建小波树以进行简明表示,最后算法使用混合编码压缩小波树节点,从而完成FTComp算法第二阶段的数据压缩及存储。本文实验内容分为两部分,包括算法参数对文件压缩比的影响以及FTComp算法与其他算法的性能对比测试。实验首先测试小波树的树形及其节点位向量块大小对文件压缩比的影响。实验结果表明,由于FASTQ文件所包含的三种序列数据特征不同,应分别为其选择合适的参数设置以达到较高的文件压缩比。算法性能对比测试所选五种算法包括两种经典的文本压缩算法Gzip和Bzip2,以及三种目前行业领先的针对FASTQ文件的无损压缩算法DSRC2、Quip以及LFQC。实验对比六种算法在八组FASTQ文件数据中的文件压缩比、压缩速度以及解压缩速度。实验结果表明,FTComp算法在文件压缩比方面表现较为优异,压缩后空间占用平均减少约80%,该结果与LFQC算法十分接近,并且超过DSRC2以及Quip这两种达到工业级的FASTQ文件无损压缩算法,经典的文本压缩算法Gzip以及Bzip2表现不佳,FTComp算法与之相比优势明显;在压缩速度以及解压缩速度方面,FTComp算法均表现稳定,并且远超LFQC算法,约是其5至10倍。
【图文】:

FASTQ文件无损压缩算法研究


FTCnmn登沙桩擎

示例,算法,最高位,字节


Algorithm 3.2 7bitCompress(x)1 curvalue x, ans 02 for i 1 to 5 do3 curleft7 curvalue & 0x3f4 curvalue curvalue >> 75 if (curvalue = 0) then6 ans ans + curleft77 return ans8 else ans ans + (curleft7 + 128)图 3.3 举例说明算法 3.2 过程,对于 F7中的值 x = 1716(10)= 11010110100(2),入其第 0 到第 6 位,即 curleft7 = 00110100(2),将 x 右移 7 比特,,得到 curval001101(2),curvalue 不为 0,因此当前字节 curleft7 的最高位写入 1,即 curle110100(2),将该字节存入字符串 ans;重复上述操作,此时 curleft7 = 00001101value = 0,则当前字节的最高位写入 0,可得 curleft7 = 00001101(2),ans += cur0110100(2)+ 00001101(2),程序结束。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O157.4

【相似文献】

相关期刊论文 前10条

1 张伟锋;郭建利;;测绘矢量数据无损压缩算法的实验研究[J];科技信息;2011年14期

2 郑凯梅,余生晨;基于小波变换的心电信号准无损压缩算法[J];山东生物医学工程;2003年02期

3 段然;赵荣;;点类几何数据无损压缩算法的研究[J];电脑知识与技术;2010年22期

4 李雷定;马铁华;尤文斌;;常用数据无损压缩算法分析[J];电子设计工程;2009年01期

5 孔月萍;耿烨;;有序抖动半调图像的无损压缩算法[J];光子学报;2009年05期

6 胡颖;姜建国;;改进的无损压缩算法在软电话中的研究与应用[J];计算机工程;2007年22期

7 张宁,章毓晋,刘青棣,林行刚;基于灰度指纹图像信噪特征的无损压缩算法[J];电子学报;2001年04期

8 邓富博;李墨豪;温恺林;张朝璇;陈晨;;基于不同信源的三种常用无损压缩算法的研究[J];电子世界;2016年09期

9 王鹏杰;潘志庚;徐明亮;刘勇奎;;基于局部最小生成树的点模型快速无损压缩算法[J];计算机研究与发展;2011年07期

10 陈永红;史泽林;李德强;;基于3DLMS预测的高光谱图像无损压缩算法[J];仪器仪表学报;2009年10期

相关会议论文 前2条

1 况军;罗建书;黄志雄;;基于三维自适应预测的多光谱图像的无损压缩算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

2 张海波;蒙应杰;杨金涛;;LZW无损压缩算法的Java语言实现与研究[A];2006“数学技术应用科学”[C];2006年

相关重要报纸文章 前2条

1 龙哥;软件应用问答[N];中国计算机报;2004年

2 马璇;“高才”云集潜心教学与科研[N];深圳特区报;2011年

相关博士学位论文 前2条

1 任学军;基于熵降变换的无线传感网感知数据无损压缩算法研究[D];西北大学;2011年

2 高放;高光谱图像无损预测压缩技术研究[D];吉林大学;2016年

相关硕士学位论文 前10条

1 柳曦;FASTQ文件无损压缩算法研究[D];西安电子科技大学;2018年

2 王松;面向快速解压应用的无损压缩算法研究与实现[D];电子科技大学;2017年

3 刘粤;面向太阳全日面磁场图像的无损压缩算法及关键技术研究[D];北京交通大学;2018年

4 顾巍;基于FPGA的LZ4无损压缩算法优化设计[D];东南大学;2017年

5 李长兴;基于FPGA实现JPEG-LS无损压缩算法的研究[D];沈阳航空航天大学;2018年

6 宋秉玺;高效无损压缩算法的研究与实现[D];西安电子科技大学;2014年

7 汪磊;基于FPGA的视频无损压缩算法研究与实现[D];浙江工业大学;2013年

8 裴远;嵌入式平台上快速无损压缩算法的研究[D];西安电子科技大学;2014年

9 马智忠;基于位图的彩色图像无损压缩算法研究[D];兰州大学;2017年

10 张萍;有序抖动图像的无损压缩算法研究[D];西安建筑科技大学;2012年



本文编号:2701190

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2701190.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户55120***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com