当前位置:主页 > 医学论文 > 生物医学论文 >

三代重测序DNA数据压缩算法研究

发布时间:2021-03-29 19:58
  测序技术从一代Sanger测序,经历二代测序(Next-generation Sequencing,NGS),发展到当前已经进入三代测序(Third-generation Sequencing,TGS)时代。现如今伴随着生物信息学研究的深入,三代测序技术已经超越二代测序技术成为主流的研究方向并且促进了生物信息技术的发展。但是三代测序的特点决定它将会带来许多新的挑战,测序生成序列与数据库存储空间不匹配,数据增长速度与计算机容量增长不匹配就是现如今急需解决的难题。为应对测序数据的高速增长,相较于增加存储容量和减少数据生成的方案,针对测序生成的短读数据进行压缩是一个行之有效的方法。通过分析现有的主流二代压缩算法,本文提出专门针对三代重测序数据的压缩算法,在上述算法基础上改进解压缩算法实现局部解压缩技术,并创新性地设计插入压缩算法。论文的主要内容包括:(1)探讨了测序技术的发展历程,对比二代和三代测序技术及其产生数据的特点,分析主流的测序数据保存格式,深入研究基因测序数据的结构和针对生物数据的压缩算法,这为接下来的算法设计打下基础。(2)设计出针对三代重测序数据的压缩框架LYZip,其中详述了... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

三代重测序DNA数据压缩算法研究


应用二代和三代测序技术文章统计

测序,成本,数据,存储容量


哈尔滨工业大学工程硕士学位论文-4-增大存储容量,扩大传输带宽只能一定程度上缓解数据量大这一现状。但是长远上看,存储容量的增长速度,远低于数据的产生速度,并且随着时间的推移两者的差距将会逐渐变大。生物数据量大和高速的特点决定增大存储容量,扩大带宽的方案只能是暂时缓解当前数据量大的问题,并不能从根本上解决数据高速增长问题,所以并不可行。20世界末期,人类花费高达30亿美元,用时10年才完成人类基因组计划,同时成功完成了人类全基因组图谱的制作。如今,一个普通人只需要花费上千美元,用时不到一天就可以从世界上任意一家专业测序公司完成个人的基因解析[9]。据统计,低廉的测序成本使得测序数据增加的速度进一步加快,Kryder定律[11]所定义的硬盘增长速度已经完全落后于数据增长速度,所以增大存储容量,扩大传输带宽只能一定程度上缓解数据量大这一现状,但是长远上看,存储容量增长速度远低于数据的产生速度,不能够匹配生物数据量大和高速的特点。图1-2展示了截止到2019年末基因测序成本的变化情况,图片数据源自http://www.genome.gov/sequencingcosts/。图1-2测序成本变化Fig.1-2Changesingenomesequencingcosts生物大数据多样性和价值高的特点决定,舍弃测序数据的方案是不可行的。生物数据多样化是指由于测序仪器繁多,不同测序仪器得到的测序数据,数据的格式有一定的差异性,导致处理得到的结果也是千差万别。生物大数据价值高则是指数据内部包含很多待挖掘有价值的信息。这两点决定研究过程中不能

序列,化学组成


哈尔滨工业大学工程硕士学位论文-5-够随意舍弃这些数据。在生物学中,基因是染色体上具有控制生物性状的DNA片段,该物质由最基本的脱氧核糖核苷酸组成。测序过程本质上是去检测核苷酸上碱基的组成,从而得知碱基排列和基因的组成。DNA是由双链组成,相互结合形成螺旋形状,而RNA则是由单链组成同样也是呈现螺旋形状。DNA由脱氧核苷酸组成,其中碱基不同可分为4类,分别为{A,T,C,G}。而RNA则是由核糖核苷酸组成,其中碱基则是分为{A,U,C,G},DNA和RNA的物理模型如图1-3所示。图1-3DNA与RNA结构和化学组成Fig.1-3StructureandchemicalcompositionofDNAandRNADNA转录为RNA,进而翻译为蛋白质的过程,称为基因的表达。{A,T,C,G}不同的排列顺序形成了不同的基因,不同的基因表达成为了不同的性状。但是并非所有的DNA片段都能够表达为具体性状,其中DNA片段被划分为内含子和外显子。只有外显子才能够通过基因的表达过程展示为具体性状。内含子与基因的调控相关,但是其更为深入的作用还未被探究清楚。目前的生物信息学对于基因的了解还是相对有限,加之性状表达的复杂性,很难去定义一段序列完全没有价值。所以对于任意一段序列,尤其是不可再生样本产生的序列,比如说癌症肿瘤,灭绝生物,特殊疾病这些测序结果都不可能再生,需要进行保存而不应该简单的按照当前的判断价值标准进行舍弃。相较于上述两种方案,压缩是更具备可行性和潜力的。首先它完美的契合了生物大数据时代,能够极好的匹配数据量大,增长速度快的特点,并且将测

【参考文献】:
期刊论文
[1]三代测序技术及其应用研究进展[J]. 马丽娜,杨进波,丁逸菲,李颖康.  中国畜牧兽医. 2019(08)
[2]基因组测序技术及其应用研究进展[J]. 李国治,邓卫东.  安徽农业科学. 2018(22)
[3]Oxford Nanopore MinION Sequencing and Genome Assembly[J]. Hengyun Lu,Francesca Giordano,Zemin Ning.  Genomics,Proteomics & Bioinformatics. 2016(05)
[4]DNA序列数据压缩技术综述[J]. 纪震,周家锐,姜来,Q.H.Wu.  电子学报. 2010(05)

硕士论文
[1]基于自索引结构的高通量基因组重测序数据压缩算法[D]. 荣河江.哈尔滨工业大学 2018



本文编号:3108107

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/3108107.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户649ac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com