高通量基因组数据的无损压缩方法研究
发布时间:2021-06-25 10:10
随着高通量基因组测序技术的迅猛发展及测序成本的巨幅下降,基因组测序数据及其拼接而成的基因组序列数据呈指数级增长。如何有效存储和传输这些海量高通量基因组数据,是医学、生物信息学领域迫切需要解决的问题。基因组数据压缩技术成为解决该问题的重要途径,通过高效的压缩方式,减少基因组数据的存储空间和传输成本。然而,受到基因组数据自身的高度复杂性、测序数据的高通量性以及现有基因组测序技术的局限性等因素的影响,为如何有效的、快速压缩基因组数据带来了更加巨大的挑战。本文围绕着基因组序列数据和基因组测序数据的无损压缩方法开展研究,主要贡献包括以下几方面:第一,针对目前基因组序列数据无损压缩方法利用固定上下文阶数进行碱基概率预测的不足,深入分析挖掘了一阶信息熵与基因组序列压缩结果之间的相关性,提出了基于信息熵的基因组序列数据无损压缩方法。通过计算基因组序列一阶信息熵,动态确定基因组序列压缩有限上下文模型参数。使用现有的5408条细菌基因组序列数据进行无损压缩实验,验证了方法的有效性。第二,现有基因组序列数据无损压缩方法在预测碱基概率时只用到了部分碱基信息,导致预测效果不理想。针对此问题,深入研究了基于深度学...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:123 页
【学位级别】:博士
【部分图文】:
DNA/RNA双螺旋结构及碱基[8]
图 1-2 基因组测序数据在 SRA 数据库中的增长Fig.1-2 The growth of genome sequencing data in SRA database了自人类基因组计划完成后,人类基因组测序的成本曲线图。从图中可以看类基因组测序成本在不断的降低。特别是从高通量基因组测序技术自 2005 年开始,测序成本的下降速度也超过了摩尔定律。到目前为止,完成单人全基
图 1-3 基因组测序成本的不断降低[10]Fig.1-3 Decreasing cost of per genome sequencing取方法。采用卷积神经网络提取局部特征,循环神经网络提取全局特更加准确地预测基因组序列中压缩当前碱基的概率,这极大地发展预测的生物学和生物信息学理论。
本文编号:3249018
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:123 页
【学位级别】:博士
【部分图文】:
DNA/RNA双螺旋结构及碱基[8]
图 1-2 基因组测序数据在 SRA 数据库中的增长Fig.1-2 The growth of genome sequencing data in SRA database了自人类基因组计划完成后,人类基因组测序的成本曲线图。从图中可以看类基因组测序成本在不断的降低。特别是从高通量基因组测序技术自 2005 年开始,测序成本的下降速度也超过了摩尔定律。到目前为止,完成单人全基
图 1-3 基因组测序成本的不断降低[10]Fig.1-3 Decreasing cost of per genome sequencing取方法。采用卷积神经网络提取局部特征,循环神经网络提取全局特更加准确地预测基因组序列中压缩当前碱基的概率,这极大地发展预测的生物学和生物信息学理论。
本文编号:3249018
本文链接:https://www.wllwen.com/projectlw/swxlw/3249018.html