基于Hadoop平台的下一代测序数据处理算法研究
发布时间:2021-04-14 11:29
下一代测序技术的发展产生大量的测序短序列,序列比对是将测序短序列映射到参考基因组的过程,对生物同源性分析,SNP位点预测及疾病预测具有重要的研究意义。由于下一代测序数据包含大量的重复序列,处理重复序列会带来不必要的资源消耗,因此序列去重是常见的测序数据预处理操作。现有很多去重和比对的方法,但是这些方法面对大规模测序数据处理存在耗时长、效率低等问题。近年来研究界提出了一些面向大数据的并行处理算法,虽然在数据处理效率上有很大的提升,但依然存在着很大的改进空间,性能还需进一步提高。针对此问题,本文研究并实现基于Hadoop平台的大规模测序序列去重和比对并行化算法,主要研究内容和结论如下:(1)序列去重算法的研究与改进针对测序数据中存在大量的重复序列,本文研究基于前缀后缀思想的并行去重算法,并在此基础上进行改进。算法的改进包括以下两个方面:(1)原始算法去重结果中仍包含基准重复序列,针对此问题,本研究在去重过程中删除基准重复序列,进一步提高了去重率。(2)原始算法去重结果中包含大量低质量序列,针对此问题,本文提出在去重过程中结合质量控制,过滤低质量序列,提升测序数据质量。(2)序列比对算法的并...
【文章来源】:西北农林科技大学陕西省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
人类基因组测序成本Fig.1-1Thecostofsequencingthehumangenome
图 1-2 每兆碱基测序成本Fig. 1-2 The cost of sequencing per megabit base001 年至 2007 年 10 月的数据代表使用第一成本,从 2008 年 1 月开始的数据代表近年来序技术的发展为生物信息工作者带来便利的技术的发展,人们可以在短时间内获得大 单次运转能产生 600GB 的新一代测序数据
Illumina 遗传分析仪性价比高,是目前主流的高通量测序平台。Illumina 测序平台的测序过程如图2-1①所示,具体包括以下步骤:第一步,将 DNA 序列打碎,形成短的片段;第二步,将 DNA 片段两侧 3’ 端和 5’ 端连上接头;第三步,将 DNA 片段固定在磁珠上,形成微反应器;第四步,每个片段独立地进行扩增-微乳液 PCR 扩增;第五步,进行引物杂交和酶延伸反应,同一时刻进行荧光标记的成像检测。图 2-1 高通量测序平台测序过程Fig. 2-1 High-throughput sequencing platform sequencing process①https://www.biomart.cn/specials/illumina/article/57234
【参考文献】:
期刊论文
[1]高通量测序行业现状与发展趋势分析[J]. 施慧琳,苏燕,许丽,王玥. 生物产业技术. 2018(03)
[2]高通量DNA测序数据的生物信息学方法[J]. 詹晓娟,姚登举,朱怀球. 大数据. 2016(02)
[3]序列比对算法中的BW变换索引技术研究及其改进[J]. 赵雅男,徐云,程昊宇. 计算机工程. 2016(01)
[4]基于新一代测序数据的比对算法的研究[J]. 权威,王亚东. 智能计算机与应用. 2012(05)
[5]BWT与经典压缩算法研究[J]. 倪桂强,李彬,罗健欣,张雪. 计算机与数字工程. 2010(11)
硕士论文
[1]基于高通量转录组测序的序列比对算法研究[D]. 张勇.中国科学技术大学 2016
[2]基于分布式计算的高通量测序比对方法的研究与实现[D]. 张鑫.北京邮电大学 2015
[3]基于BWT的快速DNA比对系统的设计与实现[D]. 周渝东.哈尔滨工业大学 2014
本文编号:3137236
【文章来源】:西北农林科技大学陕西省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
人类基因组测序成本Fig.1-1Thecostofsequencingthehumangenome
图 1-2 每兆碱基测序成本Fig. 1-2 The cost of sequencing per megabit base001 年至 2007 年 10 月的数据代表使用第一成本,从 2008 年 1 月开始的数据代表近年来序技术的发展为生物信息工作者带来便利的技术的发展,人们可以在短时间内获得大 单次运转能产生 600GB 的新一代测序数据
Illumina 遗传分析仪性价比高,是目前主流的高通量测序平台。Illumina 测序平台的测序过程如图2-1①所示,具体包括以下步骤:第一步,将 DNA 序列打碎,形成短的片段;第二步,将 DNA 片段两侧 3’ 端和 5’ 端连上接头;第三步,将 DNA 片段固定在磁珠上,形成微反应器;第四步,每个片段独立地进行扩增-微乳液 PCR 扩增;第五步,进行引物杂交和酶延伸反应,同一时刻进行荧光标记的成像检测。图 2-1 高通量测序平台测序过程Fig. 2-1 High-throughput sequencing platform sequencing process①https://www.biomart.cn/specials/illumina/article/57234
【参考文献】:
期刊论文
[1]高通量测序行业现状与发展趋势分析[J]. 施慧琳,苏燕,许丽,王玥. 生物产业技术. 2018(03)
[2]高通量DNA测序数据的生物信息学方法[J]. 詹晓娟,姚登举,朱怀球. 大数据. 2016(02)
[3]序列比对算法中的BW变换索引技术研究及其改进[J]. 赵雅男,徐云,程昊宇. 计算机工程. 2016(01)
[4]基于新一代测序数据的比对算法的研究[J]. 权威,王亚东. 智能计算机与应用. 2012(05)
[5]BWT与经典压缩算法研究[J]. 倪桂强,李彬,罗健欣,张雪. 计算机与数字工程. 2010(11)
硕士论文
[1]基于高通量转录组测序的序列比对算法研究[D]. 张勇.中国科学技术大学 2016
[2]基于分布式计算的高通量测序比对方法的研究与实现[D]. 张鑫.北京邮电大学 2015
[3]基于BWT的快速DNA比对系统的设计与实现[D]. 周渝东.哈尔滨工业大学 2014
本文编号:3137236
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3137236.html