基因大数据组装优化研究
发布时间:2021-06-01 02:21
下一代测序技术(NGS)的发展推动了基因组学在多个应用领域的研究。宏基因组学是研究大型微生物物种群体的一种强有效的方法,对于宏基因组样本中的未知物种,没有参考基因组的基因组装分析是一个非常具有挑战性的问题。同时,随着基因测序技术的飞速发展,基因组测序数据与日俱增。为了应对这些问题,可以使用分布式基因组装软件处理多个宏基因组样本。在本论文中,基于高度可扩展软件SWAP-Assembler 2,对宏基因组组装分析的各个流程进行了一定的优化,提出了一种新的基于并查集数据结构的基因预测去冗余方法,均取得不错的效果。在此基础上,提出了一个名为WFswap的宏基因组分析流程,用于多样本大型基因组的组装分析。实验结果表明,所提出的工作流程WFswap表现出更好的性能,能够使得组装的基因更长,预测到的基准基因数更多。最后,本论文针对SWAP-Assembler 2软件进行功能提升优化,进一步延伸contig,构建scaffold,成功提升了N50组装标准。
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
基因测序成本年度变化
第 2 章 基因组数据分析介绍 k-mer,并将所有 read 的所有 k-mer 进行累加,建立最初的 e Bruijn 图。剔除由于测序错误产生的尖端和泡状等结构;成。通过遍历 De Bruijn 图产生最终的 contig。基于 De Bruijn 图算法的基因组装软件有 SOAPdenovo2,VePdenovo2[34],SOAPdenovo[34]算法主要由 DeBruijn 图的构建、contig 构等操作构成。其中 contig 构建过程中还包括一系列图化简操作
(2) FASTA 文件格式相比于 FASTQ 文件格式,FASTA 格式是一种缩减的基因存储方法。FASTA 格式总共由两行组成。第一行以“>”开头,后面记录一下序列及数据库信息,第二行则表示基因序列。>gene1TCCGAAAACGTTTGGCAGTTCATTAGCTGCATCGATCGATCAAATT3.3 宏基因组装分析优化结果3.3.1 质量控制优化结果分析首先在质量控制步骤,我们采取格式转换的方法,将原始的 FASTQ 序列转换为更加简洁的 FASTA 文件。
本文编号:3209471
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
基因测序成本年度变化
第 2 章 基因组数据分析介绍 k-mer,并将所有 read 的所有 k-mer 进行累加,建立最初的 e Bruijn 图。剔除由于测序错误产生的尖端和泡状等结构;成。通过遍历 De Bruijn 图产生最终的 contig。基于 De Bruijn 图算法的基因组装软件有 SOAPdenovo2,VePdenovo2[34],SOAPdenovo[34]算法主要由 DeBruijn 图的构建、contig 构等操作构成。其中 contig 构建过程中还包括一系列图化简操作
(2) FASTA 文件格式相比于 FASTQ 文件格式,FASTA 格式是一种缩减的基因存储方法。FASTA 格式总共由两行组成。第一行以“>”开头,后面记录一下序列及数据库信息,第二行则表示基因序列。>gene1TCCGAAAACGTTTGGCAGTTCATTAGCTGCATCGATCGATCAAATT3.3 宏基因组装分析优化结果3.3.1 质量控制优化结果分析首先在质量控制步骤,我们采取格式转换的方法,将原始的 FASTQ 序列转换为更加简洁的 FASTA 文件。
本文编号:3209471
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3209471.html
最近更新
教材专著