当前位置:主页 > 科技论文 > 自动化论文 >

基因组二代测序数据的自动化分析流程

发布时间:2016-08-04 04:07

  本文关键词:基因组二代测序数据的自动化分析流程,由笔耕文化传播整理发布。


  

生物通“核心刊物”栏目创办于2002年,主旨在于向国内专业人士展示科研核心刊物,以及生命科学领域杂志每期重点内容,为读者呈现精彩纷呈的国内科研动向,和重大科研进展。目前包括《遗传》、《中国生物工程杂志》、《科学通报》等重点期刊,,也欢迎生物类期刊联系合作(联系邮箱:journal@ebiotrade.com)。

生物通报道:二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多,但是绝大多数软件仅能完成单一的分析功能(例如:仅进行序列比对或变异读取或功能注释等) ,如何能正确高效地选择整合这些软件已成为迫切需求。

来自中国医学科学院,北京协和医学院等处的研究人员设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。相关文章公布在《遗传》杂志上。

二代测序技术(Next-generation sequencing)大幅度降低了测序的时间和成本,使得大规模测序逐渐成为常规的实验室研究和临床检测手段。测序产生的数据量急剧增加,如何高效地分析这些数据,已成为迫切需要解决的问题。目前,分析序列信息的生物信息学软件纷繁复杂,但基本上每个软件只能完成单一的分析功能,实现一个完整的分析流程则需要对众多软件进行整合,而手动串联的效率往往不尽人意;同时,这些软件需要在Linux工作环境下以命令行运行,要求用户具备较好的计算机背景;另外,即便一些实验室完成了分析流程的构建,他们往往不会公开许多细节,新用户仍然要从头建起。

针对这一问题,研究人员希望能通过构建经典的二代测序数据分析流程,并实现各个环节的高效自动化管理和分析,减轻研究者前期的工作负担,促进相关领域进一步对基因组测序研究项目的顺利开展。

研究人员为此设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程以测序原始序列数据作为输入,调用业界标准的数据处理软件(如:BWA,Samtools,GATK,ANNOVAR 等),最终生成带有相应功能注释、便于研究者进一步分析的变异位点列表。

这一流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。用户只需填写配置文件或使用图形界面输入即可完成全部操作,为广大研究者分析二代测序数据提供了便利的途径。

目前测序数据处理软件很多,研究人员综合考虑了适用性和效率,整合出了一套标准的数据处理流程。具体来说,获得 FASTQ格式的原始测序数据后,需要数据进行以下处理: (1)使用BWA 软件把这些短序列和参考基因组进行对比,确定短序列在基因组上的位置,把短序列组装成完整的人类参考基因组; (2)使用 Samtools 软件把这些短序列调整成按一定顺序(1-22,X,Y,其他)排列的序列,并进行数据格式的转换; (3)使用 Picard 软件把测序产生的冗余信息和噪声去掉; (4)使用 GATK 寻找样本测序数据与参考基因组的差异,列出这些差异点; (5)使用 Annovar对这些变异位点进行功能注释,得到一个易于理解的变异位点列表。

这一项目成功整合了一系列二代测序数据分析软件,形成了一套经典的数据分析流程。这一流程通过并行化设计和自动化处理,一方面简化了操作成本、缩短了数据分析周期,另一方面也使本流程可以引入更完善的数据校验步骤,增强结果的可信度。

流程针对Illumina 平台双端测序数据开发,满足了大部分处理需求,并对其他用户提供了一个很好的参考,后续研究人员还将根据用户需求对该自动化流程进行持续维护。

随着二代测序技术的逐步发展,二代测序已经广泛应用于科研和临床研究。这一流程提高了二代测序数据分析的入门和运转效率,其必将在二代测序相关基因组学研究中,促进广大科研人员工作的高效进行。

原文检索:

李文轲, 李丰余, 张思瑶, 蔡斌, 郑娜, 聂宇, 周到, 赵倩. 基因组二代测序数据的自动化分析流程[J]. 遗传, 2014, 36(6): 618-624. Wenke Li, Fengyu Li, Siyao Zhang, Bin Cai, Na Zheng, Yu Nie, Dao Zhou, Qian Zhao. Automatic analysis pipeline of next-generation sequencing data. HEREDITAS(Beijing), 2014, 36(6): 618-624.
 


  本文关键词:基因组二代测序数据的自动化分析流程,由笔耕文化传播整理发布。



本文编号:82917

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/82917.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5e970***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com