转录组测序数据分析集成软件包开发及其在杨树上的应用
发布时间:2021-08-06 12:51
作为二代测序技术之一,转录组测序技术已经广泛应用于许多物种的基因差异表达和基因注释研究中。现有多种转录组测序数据差异表达分析软件,但分析步骤多而且复杂,并且不同的分析方案其运行结果差别较大。为了方便研究者自己使用软件进行差异表达计算分析,并从多个计算结果中选择有利于解释研究对象基因表达机理的结果,本文编写了一个集成的Perl软件包。使用该软件包对在正常和干旱胁迫两种条件下的小叶杨(Populus simonii)和美洲黑杨(P.deltoides)‘I-69’转录组测序数据进行了多种策略的差异表达分析,并对相应的结果进行了比较。本研究获得的主要结果如下:(1)针对一般的转录组测序数据,考虑了研究对象有无参考基因组序列、样本数据是否有重复、单端还是双端测序数据、不同的基因表达量计算方法以及不同的基因差异表达显著性检验方法等因素,利用Trinity、Cufflinks和StringTie等与转录组数据分析相关的软件,使用Perl语言开发出了集成的转录组测序数据分析软件包findDEG。该软件包有十多种分析方案可供选择,采用一键的方式进行数据计算,避免了中间环节参数输入和结果利用等操作步骤,...
【文章来源】:南京林业大学江苏省
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
转录组测序数据有参分析步骤Fig.1.1StepsofRNA-seqTranscriptomeanalysis
图 1.2 转录组测序数据无参分析步骤Fig.1.2 Steps of de novo RNA-seq transcriptome analysis转录组测序数据生物信息学分析流程主要包括以下几个步骤:质量控制;有参考基因组的 reads 比对与无参考基因组的 reads 组装;基因和转录本的定量分析;基因差别表达析;基因功用富集分析。以上的每一步都有众多的相关分析软件。1.3.1 质量控制测序获得的原始数据,必需先进行过滤,去除污染序列及带接头的、重复的和品质差的序列,得到 clean reads,再进行后续转录组分析。对测序得到的原始数据的质量分析包含 GC 含量、是否存在接头、重复的 reads 数以及 PCR 过程中的污染等内容。在同一样本中,reads 的重复数 GC 含量应该是一致的。FASTQC 软件可以查看 Illumina 平台测得到的 reads 的质量,NGSQC 可以査看所有测序平台得到的 reads 的质量。一般来说,5’端向 3’端,reads 的质量会递减,序列质量特别低的部分可以切除,避免影响下一步的比对。Fastx-toolkit 和 Trimmomatic 两个软件可以切除 reads 低质量的碱基和测序的接头。
图 2.3 IGV 文件截图Fig. 2.3 Screenshot of IGV2.4.1.2 利用 Cufflinks 进行转录组分析Cufflinks(http://cole-trapnell-lab.github.io/cufflinks/)是由加利福尼亚大学伯克利分校数学和计算机生物实验室 LiorPachter 指导的 Steven Salzberg 团队、马里兰大学生物信息和计算机生物中心的 Steven Salzberg 小组、以及加州理工学院的 Barbara Wold 实验室联合开发的一个基于比对结果进行转录组组装分析软件[77]。Cufflinks 版本在 2.2.0 以下,其中主要包含 cufflinks、cuffmerge、cuffcompare 和 cuffdiff 等几个主要的程序,版本在 2.2.0 及以上添加了 cuffquant 和 cuffnorm 两个重要程序。Cufflinks 主要功能有转录本序列重组,基因表达量的计算和差别表达基因的寻找。我们下载并安装了 Cufflinks-2.1.1 和 Cufflinks-2.2.1然后分别对测试数据进行分析处理。同样以拟南芥数据为例首先使用 Cufflinks-2.1.1 进行数据分析,第一步利用 cufflin程序分别根据四组数据Tophat比对结果文件accepted_hits.bam进行基因和转录本的表达量计算。使用命令:$ Cufflinks-2.1.1/cufflinks -p 20 -o SRR671946_cufflinksout SRR671946_tophatout/accepted_ hits.b
【参考文献】:
期刊论文
[1]改进的RNA-Seq数据转录组表达分析研究[J]. 石新新,刘学军,张礼. 数据采集与处理. 2015(05)
[2]毛竹小RNA高通量测序及病毒分析[J]. 范春节,王晖,卢孟柱. 林业科学研究. 2014(03)
[3]单核苷酸多态性在多倍体作物油菜中的研究进展[J]. 王会,刘佳,付丽,梅德圣. 中国油料作物学报. 2014(03)
[4]基于Solexa高通量测序的香菇C91-3功能基因的挖掘和开发[J]. 黄敏,钟民涛. 微生物学杂志. 2014(01)
[5]下一代测序技术数据分析进展[J]. 朱智东,孙明明,王海彬,郭长全,牛申,汤溢飞,肖华胜. 生物产业技术. 2014(01)
[6]全基因组测序技术的发展和应用[J]. 滕国栋,陈敏亮. 中国美容医学. 2013(04)
[7]转录组与RNA-Seq技术[J]. 张春兰,秦孜娟,王桂芝,纪志宾,王建民. 生物技术通报. 2012(12)
[8]白介素21的研究进展及其在寄生虫学上的应用[J]. 王燕,李佳缘,李中原,袁子国,朱兴全,黄思扬. 中国兽医科学. 2012(04)
[9]新一代测序技术的发展和应用[J]. 李亦学,李轩. 中国科技投资. 2012(07)
[10]牦牛功能基因的研究进展[J]. 肖玉萍,魏云霞,张百炼,吴晓睿,师音,周磊,李维红. 黑龙江畜牧兽医. 2012(03)
博士论文
[1]新吉细毛羊和小尾寒羊的毛品质性状及皮肤转录组学研究[D]. 孙福亮.延边大学 2016
[2]硫氢化钠缓解小麦高温胁迫的生理机制研究[D]. 杨敏.山东农业大学 2016
[3]基于RNA测序技术的转录组从头拼接算法研究[D]. 常征.山东大学 2014
[4]基于转录组测序的石斛生物碱和人参皂苷生物合成相关基因的发掘、克隆及鉴定[D]. 郭溆.北京协和医学院 2013
[5]Spt15及转录本UTR重叠对酿酒酵母基因表达的调控研究[D]. 王路雯.复旦大学 2012
[6]海岛棉和陆地棉纤维发育的遗传基因组学研究[D]. 陈向东.南京农业大学 2011
[7]基于比较基因组学和mRNA高通量测序的可变剪接外显子进化研究[D]. 徐佳熹.复旦大学 2011
[8]杜氏盐藻(Dunaliella salina)叶绿体转化研究[D]. 潘卫东.郑州大学 2003
硕士论文
[1]基于二代测序的转录组数据分析方法的比较研究[D]. 石浩然.四川农业大学 2016
[2]杨树干旱响应转录组测序分析[D]. 欧佳佳.南京林业大学 2015
[3]小麦近等基因系白粉病抗性反应的转录组分析[D]. 张雪莹.山东农业大学 2015
[4]针对RNA-Seq数据的基因异构体表达水平计算方法研究[D]. 李蒙.南京航空航天大学 2014
[5]桑树绿枝扦插高效生根的转录组测序分析及相关基因的验证[D]. 聂浩.江苏科技大学 2013
[6]甘蓝型油菜耐湿差异性表达基因的筛选及分析[D]. 谭筱玉.华中农业大学 2012
[7]新一代基因测序的数据处理中的相关问题[D]. 张骏.上海交通大学 2011
[8]人类基因PolyA位点预测[D]. 段江波.华中科技大学 2008
[9]几个杨树杂交无性系抗逆性研究与评价[D]. 焦绪娟.山东农业大学 2007
[10]美洲黑杨产量相关性状遗传变异研究[D]. 李昌龙.南京林业大学 2007
本文编号:3325807
【文章来源】:南京林业大学江苏省
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
转录组测序数据有参分析步骤Fig.1.1StepsofRNA-seqTranscriptomeanalysis
图 1.2 转录组测序数据无参分析步骤Fig.1.2 Steps of de novo RNA-seq transcriptome analysis转录组测序数据生物信息学分析流程主要包括以下几个步骤:质量控制;有参考基因组的 reads 比对与无参考基因组的 reads 组装;基因和转录本的定量分析;基因差别表达析;基因功用富集分析。以上的每一步都有众多的相关分析软件。1.3.1 质量控制测序获得的原始数据,必需先进行过滤,去除污染序列及带接头的、重复的和品质差的序列,得到 clean reads,再进行后续转录组分析。对测序得到的原始数据的质量分析包含 GC 含量、是否存在接头、重复的 reads 数以及 PCR 过程中的污染等内容。在同一样本中,reads 的重复数 GC 含量应该是一致的。FASTQC 软件可以查看 Illumina 平台测得到的 reads 的质量,NGSQC 可以査看所有测序平台得到的 reads 的质量。一般来说,5’端向 3’端,reads 的质量会递减,序列质量特别低的部分可以切除,避免影响下一步的比对。Fastx-toolkit 和 Trimmomatic 两个软件可以切除 reads 低质量的碱基和测序的接头。
图 2.3 IGV 文件截图Fig. 2.3 Screenshot of IGV2.4.1.2 利用 Cufflinks 进行转录组分析Cufflinks(http://cole-trapnell-lab.github.io/cufflinks/)是由加利福尼亚大学伯克利分校数学和计算机生物实验室 LiorPachter 指导的 Steven Salzberg 团队、马里兰大学生物信息和计算机生物中心的 Steven Salzberg 小组、以及加州理工学院的 Barbara Wold 实验室联合开发的一个基于比对结果进行转录组组装分析软件[77]。Cufflinks 版本在 2.2.0 以下,其中主要包含 cufflinks、cuffmerge、cuffcompare 和 cuffdiff 等几个主要的程序,版本在 2.2.0 及以上添加了 cuffquant 和 cuffnorm 两个重要程序。Cufflinks 主要功能有转录本序列重组,基因表达量的计算和差别表达基因的寻找。我们下载并安装了 Cufflinks-2.1.1 和 Cufflinks-2.2.1然后分别对测试数据进行分析处理。同样以拟南芥数据为例首先使用 Cufflinks-2.1.1 进行数据分析,第一步利用 cufflin程序分别根据四组数据Tophat比对结果文件accepted_hits.bam进行基因和转录本的表达量计算。使用命令:$ Cufflinks-2.1.1/cufflinks -p 20 -o SRR671946_cufflinksout SRR671946_tophatout/accepted_ hits.b
【参考文献】:
期刊论文
[1]改进的RNA-Seq数据转录组表达分析研究[J]. 石新新,刘学军,张礼. 数据采集与处理. 2015(05)
[2]毛竹小RNA高通量测序及病毒分析[J]. 范春节,王晖,卢孟柱. 林业科学研究. 2014(03)
[3]单核苷酸多态性在多倍体作物油菜中的研究进展[J]. 王会,刘佳,付丽,梅德圣. 中国油料作物学报. 2014(03)
[4]基于Solexa高通量测序的香菇C91-3功能基因的挖掘和开发[J]. 黄敏,钟民涛. 微生物学杂志. 2014(01)
[5]下一代测序技术数据分析进展[J]. 朱智东,孙明明,王海彬,郭长全,牛申,汤溢飞,肖华胜. 生物产业技术. 2014(01)
[6]全基因组测序技术的发展和应用[J]. 滕国栋,陈敏亮. 中国美容医学. 2013(04)
[7]转录组与RNA-Seq技术[J]. 张春兰,秦孜娟,王桂芝,纪志宾,王建民. 生物技术通报. 2012(12)
[8]白介素21的研究进展及其在寄生虫学上的应用[J]. 王燕,李佳缘,李中原,袁子国,朱兴全,黄思扬. 中国兽医科学. 2012(04)
[9]新一代测序技术的发展和应用[J]. 李亦学,李轩. 中国科技投资. 2012(07)
[10]牦牛功能基因的研究进展[J]. 肖玉萍,魏云霞,张百炼,吴晓睿,师音,周磊,李维红. 黑龙江畜牧兽医. 2012(03)
博士论文
[1]新吉细毛羊和小尾寒羊的毛品质性状及皮肤转录组学研究[D]. 孙福亮.延边大学 2016
[2]硫氢化钠缓解小麦高温胁迫的生理机制研究[D]. 杨敏.山东农业大学 2016
[3]基于RNA测序技术的转录组从头拼接算法研究[D]. 常征.山东大学 2014
[4]基于转录组测序的石斛生物碱和人参皂苷生物合成相关基因的发掘、克隆及鉴定[D]. 郭溆.北京协和医学院 2013
[5]Spt15及转录本UTR重叠对酿酒酵母基因表达的调控研究[D]. 王路雯.复旦大学 2012
[6]海岛棉和陆地棉纤维发育的遗传基因组学研究[D]. 陈向东.南京农业大学 2011
[7]基于比较基因组学和mRNA高通量测序的可变剪接外显子进化研究[D]. 徐佳熹.复旦大学 2011
[8]杜氏盐藻(Dunaliella salina)叶绿体转化研究[D]. 潘卫东.郑州大学 2003
硕士论文
[1]基于二代测序的转录组数据分析方法的比较研究[D]. 石浩然.四川农业大学 2016
[2]杨树干旱响应转录组测序分析[D]. 欧佳佳.南京林业大学 2015
[3]小麦近等基因系白粉病抗性反应的转录组分析[D]. 张雪莹.山东农业大学 2015
[4]针对RNA-Seq数据的基因异构体表达水平计算方法研究[D]. 李蒙.南京航空航天大学 2014
[5]桑树绿枝扦插高效生根的转录组测序分析及相关基因的验证[D]. 聂浩.江苏科技大学 2013
[6]甘蓝型油菜耐湿差异性表达基因的筛选及分析[D]. 谭筱玉.华中农业大学 2012
[7]新一代基因测序的数据处理中的相关问题[D]. 张骏.上海交通大学 2011
[8]人类基因PolyA位点预测[D]. 段江波.华中科技大学 2008
[9]几个杨树杂交无性系抗逆性研究与评价[D]. 焦绪娟.山东农业大学 2007
[10]美洲黑杨产量相关性状遗传变异研究[D]. 李昌龙.南京林业大学 2007
本文编号:3325807
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3325807.html