基于高通量转录组测序的序列比对算法研究
发布时间:2017-09-05 11:20
本文关键词:基于高通量转录组测序的序列比对算法研究
更多相关文章: 生物信息学 序列比对 高通量转录组测序 索引结构 剪接位点
【摘要】:近些年,下一代测序技术获得了突飞猛进的发展,由此产生了越来越多的测序数据。如何处理这些测试数据一直以来都是生物信息学领域的一项重要研究内容,下一代测序技术应用到转录组研究领域产生了高通量转录组测序技术,简称为RNA-seq技术。RNA-seq数据分析软件的一项重要功能便是重构剪接之前的mRNA在细胞中的形态,此外,还应该能够评估每种剪接异构体的表达水平。但是,所有分析过程的第一步都是要把从RNA-seq中得到的测序片段比对到相应的参考序列上。因为内含子序列在DNA转录为成熟mRNA时会被剪切除去,所以与传统的序列比对问题相比,转录组序列比对有其固有的特殊之处,即需要将测序得到的序列分段比对到不同的外显子序列上,因此需要设计专门针对RNA-seq的序列比对算法。现有的RNA-seq序列比对算法基本上都是依赖于经典的剪接位点信号,而许多非经典的剪接信号位点具有重要的生物学功能,如GT-TG与人类腺苷酸环化酶刺激蛋白Gαs的形成有关。为此,我们设计了两个新的RNA-seq序列比对算法,用来发现多种类型的剪接位点。(])独立于剪接位点信号的转录组序列比对算法首先我们设计了一种采用重叠种子内部扩展策略的RNA-seq序列比对算法,命名为RNAMap o种子序列的重叠性能够保证由种子的比对信息能够组合出完整测序序列的定位信息。在扫描基因组时,RNAMap建立一个静态表和一个动态表来索引种子序列及其比对信息,寻找左右锚点序列之间的剪接位点,此时并不受经典剪接位点信号的限制。实验结果表明,对于含有多种类型的剪接位点的数据集,RNAMap的召回率和精确度分别达到了92.53%和97.01%,优于其它的转录组序列比对工具。(2)转录组序列比对算法改进之后我们又设计了一种采用非重叠种子之间扩展策略的RNA-seq序列比对算法,命名为RNAMap 2。该算法通过减少种子的数量来降低计算量,然后利用测序深度,即测序序列的重复性来进行比对。这在一定程度上弥补了RNAMap在运行速度方面的不足。实验结果表明,在测序序列的长度为300bp时,RNAMap2比RNAMap快将近40%。此外,RNAMap 2采用Needleman-Wunsch全局动态规划算法,能够处理编辑距离的误配情况,克服了RNAMap仅支持海明距离误配的缺点。实验结果表明,RNAMap 2的召回率比RNAMap高大约2%。
【关键词】:生物信息学 序列比对 高通量转录组测序 索引结构 剪接位点
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP301.6
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 绪论10-16
- 1.1 研究背景及意义10-11
- 1.2 研究现状11-14
- 1.2.1 传统的序列比对算法12-13
- 1.2.2 转录组序列比对算法13-14
- 1.3 本文研究内容14-15
- 1.3.1 独立于剪接位点信号的转录组序列比对算法14-15
- 1.3.2 转录组序列比对算法改进15
- 1.4 论文组织15-16
- 第2章 相关技术与知识16-32
- 2.1 测序平台介绍16-21
- 2.1.1 Roche 454和SOLiD测序16-18
- 2.1.2 Ion Torrent测序18
- 2.1.3 Illumina测序18
- 2.1.4 PacBio RS测序18-19
- 2.1.5 测序系统综合比较19-21
- 2.2 转录组测序介绍21-24
- 2.2.1 转录组测序流程21-22
- 2.2.2 转录组测序数据分析流程22-24
- 2.3 数据文件格式24-28
- 2.3.1 FASTA和FASTQ文件24-25
- 2.3.2 GFF和GTF文件25-26
- 2.3.3 SAM和BAM文件26-28
- 2.4 基因组索引技术28-32
- 2.4.1 FM-index索引28-30
- 2.4.2 Hash索引30-32
- 第3章 独立于剪接位点信号的转录组序列比对算法32-46
- 3.1 相关生物学术语32-33
- 3.1.1 外显子和内含子32-33
- 3.1.2 剪接位点信号33
- 3.2 算法设计与实现33-42
- 3.2.1 算法设计初衷33
- 3.2.2 算法实现过程33-37
- 3.2.3 算法执行示例37-42
- 3.3 实验结果与分析42-45
- 3.3.1 模拟数据集实验及分析43-44
- 3.3.2 真实数据集实验及分析44-45
- 3.4 本章小结45-46
- 第4章 转录组序列比对算法改进46-62
- 4.1 引言46-50
- 4.1.1 海明距离和编辑距离46
- 4.1.2 全局动态规划46-48
- 4.1.3 TopHat算法简介48-50
- 4.2 算法设计与实现50-55
- 4.2.1 算法设计初衷50-51
- 4.2.2 算法实现过程51-53
- 4.2.3 算法执行示例53-55
- 4.3 实验结果与分析55-61
- 4.3.1 模拟数据集实验及分析55-59
- 4.3.2 真实数据集实验及分析59-61
- 4.4 本章小结61-62
- 第5章 总结62-66
- 5.1 本文工作62-63
- 5.2 本文贡献与创新之处63-64
- 5.3 进一步工作64-66
- 参考文献66-70
- 附录1 插图索引70-72
- 附录2 表格索引72-74
- 致谢74-76
- 在读期间发表的学术论文76-78
- 攻读学位其间参加的科研项目78
本文编号:797669
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/797669.html