基于肿瘤RNA-Seq数据识别融合基因的方法研究
发布时间:2017-08-05 08:38
本文关键词:基于肿瘤RNA-Seq数据识别融合基因的方法研究
更多相关文章: 融合基因 人类癌症 二代测序 序列比对 检测算法
【摘要】:融合基因是指两个基因的编码区首尾相连构成的嵌合基因。当染色体发生易位、重排或者缺失时,都有可能产生融合基因。融合基因编码的蛋白通常具有致癌性,会影响细胞的正常生理功能,是导致癌症的主要原因之一。目前,在肺癌、甲状腺、乳腺癌等疾病中,都发现了融合基因的存在。若能成功检测融合基因,将有助于癌症诊断,甚至是癌症治疗。二代测序技术的出现,使得从基因组水平检测融合基因成为了可能。通过分析融合基因测序读段特征,寻找融合基因和正常基因测序读段的差异,开发出了一种新的融合基因检测算法:GFusion。其采取了分割比对的方法,首先使用Bowtie、Tophat等软件,将读段比对到人类参考基因组,得到SAM文件并从中提取出没有比对信息的读段。其次,将这些未比对上的读段,采用序列分割的方法创建人工双端读段,再重新比对这些双端读段,以此定位其来源基因及外显子信息。然后,对这些人工双端读段进行多重过滤筛选,从而得到候选的融合基因及融合读段。最后将候选的融合读段比对到重建的bowtie参考索引中,得到最终确认的融合基因及融合读段。与现有的融合基因检测软件Tophat-Fusion、FusionMap等相比,GFusion的过滤校验标准使用了复杂的双端映射匹配信息以及重构的读段比对bowtie索引,使融合基因检测结果更加可靠。为了测试GFusion的性能,使用人类乳腺癌细胞系,正常乳腺细胞系,慢性粒细胞白血病K-562细胞系的RNA-Seq数据做了分析。GFusion成功检测到实验证实的融合基因,并预测到了部分新的融合基因。在人类乳腺癌细胞系23个实验证实的融合基因中,GFusion检测到了其中20个。在K-562细胞系中,成功发现了BCR-ABL1融合基因,这与研究证明的慢性粒细胞白血病病因相吻合。为了与已有的融合基因检测软件Tophat-fusion、FusionMap比较,还将人类胚胎干细胞数据和融合读段相混合创建了模拟数据集。经过数据结果,敏感度,假阳性率,以及融合基因支持的读段数量比较,发现GFusion对于融合基因检测效果更加明显。GFusion通过引入双端映射匹配信息,使融合基因的过滤筛选更加严格,不仅具有较高的敏感度,还具有较低的假阳性率。
【关键词】:融合基因 人类癌症 二代测序 序列比对 检测算法
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R73-3
【目录】:
- 摘要4-5
- ABSTRACT5-12
- 第一章 绪论12-17
- 1.1 引言12
- 1.2 融合基因形成12-13
- 1.3 融合基因与癌症关系13-14
- 1.4 融合基因检测及对癌症治疗作用14
- 1.5 论文研究的关键问题14-15
- 1.6 论文的研究内容与安排15-16
- 1.7 本章小结16-17
- 第二章 二代测序技术介绍17-26
- 2.1 引言17
- 2.2 二代测序技术介绍17-21
- 2.2.1 二代测序技术应用17
- 2.2.2 RNA-Seq技术简介17-18
- 2.2.3 测序平台18-19
- 2.2.4 双端数据和单端数据19-20
- 2.2.5 测序结果数据格式20-21
- 2.3 第二代测序数据处理工具21-25
- 2.3.1 Bowtie21-22
- 2.3.2 Tophat22-23
- 2.3.3 Samtools23
- 2.3.4 SAM格式23-25
- 2.4 本章小结25-26
- 第三章 融合基因检测方法研究26-41
- 3.1 引言26
- 3.2 基于二代测序融合基因识别软件26-27
- 3.2.1 FusionSeq26
- 3.2.2 FusionMap26-27
- 3.2.3 Tophat-fusion27
- 3.3 读段表现形式27-31
- 3.3.1 正常读段映射27-29
- 3.3.2 融合基因读段比对29-31
- 3.4 双端数据比对方法31-38
- 3.4.1 将RNA-Seq数据比对到人类参考基因组31-32
- 3.4.2 提取discordant pair信息32-33
- 3.4.3 创建人工双端读段33-34
- 3.4.4 anchor比对34-35
- 3.4.5 定位来源基因及融合边界确认35-36
- 3.4.6 过滤36-37
- 3.4.7 确认spanning read37
- 3.4.8 建立bowtie索引和重比对37-38
- 3.5 单端数据比对方法38-40
- 3.6 算法优势40
- 3.7 本章小结40-41
- 第四章 基于人类肿瘤RNA-Seq数据检测融合基因41-56
- 4.1 引言41
- 4.2 双端测序数据41-47
- 4.2.1 数据来源41-42
- 4.2.2 结果分析42-47
- 4.3 单端测序数据47-48
- 4.4 模拟数据集及假阳性分析48-54
- 4.4.1 模拟背景数据48-49
- 4.4.2 模拟融合基因数据集49-50
- 4.4.3 敏感度和假阳性率分析50-51
- 4.4.4 结果比较分析51-52
- 4.4.5 读段数量影响52-54
- 4.5 本章小结54-56
- 第五章 总结和展望56-58
- 5.1 研究方案与创新性56
- 5.2 本文工作总结56-57
- 5.3 后续研究工作展望57-58
- 参考文献58-64
- 致谢64-65
- 在学期间的研究成果及学术论文情况65
【参考文献】
中国期刊全文数据库 前4条
1 谢仲秋;曾勇;;融合基因与肿瘤[J];肿瘤药学;2014年06期
2 杨旭;焦睿;杨琳;吴莉萍;李英睿;王俊;;基于新一代高通量技术的人类疾病组学研究策略[J];遗传;2011年08期
3 李晓非;李冬玲;施巧霞;陈育林;吴芳华;;三种检测方法对结核病诊断价值的比较研究[J];实用医技杂志;2008年04期
4 刘万清,贺林;SNP-为人类基因组描绘新的蓝图[J];遗传;1998年06期
,本文编号:624018
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/624018.html
最近更新
教材专著