当前位置:主页 > 医学论文 > 肿瘤论文 >

基于SNP arrays和NGS数据的肿瘤异质性建模分析方法

发布时间:2017-10-02 12:13

  本文关键词:基于SNP arrays和NGS数据的肿瘤异质性建模分析方法


  更多相关文章: 肿瘤异质性 拷贝数变异 单核苷酸多态性微阵列 下一代测序 隐马尔科夫模型 循环二进制分割


【摘要】:随着肿瘤研究的深入,人们逐渐认识到个体肿瘤存在一种典型的性质——异质性。肿瘤异质性是指同一肿瘤组织中存在不同类型的亚克隆细胞,它们在分化程度、侵袭转移能力以及对药物的反应等诸多方面存在差异。当前,高通量、大规模的测序技术使得从基因组水平上揭示肿瘤的本质成为可能。如何对测序所产生的海量数据进行有效地建模分析,是肿瘤基因组学亟待解决的问题。由于肿瘤样品的纯度问题、亚克隆细胞基因组复杂的变异方式以及高通量测序信号本身的噪声特性,构建合适的异质性肿瘤数据的统计模型依然具有挑战性。 在这一背景下,本文提出了两种异质性肿瘤统计分析方法,分别以单核苷酸多态性微阵列(SNP arrays)和下一代测序(NGS)数据为基础,围绕亚克隆细胞的识别以及肿瘤基因拷贝数变异的鉴定进行了深入分析和研究。主要内容安排如下: 1)详细地介绍了SNP arrays技术提供的两个基因信号Log R ratio (LRR)和Ballele frequency (BAF)对应不同的拷贝数变异时的信号值的变化。分析了一些实际肿瘤样品中的非理想因素,包括正常细胞污染、肿瘤细胞非整倍性、GC含量对基因信号带来的偏移,重点讨论从基因信号的二维分布图中怎样发现肿瘤异质性。 2)借助正常成对基因组数据和已注解的SNP位点将NGS技术的全基因组读数信息经过提取和转换,得到和SNP arrays技术具有类似意义的LRR和BAF信号,同时也提出两个平台上信号在分布、信噪比及数据量上存在差异。 3)提出了异质性肿瘤SNP arrays数据的分析方法(CHASE)。该算法采用隐马尔科夫模型(HMM)建立可观察的基因信号和对应隐藏的基因型之间的关系,同时考虑了多种非理想因素。该方法的创新点在于建立了两种肿瘤亚克隆同时存在的情况,采用了牛顿迭代算法来估测亚克隆细胞的比例。对于多组模拟肿瘤数据集和两个真实的乳腺癌数据的分析结果显示,该方法对检测异质性肿瘤中亚克隆细胞的比例以及克隆变异和亚克隆变异都具有较高的准确性。 4)提出了针对正常-肿瘤成对NGS数据的异质性和基因型检测方法(SAPPH)。该方法采用增强的循环二进制分割算法(CBS)将基因组分成基因片段,通过过滤出高可靠性基因片段、聚类局部肿瘤基因比例和贝叶斯信息准则(BIC)模型选择的策略,有效地避免了信号截断的影响、降低了分析的时间复杂度。模拟实验表明该算法可以有效地检测出样品中多种亚克隆细胞比例和基因组拷贝数变异。 本文的研究对异质性肿瘤SNP arrays和NGS数据的分析提供了有效的生物信息学工具,并对寻找癌症驱动基因、研究癌症基因组的演化历史和个性化治疗带来了很大帮助。
【关键词】:肿瘤异质性 拷贝数变异 单核苷酸多态性微阵列 下一代测序 隐马尔科夫模型 循环二进制分割
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:R73-3
【目录】:
  • 摘要5-7
  • ABSTRACT7-11
  • 第一章 绪论11-21
  • 1.1 研究背景及意义11-12
  • 1.2 肿瘤异质性的形成原因及特征12-15
  • 1.3 拷贝数变异15-16
  • 1.4 基因测序平台和现有研究方法16-18
  • 1.5 本文的研究内容18-21
  • 第二章 SNP arrays和NGS基因信号21-27
  • 2.1 SNP及SNP arrays技术21-22
  • 2.2 LRR与BAF22-25
  • 2.3 NGS技术及信号25-26
  • 2.4 小结26-27
  • 第三章 基于SNP arrays数据的肿瘤异质性及拷贝数变异检测27-43
  • 3.1 HMM简介27-28
  • 3.2 CHASE模型的设计及实现28-35
  • 3.2.1 基因信号建模28-29
  • 3.2.2 异质性肿瘤样品的HMM29-31
  • 3.2.3 SNP arrays信号的参数估计算法31-35
  • 3.3 模拟数据的产生35
  • 3.4 模拟数据的检测结果35-40
  • 3.4.1 正常细胞、肿瘤亚克隆细胞比例及平均拷贝数的估计36-37
  • 3.4.2 对肿瘤细胞拷贝数变异的检测37-39
  • 3.4.3 一致性分析39-40
  • 3.5 真实乳腺癌数据分析40-42
  • 3.5.1 BLC_B1_T45乳腺癌数据40-41
  • 3.5.2 CRL-2324乳腺癌数据分析41-42
  • 3.6 小结42-43
  • 第四章 基于成对NGS数据的肿瘤亚克隆比例及基因变异检测43-53
  • 4.1 介绍43-44
  • 4.2 SAPHH方法流程44-47
  • 4.2.1 CBS 分段44-45
  • 4.2.2 确定LRR基线45
  • 4.2.3 高可信度基因片段的检测45-47
  • 4.2.4 全基因组信号分析及模型选择47
  • 4.3 模拟数据的产生47-48
  • 4.4 结果与讨论48-50
  • 4.4.1 肿瘤亚克隆变异基因型的检测结果48-49
  • 4.4.2 估计肿瘤亚克隆基因变异和比例的性能49-50
  • 4.5 小结50-53
  • 第五章 总结与展望53-57
  • 5.1 工作总结53-54
  • 5.2 未来工作展望54-57
  • 参考文献57-62
  • 致谢62-63
  • 在读期间发表的学术论文与取得的研究成果63

【共引文献】

中国期刊全文数据库 前10条

1 陈诚;杨军;董坚;;单细胞测序技术在肿瘤基础研究中的应用[J];重庆医学;2014年32期

2 刘岩;谭晓洁;苏彤;杜琰;侯建国;曹广文;;肾细胞癌进化发育中的关键分子事件[J];第二军医大学学报;2014年12期

3 罗少堂;胡利平;聂胜洁;柳海涛;史斌;李安;罗瑛;唐文如;;SNPs在个体识别与表型预测中的研究进展[J];中国法医学杂志;2014年06期

4 张o,

本文编号:959534


资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/959534.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户09a07***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com