基于下一代测序的肿瘤基因组拷贝数变异检测算法研究
发布时间:2018-02-04 02:49
本文关键词: 癌症 拷贝数变异 下一代测序技术 隐马尔科夫模型 生物信息学 出处:《中国科学技术大学》2016年博士论文 论文类型:学位论文
【摘要】:癌症的发生和发展规律一直是癌症相关研究的焦点。癌症基因组拷贝数变异检测是发现癌症相关基因的基础,因此成为很多癌症研究的首要任务。随着高通量DNA测序技术的发展,癌症基因组学研究的实验手段已经从传统的比较基因组杂交和单核苷酸多态性等阵列技术逐步过渡到下一代测序技术。由于数据量庞大,高效分析下一代测序数据成为相关领域的一个难点。另外,肿瘤样本通常存在正常细胞污染、基因组非整倍性和肿瘤异质性等复杂问题。这些问题都会对测序数据产生不可忽视的干扰,从而严重影响拷贝数变异检测的准确性。因此,癌症基因组拷贝数变异检测算法需有效解决上述关键问题。本文通过对肿瘤下一代测序数据进行分析和总结,设计和开发出几种不同应用背景下基因组拷贝数变异检测的算法和工具,主要的研究内容和成果总结如下:1.提出了一种从非成对肿瘤全基因组测序数据中检测拷贝数变异和杂合性缺失的算法CLImAT,可自动修正正常细胞污染和肿瘤非整倍性对全基因组测序数据产生的影响。首先,该算法采用了有效的信号校正和标准化过程,包括一种非参数方法校正读深信号中的GC和mapppability偏差,以及一种分位数标准化方法校正等位基因频率偏差。其次,该算法中引入了一种新颖的隐马尔科夫模型用于联合分析读深和等位基因频率,并对正常细胞污染和肿瘤倍性进行了参数化建模,从而可靠检测肿瘤基因组拷贝数变异和杂合性缺失。最后,通过在多个数据集上的性能评估,表明CLImAT在处理复杂肿瘤样本的全基因组测序数据时具有明显优势。2.提出了一种从异质性肿瘤全基因组测序数据中检测不同克隆群体基因组拷贝数变异和杂合性缺失的算法CLImAT-HET。该算法考虑了肿瘤异质性对全基因组测序数据的影响,并采用阶乘隐马尔科夫模型对数据进行分析。CLImAT-HET的优势主要体现在以下三个方面:1)对多个克隆群体产生的混合信号进行合理分解,明显提高了拷贝数变异和杂合性缺失的检测性能;2)对细胞比例较小的亚克隆群体中的基因组变异更加敏感;3)能估计每个肿瘤克隆群体的细胞比例。3.提出了一种利用肿瘤和正常样本的成对外显子测序数据检测拷贝数变异的算法CloneCNA。该算法采取有效的数据预处理方法,减轻了正常细胞污染、肿瘤基因组非整倍性和肿瘤异质性等问题对外显子测序数据的影响。CloneCNA中也采用了阶乘隐马尔科夫模型用于分析肿瘤克隆群体及其基因组拷贝数变异和杂合性缺失,并对正常细胞污染、肿瘤倍性和肿瘤异质性进行了参数化建模,从而可靠检测出不同克隆群体的拷贝数变异。此外,该算法利用贝叶斯信息准则评估不同肿瘤克隆群体数目下模型的复杂度,并选取最优的克隆群体数目。通过在多个测试数据集上的性能评估,表明CloneCNA具有优异的拷贝数变异检测性能。4.设计了一种从外显子测序数据中检测拷贝数变异并对其进行注释的在线生物信息学工具DeAnnCNV。该工具能同时处理多个样本的外显子测序数据,准确检测出拷贝数变异并提供详细的可视化结果。此外,该工具中集成了现有的生物信息学数据库资源,可对出现在多个样本中的拷贝数变异进行多方面注释并提供有用的功能信息。
[Abstract]:This paper presents a novel algorithm and tool for detecting genomic copy number variation and loss of cancer genome by analyzing and summarizing the sequence data of cancer genome .
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:R730.4
【参考文献】
相关期刊论文 前9条
1 田李;张颖;赵云峰;;新一代测序技术的发展和应用[J];生物技术通报;2015年11期
2 陈万青;郑荣寿;曾红梅;邹小农;张思维;赫捷;;2011年中国恶性肿瘤发病和死亡分析[J];中国肿瘤;2015年01期
3 杜玲;刘刚;陆健;刘丑生;哈福;;高通量测序技术的发展及其在生命科学中的应用[J];中国畜牧兽医;2014年12期
4 张o,
本文编号:1489100
本文链接:https://www.wllwen.com/yixuelunwen/zlx/1489100.html