当前位置:主页 > 理工论文 > 生物学论文 >

基于孤立森林和全变分的拷贝数变异检测方法

发布时间:2020-08-25 00:13
【摘要】:在第二代测序技术广泛应用之后,人类基因组测序数据以爆炸式的速度飞速增长。虽然第二代测序技术的广泛使用为相关研究累积了大量的测序数据,但是得到这些测序数据只是获取基因组中有效信息的基础,研究的最终目的是要发现这些碱基对的排列组合与个体表型和癌症疾病的相关关系。通过分析和研究基因组数据有助于人们了解人类基因的工作原理。第二代测序数据具有片段短,复杂度高等特点,这对基因组数据分析工作提出了更高的挑战。人类基因组的变异形态多种多样,变异的长度从单个碱基的水平到染色体水平不等,如何准确检测出变异类型以及相应的变异区域是基因组数据分析中的重点和难点。目前,针对不同的变异类型,需要利用基因组数据中的不同信息来进行检测,至今已有各种各样的检测算法被研究出来。在人类基因组的各种变异形态中,拷贝数变异被相关研究证实与癌症疾病具有密切的相关性。因此,本文则主要聚焦于拷贝数变异检测的相关研究中。在现有的针对单样本的拷贝数变异检测算法中,如果样本是高覆盖度和高肿瘤纯度的,这些算法已经能够取得不错的检测结果。然而,在低覆盖度和低肿瘤纯度下,这些算法在检测精确率,召回率和_1F分数等度量指标上表现较差,检测结果并不理想。本文主要针对单样本、低覆盖度和低肿瘤纯度的测序数据,设计相关拷贝数变异检测算法,研究如何在这些数据上给出较高的检测精确率和召回率,同时保证算法的计算效率。本文首先提出了一种基于孤立森林的拷贝数变异检测方法CNV_IF,该方法利用树模型的非线性映射关系以及集成学习算法的优点,有效地刻画了每个滑动窗中RD信息的异常性。该算法在训练的过程中,每个区域异常值的大小与RD值在样本中的含量和排序有关,与其绝对差值无关,有效地解决了拷贝数变异检测中的数据不平衡问题。由于CNV_IF在训练过程中未曾考虑相邻位置的相关性问题,本文进一步提出了一种结合了孤立森林算法和全变分模型的拷贝数变异检测方法CNV_IFTV,该方法结合了两者的优点,将滑动窗相邻位置的相关关系加入到模型中,同时去除掉了区间内部的噪声信号,使得异常分数作为RD值异常性的度量指标更加可靠。对于原始的孤立森林算法而言,阈值是提前设定好的,没有针对特定数据集进行优化。对于拷贝数变异检测问题,本文通过改进的最大类间方差模型来自动选取异常分数阈值。最后,本文还对各个变异区域的拷贝数值进行了估计。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4;TP309.3
【图文】:

测序技术,测序,单分子,第二代


西安电子科技大学硕士学位论文2图1.1 第二代测序平台随着测序技术的不断改进,第三代测序技术,即单分子测序技术,也逐渐开始崛起[6]。目前常用的测序平台有:Naropore 的单纳米孔测序平台,和 Pacific Biosciences的单分子实时测序平台。第三代测序技术在测序的过程中不需要采用 PCR 扩增技术即可完成对整条 DNA 链的测序工作,因此不存在 GC 偏差,这为后续变异检测提供了更加可靠的数据来源。第三代测序技术具有 reads 长和能直接检测碱基修饰等优点。但由于测序错误率高以及设备成本高等缺点,目前还未被大规模使用。常见测序平台性能对比如表 1.1[13]所示。表1.1三代测序平台比较方法名称 读段长度 精度每次运行产生 reads 数成本/百万碱基优劣Sanger(第一代)400~900bp 99.9% 小时级 数千美元 成本超高Illumina(第二代)50~300bp 99

拷贝数,方法


种基于 RD 信息的拷贝数变异检测算法。下文列出了当前最优的一批拷贝数变异检测算法和最新的一些研究进展。图1.2 基于不同比对信息的拷贝数变异方法最早提出的基于 RD 信息的拷贝数检测方法包括 SegSeq[23],RDXplorer[24]和CNV-seq[25]。SegSeq 使用循环二进制分割算法(CBS)[26]来分割肿瘤-正常样本对的RD 值比率,进而区分出正常区域和变异区域。为了避免基因组中重复区域的多重映射模糊性,SegSeq仅对样本中的能比对到参考序列唯一位置的reads进行处理。然而,这种检测方法不能检测同源区域中的拷贝数变异。RDXplorer 分别检测多样本组中每单个样本上的拷贝数缺失和拷贝数扩增,然后,对多组样本中的检测结果进行比较以推断最终的拷贝数变异区域。CNV-seq 方法的灵感来自于 aCGH 方法,它利用正常样本和肿瘤样本之间的 RD 值的比率来建立一个统计模型,然后根据比率的差异推断出发生拷贝数变异的区域。在接下来的几年中

拷贝数,检测方法,样本


从输入样本的角度来看,目前的拷贝数变异检测方法大致有三种类型:基于单样本的检测方法,基于肿瘤-正常样本对的检测方法以及基于多样本的检测方法。图1.3 基于不同样本的拷贝数变异检测方法对于常见的拷贝数变异检测方法,某些方法适用于单样本数据,某些方法适用于肿瘤-正常样本对数据,而另一些方法则适用于多样本数据。这些方法需要不同的输入数据,在实际应用中也有不同的用途。对于个人医疗试验中的基因组分析来讲,由于测序成本压力较大,通常难以获得配对样本或多个样本。在这种情况下,基于单样品的拷贝数变异检测算法更受大家青睐。目前这种类型的方法包括 CNVnator[28],ReadDepth[45],CLImAT-HET[46],FREEC[47]和 iCopyDAV[48]。理论上

【相似文献】

相关期刊论文 前10条

1 王红娟;侯宏卫;王安;胡清源;;mtDNA拷贝数的生物学意义及其调控[J];中国生物化学与分子生物学报;2017年06期

2 魏祥勤;;奇妙的6174[J];中学生数理化(七年级数学)(配合人教社教材);2017年Z2期

3 郑洞天;;中国电影如何走向世界现状和展望[J];电影评介;1988年06期

4 邱荣国,谢彦博,卢文筠;MT-5细胞表达HBsAg的进一步研究[J];病毒学报;1989年01期

5 李玉亮;;基于数据库虚拟化技术的拷贝数据安全与管理[J];保密科学技术;2018年02期

6 刘誉;马垎楠;;线粒体DNA拷贝数与疾病[J];中华老年多器官疾病杂志;2016年06期

7 李霞莲;苗晋华;;游离线粒体DNA拷贝数与疾病的研究进展[J];实用医技杂志;2016年10期

8 James W.Kijas;晋大鹏;;牛基因组拷贝数变异分析[J];中国畜牧兽医;2011年11期

9 黄世会;冉雪琴;王嘉福;潘华;李蓉蓉;;5个猪品种3个拷贝数变异区的多态性分析[J];中国畜牧兽医;2016年03期

10 林勇;NGUVE GILEAD NGUVE;;拷贝数变异检测算法优化研究[J];软件;2019年03期

相关会议论文 前10条

1 袁田;赵邢力;张丽霞;李庆华;田征;唐克晶;王迎;林冬;李巍;刘兵城;周春林;王敏;王建祥;秘营昌;;成人急性淋巴细胞白血病基因组拷贝数变异分析[A];第四届全国血液肿瘤学术大会暨第七届全国淋巴肿瘤诊治进展研讨会论文汇编[C];2014年

2 王栋;张元女;王明月;夏继光;程立新;李朋飞;李宾;王晨光;郭政;;基于拷贝数数据揭示基因在癌基因组中广泛扩增[A];中国的遗传学研究——遗传学进步推动中国西部经济与社会发展——2011年中国遗传学会大会论文摘要汇编[C];2011年

3 徐强;张学军;杨森;;拷贝数变异(CNVs)的研究进展[A];中华医学会第14次全国皮肤性病学术年会论文汇编[C];2008年

4 高晶;何玺玉;杨尧;吴虹林;;不明原因智力发育迟滞的拷贝数变异研究[A];中华医学会第十五次全国医学遗传学学术会议暨中国医师协会医学遗传医师分会第一届全国学术会议暨2016年浙江省医学遗传学年会论文汇编[C];2016年

5 张耀;李俊平;王瑞元;;AMY1基因拷贝数变异在青少年BMI中的研究进展[A];2018年中国生理学会运动生理学专业委员会会议暨“科技创新与运动生理学”学术研讨会论文集[C];2018年

6 季涛云;吴晔;王静敏;肖静;冷雪荣;李洁;赵海娟;杨艳玲;秦炯;吴希如;姜玉武;;不明原因脑发育迟缓/智力障碍患儿染色体亚端粒区拷贝数异常的研究[A];遗传学与社会可持续发展——2010中国青年遗传学家论坛论文摘要汇编[C];2010年

7 刘长阳;;线粒体DNA拷贝数与口腔恶性肿瘤患者预后相关[A];2017全国口腔颌面——头颈肿瘤外科学术研讨会论文集[C];2017年

8 张彦春;马yN楠;卜定方;刘辉;夏昌宇;朱赛楠;张英;郑雪飞;裴佩;王松涛;许玉凤;潘虹;戚豫;;线粒体DNA 4977bp的缺失及其拷贝数与线粒体病的临床表现的关系[A];第九届全国遗传病诊断与产前诊断学术交流会暨产前诊断和医学遗传学新技术研讨会论文集[C];2014年

9 许沈华;牟瀚舟;葛海鹏;顾琳慧;朱赤红;刘祥麟;;高转移卵巢癌表达谱差异基因与染色体拷贝数变异相关性研究[A];中国细胞生物学学会第九次会员代表大会暨青年学术大会论文摘要集[C];2007年

10 刘洋;张博;陈璨;卢杰;司红起;马传喜;;小麦低分子量麦谷蛋白拷贝数变异分析[A];第十届全国小麦基因组学及分子育种大会摘要集[C];2019年

相关重要报纸文章 前3条

1 记者 胡德荣;首张中国人群拷贝数变异图谱制成[N];健康报;2012年

2 记者 瞿剑;DNA序列拷贝数变化决定黄瓜性别[N];科技日报;2015年

3 本报见习记者 辛雨 记者 李晨阳;“两件事”让猕猴桃变成“维C大王”[N];中国科学报;2018年

相关博士学位论文 前10条

1 黄涛;鸡蛋用性状相关拷贝数变异位点筛选及作用机理研究[D];华中农业大学;2019年

2 谭仁杰;基于基因组测序数据的拷贝数变异检测方法研究[D];哈尔滨工业大学;2017年

3 周志立;鲁棒且可区分的拷贝检测技术研究[D];湖南大学;2014年

4 玉崧成;维生素D代谢通路基因多态性、拷贝数及甲基化变异与2型糖尿病的关系[D];郑州大学;2018年

5 许敏;微囊藻伪空胞基因丛的研究[D];中国科学院研究生院(水生生物研究所);2006年

6 李鑫磊;肺癌全基因组拷贝数变异分析[D];上海交通大学;2012年

7 徐殊;RAAS、Apelin/APJ及MtDNA拷贝数与冠状动脉旁路移植术后新发房颤的相关性研究[D];第四军医大学;2017年

8 袁田;成人急性淋巴细胞白血病基因组拷贝数变异分析[D];北京协和医学院;2013年

9 张岱;胃癌基因组DNA拷贝数改变和miRNA表达谱研究[D];北京协和医学院;2008年

10 易国强;利用二代测序挖掘鸡拷贝数变异及影响饲料效率的候选基因[D];中国农业大学;2015年

相关硕士学位论文 前10条

1 于家傲;基于孤立森林和全变分的拷贝数变异检测方法[D];西安电子科技大学;2019年

2 贾君麟;核糖体DNA拷贝数变异与六价铬暴露的关系研究[D];浙江省医学科学院;2019年

3 张骁;牦牛全基因组拷贝数变异图谱[D];兰州大学;2017年

4 孙铭;基于CNA的拷贝数显著性检测算法的研究与实现[D];武汉理工大学;2018年

5 王州;基于重测序研究贵州地方猪种基因组拷贝数变异[D];贵州大学;2019年

6 陶亦然;基于机器学习的染色体拷贝数变异致病性预测工具[D];华东师范大学;2019年

7 刘文强;整合方法显著性地提高拷贝数变异鉴定的精确性[D];华东师范大学;2018年

8 郑红;16例先天性肺囊性疾病患儿全基因组拷贝数变异分析[D];重庆医科大学;2017年

9 刘魏魏;基于二代测序数据的拷贝数变异集成检测[D];北京化工大学;2018年

10 刘珍;基于PCF的拷贝数预处理系统的设计与实现[D];武汉理工大学;2017年



本文编号:2803017

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2803017.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户da029***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com