基于高通量测序数据的基因组变异检测方法研究

发布时间:2020-02-10 03:35
【摘要】:近十年来,高通量测序技术迅猛发展,个人基因组测序已经在基础医学研究、临床诊疗、健康管理、新药研发等领域得到广泛应用,极大地推动了相关领域的发展。由于个人基因组测序数据具有碎片化、规模巨大、高度复杂等特点,对其分析面临巨大的挑战。基因组变异是指不同个体的DNA序列之间的差异,基因组变异决定不同个体之间表型的差异以及多种疾病。从个人基因组测序数据中准确地检测各种不同类型的基因组变异对于个人基因组测序在不同领域的广泛应用具有重要的意义。基于高通量测序数据的基因组变异检测问题已成为计算机科学和生物信息学领域的研究热点与难点问题。围绕针对不同类型基因组测序数据的基因组变异检测问题,虽然新的算法、软件与工具层出不穷,但现有的基因组变异检测方法仍存在准确率较低的问题,大大限制了个人基因组测序在不同领域的广泛应用。本文拟重点面向肿瘤—正常配对样本基因组测序数据和家系基因组测序数据,针对几种难于检测的基因组变异,研究相应的检测方法,提高检测准确率。本文的主要内容如下:(1)针对现有的基于reads深度信息的拷贝数变异检测方法对reads深度分布无法准确建模的问题,研究基于负二项回归的reads深度概率模型,有效处理reads深度分布的过离散问题,同时准确体现GC含量和Mappability对reads深度的影响。该模型可以应用于单样本基因组拷贝数变异检测、群体基因组拷贝数变异检测、肿瘤—正常配对样本基因组拷贝数变异检测、家系基因组拷贝数变异检测。(2)针对现有的肿瘤—正常配对样本基因组拷贝数变异检测方法无法同时检测生殖系拷贝数变异和体细胞拷贝数突变以及检测准确率较低的问题,研究基于隐马尔可夫模型的肿瘤—正常配对样本基因组拷贝数变异检测方法。该方法将肿瘤细胞和正常细胞在基因组同一位置的拷贝数状态的组合定义为隐藏状态;根据基于β—二项分布的等位基因频率概率模型和基于负二项回归的reads深度概率模型计算输出概率,且在输出概率的计算过程中利用了肿瘤样本的不纯净性和肿瘤细胞染色体呈非整倍性的特征;根据生殖系拷贝数变异的拷贝数状态转移和体细胞拷贝数突变的拷贝数状态转移计算输出概率;利用Viterbi算法预测最可能发生的隐藏状态序列,从而检测出肿瘤细胞和正常细胞中均存在的生殖系拷贝数变异以及只有肿瘤细胞中存在的体细胞拷贝数突变。(3)针对单样本基因组拷贝数变异检测方法和群体基因组拷贝数变异检测方法在家系基因组测序数据上检测准确率较低的问题,研究基于隐马尔可夫模型的家系基因组拷贝数变异检测方法。该方法将一个三样本家系中所有样本在基因组同一位置的拷贝数状态的组合定义为隐藏状态;根据基于负二项回归的reads深度概率模型计算输出概率;根据孟德尔遗传和新突变事件两种遗传模式下的拷贝数状态遗传概率计算转移概率;利用Viterbi算法预测最可能发生的隐藏状态序列,从而检测出遗传性拷贝数变异和拷贝数新突变。(4)针对现有的家系基因组新突变(SNV和INDEL类型)检测方法无法处理reads错误比对导致检测结果假阳性率较高这一问题,研究基于梯度提升的新突变过滤方法。该方法对常用新突变检测方法产生的结果进行过滤,在确保基本不损失敏感度的前提下,显著降低错误的新突变的数量。
【图文】:

基因组,个人,增长趋势


哈尔滨工业大学工学博士学位论文病基因或易感基因,揭示疾病发生、发展的分子机制,,并在此基础上研发新的诊断和治疗方法。2015 年,美国政府启动精准医疗计划[10],其核心是对百万个人基因组进行测序,并依据个人基因组数据为患者制定个体化医疗方案,以期达到治疗效果最大化和副作用最小化的目标。除了上述国际大型基因组研究计划之外,个人基因组测序在人类疾病研究、新药研发、临床诊疗和健康管理领域也得到了广泛应用。如图 1-1 所示[11],全球测序的个人基因组以每 7 个月数量翻一番的速度在增长;目前全球已测序的个人基因组数量接近百万,未来测序的个人基因组数量仍将呈指数级增长。每个人都进行基因组测序将成为可能,人人基因组的时代即将来临。

示意图,单核,示意图


TCTCTCTCTCTCotide variantotide variant示意图single nucleotide variant变异示意图 short insertion/deletion))b) 纯合型删除变异b) Homozygous deletiond) 纯合型插入变异d) Homozygous insertion
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:Q811.4

【相似文献】

相关期刊论文 前10条

1 朱岗昆;;变异分析法在气象纪录上之应用[J];气象学报;1942年Z1期

2 林洪;统计变异分析的方法论研究[J];当代财经;1996年05期

3 韩庆安;张贵军;许玉静;胡自然;吴秀楼;郑丽;赵铁柱;杨汉春;;河北省规模猪场猪生殖与呼吸综合征病毒的变异分析[J];中国兽医科学;2009年10期

4 邱昌庆;日本猪和反刍动物瘟病毒基因变异分析[J];畜牧兽医科技信息;2001年02期

5 何桢,李国春,石金桥;工序质量分析与控制中的多变异分析方法[J];系统工程理论与实践;2000年05期

6 彭晓楠;;统计过程控制中的多变异分析方法研究[J];制造业自动化;2010年01期

7 袁东波;汤德元;黄涛;徐建;李春燕;王彬;;突发高热病猪场猪繁殖与呼吸综合征病毒的检出及变异分析[J];黑龙江畜牧兽医;2010年01期

8 韩庆安;许玉静;刘红;郑丽丽;杨刚;尹克勇;张得亮;王革新;;2004-2009年河北省规模猪场猪繁殖与呼吸综合征病毒(PRRSV)变异分析[J];中国动物检疫;2010年07期

9 肖尊安,武菊英,孙振元;低能碳离子注入野牛草种子的变异分析[J];北京师范大学学报(自然科学版);2004年04期

10 王娇;赵泽坤;王坤;孙继国;;猪繁殖与呼吸综合征病毒河北地方株ORF3基因的克隆及变异分析[J];广东畜牧兽医科技;2010年01期

相关会议论文 前10条

1 张凤华;夏平安;崔保安;张红英;杨霞;党占国;;河南株约氏乳杆菌的分离鉴定及变异分析[A];第四届第九次全国学术研讨会暨饲料和动物源食品安全战略论坛论文集(上册)[C];2008年

2 韩庆安;许玉静;胡自然;吴秀楼;刘红;郑丽;李志民;李同山;杨汉春;;2004-2007年河北省规模猪场猪繁殖与呼吸综合征病毒(PRRSV)变异分析[A];中国畜牧兽医学会2009学术年会论文集(下册)[C];2009年

3 陆志檬;张欣欣;;乙肝病毒变异与临床[A];中华医学会第七次全国感染病学术会议论文汇编[C];2001年

4 刘传木;朱永耕;王俊文;刘丽香;苏唏;;100例正常人心率变异分析[A];职工医院医学理论与实践[C];1998年

5 王娇;赵泽坤;孙继国;王金凤;张岭岭;;猪繁殖与呼吸综合征病毒河北地方株ORF3基因的克隆及变异分析[A];中国畜牧兽医学会2009学术年会论文集(下册)[C];2009年

6 汤德元;赵启祖;李春燕;刘霞;邹兴启;范运峰;朱永兴;;猪繁殖与呼吸综合征病毒ORF5基因的变异分析[A];中国畜牧兽医学会养猪学分会2009年学术年会“回盛生物”杯全国养猪技术论文大赛论文集[C];2009年

7 汤德元;赵启祖;李春燕;刘霞;邹兴启;范运峰;朱永兴;;猪繁殖与呼吸综合征病毒ORF5基因的变异分析[A];第四届中国畜牧科技论坛论文集[C];2009年

8 李志杰;丁壮;高恩鹏;;猪繁殖与呼吸综合征病毒JL/07/SW株的分离鉴定及变异分析[A];中国畜牧兽医学会动物传染病学分会第三届猪病防控学术研讨会论文集[C];2008年

9 张兴;王云云;车代弟;;哈尔滨市不同生境下紫丁香形态特征及变异分析[A];中国观赏园艺研究进展(2010)[C];2010年

10 冯荣;焦继霞;;飞行员心率变异的应用研究[A];第三届心脏学会、第六届心功能学会及心功能杂志创刊10周年学术会议论文摘要[C];1996年

相关重要报纸文章 前2条

1 记者 胡德荣;首张中国人群拷贝数变异图谱制成[N];健康报;2012年

2 本报记者 胡嵘;《好奇害死猫》拷贝增至180多个[N];中国电影报;2006年

相关博士学位论文 前10条

1 刘永壮;基于高通量测序数据的基因组变异检测方法研究[D];哈尔滨工业大学;2016年

2 黄树嘉;基于组装的人类基因组群体结构性变异研究[D];华南理工大学;2015年

3 周亚晶;基因变异关联分析的统计方法研究与应用[D];哈尔滨工业大学;2016年

4 闫奕源;鸡基因组遗传变异的检测分析和蛋鸡基因组选择的研究[D];中国农业大学;2017年

5 贾万忠;带科主要绦虫45W和14ku/18ku基因变异的研究[D];中国农业科学院;2003年

6 刘妍;乙型肝炎病毒基本核心启动子/前核心区和逆转录酶区变异的临床特点与意义研究[D];中国人民解放军军事医学科学院;2012年

7 李平;乙型肝炎病毒逆转录酶区A181T/V变异的相关研究[D];南方医科大学;2013年

8 董延峰;多变异源的工序控制方法研究[D];天津大学;2008年

9 张静;山东省HIV-1主要流行株基因变异和人群HIV-1抗性基因的研究[D];山东大学;2004年

10 赵春霞;基因序列变异分析的方法研究及其临床应用[D];中国科学院研究生院(大连化学物理研究所);2004年

相关硕士学位论文 前10条

1 任永永;基于第二代测序技术的人类基因组插入/缺失变异检测算法评估及检测平台搭建[D];昆明理工大学;2015年

2 宗慧;前列腺癌拷贝数目变异的生物信息学分析[D];苏州大学;2015年

3 卜涛;潜在类别模型在稀有变异关联分析中的应用研究[D];广东药学院;2015年

4 鲁林松;基于BLE和安卓的心率变异分析显示系统的研究与实现[D];成都理工大学;2015年

5 迟洋;基于变异分析的软件错误定位方法研究[D];哈尔滨工业大学;2016年

6 张晓东;基于特征挖掘与SVM集成的基因组缺失变异检测[D];北京化工大学;2016年

7 张素粉;2010-2015年广州地区HCoV流行病学特征及OC43亚型变异分析[D];中山大学;2016年

8 李亚青;猪流行性腹泻病毒ORF3基因的变异分析及其荧光定量RT-PCR检测方法的研究[D];四川农业大学;2016年

9 沈可;基于SVM的蛋白质可溶性预测及HBV中变异的模式分析研究[D];苏州大学;2016年

10 翟路峰;猪流行性腹泻病毒基因变异分析以及间接ELISA诊断方法的建立[D];南京农业大学;2015年



本文编号:2578044

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/2578044.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5c3c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com