基于神经网络集成的基因组结构变异检测研究
发布时间:2017-05-22 13:12
本文关键词:基于神经网络集成的基因组结构变异检测研究,由笔耕文化传播整理发布。
【摘要】:随着人类全基因组测序技术的不断更新,测序成本在不断下降,测序速度不断地提升,随之而来的海量数据,使生物信息学处理这些数据变得越来越迫切,如何更加精准的检测和发现基因组结构变异是研究人员面临的主要困难。本文从基因组结构变异的检测流程入手,主要工作分为四个部分:1.针对真实数据中存在的基因组结构变异的不确定性,本文设计了一种利用仿真数据的检测流程,流程中将千人基因组中的真实变异加入到参考基因组中形成变异的个体,从而使得仿真数据更加接近真实数据。实验结果表明,新的仿真流程生成的数据更加接近真实数据,对检测工具的评价和进一步研究有着重要的意义。2.通过仿真数据对基因组结构变异检测工具Pindel、 SAMtools、和VarScan对基因组结构变异的检测结果研究发现:(1)不同的检测工具对于不同种类和不同长度的基因组结构变异检测结果的敏感性和准确性均有不同;(2)尽管检测工具Pindel的综合性能优秀,但随着测序覆盖率的提高,Pindel检测indel的结果中会出现假发现的现象;(3)检测工具在判断基因组结构变异时往往需要人为设定检测阈值参数,这给检测结果带来不确定性。3.针对Pindel基因组结构变异检测工具在检测结果中的假发现情况,本文提出了一种新的基于神经网络集成算法的P-A检测策略,该方法将神经网络集成算法Adaboost与检测工具Pindel有效的融合,提高了检测结果的准确性。实验结果表明,基于神经网络集成方法的P-A检测策略可以有效地降低基因组结构变异的假发现率,提高基因组结构变异检测工具的敏感性。4.针对检测者未能充分利用现存的人类已经测得的变异检测未知个体变异导致的基因组结构变异检测结果的不准确,提出了一种基于神经网络集成方法直接检测基因组结构变异的策略,该策略不需要检测工具的辅助,仅仅利用神经网络模型来判别是否存在基因组结构缺失。实验结果表明,基于神经网络集成检测基因组结构缺失的策略可以有效的确定基因组缺失的存在。
【关键词】:神经网络集成 基因组结构变异 特征提取
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q811.4;TP183
【目录】:
- 摘要5-7
- ABSTRACT7-15
- 第一章 绪论15-21
- 1.1 课题概述及研究目的和意义15-17
- 1.1.1 课题背景15-16
- 1.1.2 课题目的和意义16-17
- 1.2 国内外研究现状17-18
- 1.3 本文主要内容18
- 1.4 论文结构及内容安排18-21
- 第二章 变异检测流程设计和检测策略分析21-33
- 2.1 结构变异检测流程设计21-23
- 2.1.1 变异检测流程及分析21-22
- 2.1.2 仿真个体结构变异检测流程设计22-23
- 2.2 检测文件格式分析23-27
- 2.2.1 VCF格式文件23-24
- 2.2.2 FASTQ格式文件24-25
- 2.2.3 SAM格式文件25-27
- 2.3 主流检测策略分析27-31
- 2.3.1 片段对检测策略(Read-pair)27-28
- 2.3.2 映射深度的策略(Read-depth)28-29
- 2.3.3 分裂片段策略(Split-read)29-30
- 2.3.4 序列拼接策略(Assembly)30-31
- 2.4 本章小结31-33
- 第三章 测序数据的模拟和基因组结构变异的检测33-53
- 3.1 测序数据的模拟和质量评估33-44
- 3.1.1 测序数据的模拟33-38
- 3.1.2 生成序列的质量评价38-44
- 3.2 基因组结构变异的检测44-50
- 3.2.1 检测工具对变异的检测及参数设置44-46
- 3.2.2 基因组结构变异检测结果及分析46-50
- 3.3 本章小结50-53
- 第四章 基于神经网络集成的P-A检测新策略53-61
- 4.1 Pindel检测算法及结果评估53-55
- 4.1.1 Pindel检测算法53-54
- 4.1.2 Pindel检测结果评估54-55
- 4.2 Adaboost算法及特征提取55-56
- 4.3 基于Adaboost的新检测策略P-A56-58
- 4.4 P-A策略检测结果评估58-60
- 4.5 本章小结60-61
- 第五章 基于神经网络算法的结构变异检测61-69
- 5.1 缺失的检测方法的设计61-64
- 5.1.1 缺失特征的获取61
- 5.1.2 检测缺失的方案61-62
- 5.1.3 特征参数的建立62-64
- 5.2 仿真实验及实验分析64-68
- 5.2.1 参数设置和缺失特征的提取64-65
- 5.2.2 不同因素对检测结果的影响65-68
- 5.3 本章小结68-69
- 第六章 结论和展望69-71
- 6.1 结论69-70
- 6.2 展望70-71
- 参考文献71-74
- 致谢74-75
- 研究成果及发表的学术论文75-76
- 作者及导师简介76-77
- 学位论文答辩委员会决议书77-78
【参考文献】
中国期刊全文数据库 前1条
1 高敬阳;齐飞;管瑞;;基于高通量测序技术的基因组结构变异检测算法[J];生物信息学;2014年01期
本文关键词:基于神经网络集成的基因组结构变异检测研究,,由笔耕文化传播整理发布。
本文编号:385803
本文链接:https://www.wllwen.com/yixuelunwen/swyx/385803.html