当前位置:主页 > 理工论文 > 生物学论文 >

基于第三代测序数据的结构变异检测方法研究

发布时间:2021-11-02 07:13
  第三代测序技术的飞速发展使人们能够通过少量较长的读段推测个体的完整染色体序列,同时推动了基因变异检测的发展。结构变异的准确检测对人类遗传多样性和临床疾病的研究至关重要。传统研究结构变异的方法是将手工提取的变异特征进行参数统计来判别结构变异位置和类型。用于结构变异检测的基因序列表达信息孤立的文本信息,且变异特征需要手工提取,受人为因素影响较大,检测结果存在片面性和局限性。具体体现为准确度和敏感度不尽如人意。因此,本课题基于第三代测序数据提出一种以序列比对图像为输入的检测结构变异的深度学习方法,用以提高结构变异检测的精准性,主要工作归纳为以下三个方面:(1)将基因序列映射为序列比对图像的研究。解析基因序列和基准变异数据,研究基因序列映射到序列比对图像过程中至关重要的映射区域选择、图像坐标设计、变异特征提取计算以及色彩模式表达等问题。基因序列表达的文本信息相互孤立、晦涩难懂且存在一定误差,以序列比对图像的形式呈现在整个结构变异检测过程中,既能形象具体地展现原始比对信息,又能清晰呈现变异区域不同于其他区域的特征,更能为后续的深度学习图像分类模型提供高效可依赖的输入。(2)将序列比对图像输入卷积... 

【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校

【文章页数】:75 页

【学位级别】:硕士

【部分图文】:

基于第三代测序数据的结构变异检测方法研究


图1-1结构变异基本类型??Fig.1-1?Basic?types?of?structural?variations??

序列,测序,缺失,序列


?北京化工大学硕士学位论文???1.3研究现状??1.3.1常见检测策略??包括人类个体在内的二倍体个体在染色体特定的区域内有三种基因数据比对情??况:一对等位基因均与参考基因一致,则该区域不存在变异;一对等位基因中只有一??个基因与参考基因相比存在差异,则该区域存在杂合变异;一对等位基因与参考基因??都有区别,则该区域存在纯合变异;纯合变异和杂合变异又统称为变异。图1-2给出??了缺失变异的这三种示例。??参考基因组?????一 ̄ ̄二?splil-read?:"? ̄Xplit-rpari?????N源染色体1?…—?二?—-.....一??同源染色体2????????非缺失?杂合缺失?纯合缺失??图1-2缺失变异特征:全比对测序序列,片段分裂比对,以及测序数据覆盖深度??Fig.1-2?Signals?for?deletion?variations:?fully-mapped?reads,?split-read,?and?read?depth??缺失结构变异检测需要使用结构变异检测方法来区分变异和非变异的区域。基于??第三代测序数据的结构变异检测策略主要有四种:测序片段分裂比对(Split-read)?[14】,??测序数据覆盖深度分析(Read?Depth)?[15],CIGAR字段的D标识[161,以及序列拼接??(Assembly)間。前三种方法通常用于检测结构变异,而序列拼接通常与图论算法相??关,不作为本课题的研究内容。??检测结构变异主要关注的是测序序列能否正常对比。使用诸如111111丨111叩2[18】这样??的对工具将来自个体基因组的测序序列

序列,测序,序列,片段


?第一章绪论???的示例。将测序片段分裂比对策略用于第三代测序数据结构变异检测的典型工具有??sniffles[19]、PBHoney-Tails[2〇]、SMRT-SV[21]等。??\?\?缺失变异?/?/??\?\?/?/??\?\?/?/??\?\?z?/??个体糊绀?'?、、’?^???'?全比对测序序列?测序片段分裂比对??Fig.1-3?Fully-mapped?read?and?split-read??图1-3全比对测序序列以及测序片段分裂比对??测序序列比对到参考基因组上之后,对数据覆盖深度的分布进行分析。一般情况??下,测序序列的分布大致均匀。对于参考基因组的一个位点,数据覆盖深度等于覆盖??该位点的测序序列数。很直观地,当存在缺失变异时,该区域的平均数据覆盖深度是??明显小于预期的。因此,数据覆盖深度也是一个常用的查找缺失变异的特征。图1-4??展示了缺失变异区域在数据覆盖深度上的差异。目前,sniffles、PBHoney-Spots[2G^??常用的基于测序数据覆盖深度分析的第三代测序数据缺失变异检测工具。??测序序列??参考苺因组??杂合变异?纯合变异??图1-4缺失变异的测序数据覆盖深度分析??Fig.?1-4?Read?depth?analysis?of?deletion?variation??将测序序列比对到参考基因组上之后,生成BAM比对文件。BAM比对文件中??的第六列为CIGAR字段,CIGAR字段蕴含着丰富的变异信息。对于缺失变异来说,??标识D意味着测序序列比对到参考基因组上时,存在缺失碱基,根据D标识前面的??数字可知缺失碱基的长

【参考文献】:
期刊论文
[1]人工神经网络中损失函数的研究[J]. 任进军,王宁.  甘肃高师学报. 2018(02)
[2]基于卷积神经网络的遥感图像分类研究[J]. 李亚飞,董红斌.  智能系统学报. 2018(04)
[3]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军.  计算机学报. 2017(06)



本文编号:3471579

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3471579.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户20fba***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com