基于高能量测序数据的基因组拼接方法研究

发布时间:2020-08-25 06:50
【摘要】:高通量测序数据的基因组测序拼接是基因组学的核心内容。高通量测序数据具有通量高、reads长度短、错误率高的特点,对传统的基于Sanger数据的拼接方法提出了挑战,因此许多优秀的拼接方法应运而生。这些拼接方法主要基于交叠图和De Bruijn图,但其reads交叠长度或k-mer大小固定,这不利于处理拼接过程中出现的分叉(branches)和空隙(gaps),并且这些方法并未充分利用配对数据和单端数据来处理分叉结构。本文针对现有方法的不足,提出基于多重启发式的配对数据引导的拼接方法PERGA。拼接结果(称为contigs)中通常会出现一些拼接错误,目前有两类拼接错误识别方法:基于参考序列的检测方法(Reference-based approach)和无参考的检测方法(De novo approach)。前者未考虑结构变异的影响,后者在处理覆盖深度不均匀的数据时容易引入错误识别,因此这两类识别方法都存在一定的偏差(biases)。本文针对现有拼接错误识别方法的不足,提出无偏的(unbiased)拼接错误检测方法mis Finder。本文的主要内容包括:(1)基于支持向量机的分叉结构处理方法基因组拼接方法主要采用基于交叠图和De Bruijn图,并且在图中通常会出现分叉结构(branches),每个分叉对应一条路径(path),基因组拼接需要从众多候选路径中识别正确的路径。测序碱基错误(sequencing errors)和基因组的重复序列(repeats)是出现分叉结构的两个主要原因。我们分析分叉结构,根据分叉处的reads信息,提取能够区分正确路径和错误路径的特征,建立SVM预测模型,处理由于测序错误导致的分叉。(2)基于向前查看策略的分叉结构处理方法基因组中存在许多高度相似的非精确重复序列(nonexact repeats)和短串联重复序列(short tandem repeats,如长度100 bp,相邻的两副本的间距100 bp)。这些重复序列将会在拼接过程中导致分叉。SVM预测模型只考虑分叉处及其之前较短距离的局部分叉信息,并未考虑分叉之后的信息。我们设计了向前查看的方法来处理由于非精确重复序列导致的“气泡结构”,以及由于短串联重复序列导致的分叉,分离其不同的副本,使分叉信息的处理更加准确,提高拼接结果的质量。(3)基于多重启发式的基因组拼接方法现有拼接方法采用固定的交叠长度,不能有效地处理基因组中存在的重复序列和低覆盖区域的gaps,并且未充分利用配对数据和单端数据。针对现有方法存在的不足,我们提出配对数据引导的基因组拼接方法PERGA,以便更好地使用配对数据和单端数据处理分叉结构。PERGA采用多重启发式引导拼接:i)优先使用配对数据扩展contigs,并优先考虑与contigs具有最大交叠的配对数据;ii)如果没有配对数据,则使用与contigs具有最大交叠的单端数据进行扩展;iii)在contigs的扩展过程中遇到分叉时,根据当前的contigs的数据特征,使用SVM预测模型选择路径;iv)如果路径是不能区分的,则在分叉处使用向前查看方法处理非精确重复序列和短串联重复序列。(4)无偏的基因组拼接错误识别方法由于高通量测序数据的reads长度过短,导致基因组拼接结果引入拼接错误,对下游数据分析产生不利影响。基于参考序列的检测方法将拼接结果与参考基因组之间的差异直接视为拼接错误,并未考虑结构变异的影响;无参考的检测方法通过分析比对到拼接结果上的配对reads信息的不一致特征识别错误,容易引入计算偏差。结合上述两种方法,我们提出无偏的基因组拼接检错方法mis Finder,充分利用参考序列和比对到拼接结果上的配对数据信息,根据错拼处的reads数据的多种不一致特征,更加准确地识别拼接错误。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP18;TP391.41

【相似文献】

相关期刊论文 前10条

1 王玉;王明泉;李志刚;;医学射线图像快速拼接方法研究[J];科技信息(学术研究);2007年36期

2 谢鹏;;基于贪心搜索的正射影像拼接方法[J];中国科技信息;2013年02期

3 王政良;王仲;赵飞;李霞;张俊杰;;一种微型零件的拼接方法[J];传感技术学报;2006年04期

4 徐亚明;邢诚;陈晓东;;一种基于拼接线的无人机序列影像拼接方法[J];武汉大学学报(信息科学版);2011年11期

5 鲁斌;秦瑞;李庆;陈大鹏;;车载环视拼接方法的研究[J];计算机科学;2013年09期

6 王平江;甄恒洲;;特征稀少图像的拼接方法[J];华中科技大学学报(自然科学版);2006年08期

7 王威娜;史彦丽;;无重叠的文档碎片拼接方法[J];吉林化工学院学报;2014年03期

8 孟淑英;;自动检测拼接线的无人机视频影像快速拼接方法[J];测绘通报;2013年05期

9 李蓓智;陈华江;杨建国;周虎;兰弼;;一种适用于特征稀少零件的图像精确拼接方法[J];机械设计与制造;2012年01期

10 沈建国,戴永刚;基于局部熵差的栅格地图拼接方法[J];华东师范大学学报(自然科学版);2002年04期

相关会议论文 前7条

1 王平江;甄恒洲;;特征稀少图象的拼接方法研究[A];2005年中国科协学术年会论文集第8分会场光固化与数字成像技术及其应用论文集[C];2005年

2 付跃刚;刘智颖;张磊;李萍;王志坚;;宽光束波前测量子孔径拼接方法研究[A];第三届全国信息获取与处理学术会议论文集[C];2005年

3 罗如为;陈孝威;;低重叠度图像的拼接方法[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年

4 张先勇;郝重阳;樊养余;罗冠;;医学数据体视化中一种新的轮廓拼接方法[A];第五届全国生物医学体视学学术会议、第八届全军军事病理学学术会议、第四届全军定量病理学学术会议论文汇编[C];2002年

5 袁启平;宋金泽;吴涛;;一种大视角图像的拼接方法[A];2009年中国智能自动化会议论文集(第三分册)[C];2009年

6 王华;柳朝阳;;三维公路仿真中动态公路曲面与固定地模曲面边界的连续拼接方法及实现[A];第四届全国几何设计与计算学术会议论文集[C];2009年

7 马冬梅;;大口径平面镜精确测评方法研究[A];第十四届全国光学测试学术讨论会论文(摘要集)[C];2012年

相关博士学位论文 前2条

1 朱晓;基于高能量测序数据的基因组拼接方法研究[D];哈尔滨工业大学;2015年

2 任同群;大型3D形貌测量高精度拼接方法与技术研究[D];天津大学;2008年

相关硕士学位论文 前10条

1 程浩;基于辅助立体靶标的编码光拼接方法研究[D];哈尔滨理工大学;2014年

2 张博锋;全基因组DNA测序中的片段拼接方法及其并行处理[D];中国人民解放军国防科学技术大学;2002年

3 贺晨;地形图扫描图像拼接方法的研究与实现[D];解放军信息工程大学;2008年

4 王赫;视觉测量点云数据拼接方法及关键技术研究[D];哈尔滨理工大学;2011年

5 喻英粽;基于标记约束的三维曲面拼接方法研究[D];浙江理工大学;2010年

6 付朝霞;像素级图像融合中的拼接方法研究[D];中北大学;2007年

7 姚波;城市场景照片拼接方法的研究[D];广西大学;2012年

8 庄俊东;基于数字图像处理的人民币碎片拼接方法的研究[D];上海交通大学;2010年

9 王保前;融合反射值影像和卡尔曼滤波的三维点云全局拼接方法[D];中国地质大学(北京);2013年

10 冯精武;基于三控制点的三维曲面拼接方法研究[D];浙江理工大学;2011年



本文编号:2803397

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2803397.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户440e9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com