当前位置:主页 > 理工论文 > 生物学论文 >

基于新一代测序数据的Indel检测方法研究

发布时间:2020-04-07 07:05
【摘要】:插入缺失变异是人类基因组中一种比较常见的变异形式,准确地检测插入缺失变异发生的位置及大小对疾病的预测有着至关重要的作用。随着新一代测序技术的发展,越来越多检测插入缺失变异的算法也在逐渐被提出。尽管这些算法融合了大量短读段中的信号来提升算法性能,但是大多数算法还是只能检测长度小于50bp的插入缺失变异。新一代测序数据自身的特点以及插入片段中存在的重复区域导致中等长度以及较大长度(50bp-10000bp)的插入缺失变异检测仍然具有相当大的挑战。由于新一代测序数据是大量的100bp-300bp的短序列,序列中插入变异与缺失变异的存在会导致测序片段难以比对,同时,当所插入的变异片段中存在重复区域时,在序列拼接的过程中会导致拼接错误。本文主要的工作就是研究如何准确检测中等长度以及较大长度的插入变异与缺失变异。针对于中等长度及较大长度的插入缺失变异检测问题,我们提出了一种新的方法VRindel,VRindel可以检测任意长度的插入缺失变异,并且对于插入变异的基因型也有较好的检测性能。在检测插入变异时,VRindel基于分裂读段的比对状态可以准确地确定插入变异的发生位点。在此基础上,VRindel利用未匹配读段与分裂读段在每个变异位点依照左边最大匹配策略动态扩展形成一条虚拟参考序列,通过比较虚拟参考序列与原始参考序列的异同可以检测出任意大小的插入变异。同时,VRindel将插入变异基因型的检测转化为拷贝数状态的检测,基于一个统计模型对虚拟参考序列各位点的覆盖度信息进行分析可以检测出各区域的拷贝数状态,继而达到检测插入变异基因型的目的。在检测缺失变异时,VRindel基于层次聚类算法可以确定缺失变异发生区间,提取出各区间内的分裂读段并进行分裂比对即可确定缺失变异发生的精确位置及大小。为了验证VRindel的插入缺失变异检测性能,我们分别在仿真数据与真实数据上做了实验,并且与其他八种不同方法在相同数据上的实验结果进行了比较。仿真实验结果显示,相比于其他八种方法,VRindel具有更好的检测灵敏度与准确度。真实数据得到的结果与其他方法的检测结果也有较高的一致性。同时,为了验证VRindel对于插入变异基因型的检测性能,我们将其实验结果与其他四种方法做了比较,结果显示VRindel具有相对较好的识别性能。
【图文】:

流程图,检测算法,流程图,位点


图3.1 VRindel 插入变异检测算法流程图3.1.2 变异发生位点的过滤与确认确定插入变异发生的位点是 VRindel 检测插入变异非常重要的一个步骤。在确定变异发生位点时,分裂读段(Split Read)可以提供非常重要的信息,有插入变异发生的区域一定会产生分裂读段,但是这也只是一个必要条件,并不是一个充分条件,因为存在其他很多种变异也会产生分裂读段,比如缺失变异(deletion mutation)、换位变异(translocation mutation)、倒置变异(inversion mutation)、拷贝数插入变异(copynumber insertion),,所以在检测插入变异之前,我们需要了解其他几种变异的变异形式并且在检测的过程中将其排除。

基于新一代测序数据的Indel检测方法研究


倒置变异
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4

【相似文献】

相关期刊论文 前10条

1 贾国庆;司鹏搏;陈善继;吴国庆;陈超;;CoMP下行传输系统的联合最优参考序列设计[J];北京工业大学学报;2014年10期

2 黎满香;林荣高;薛立群;蒋伟;陈滔;;湖南猪源粪肠球菌的分离鉴定及16S rDNA系统进化分析[J];中国兽医学报;2011年09期

3 官正本;;基于灰色关联的多目标施工方案评价[J];铁道建筑技术;2011年S1期

4 陶笃纯;噪声过程的计算机模拟[J];声学学报;1986年06期

5 张德礼,李衍达,季梁;用电子克隆新基因C17orf32和ZNF362对NCBI人类基因数据库模式参考序列5种错误类型的分析与纠正[J];遗传学报;2004年04期

6 张德礼,季梁,李衍达;通过新基因计算机识别与实验确认对NCBI人类基因数据库一些模式参考序列错误的分析与纠正[J];遗传学报;2004年05期

7 杨溯;李庆祥;;中国降水量序列均一性分析方法及数据集更新完善[J];气候变化研究进展;2014年04期

8 李冬,刘在新,王超英,谢庆阁;口蹄疫病毒诱导的牛α-干扰素基因cDNA的克隆及序列分析[J];中国兽医科技;2003年10期

9 魏铁铮;刘铁志;;赤峰市大兴安岭南部地区大型担子菌资源调查[J];聊城大学学报(自然科学版);2019年06期

10 弓晓敏;耿秀丽;;基于二元语义的纯语义多属性群决策方法[J];数学理论与应用;2015年03期

相关会议论文 前3条

1 王旭东;刘克利;孙红斌;冯震;金柏青;;呼和浩特可吸入微粒物的多因素灰色关联分析[A];中国气象学会2008年年会大气环境监测、预报与污染物控制分会场论文集[C];2008年

2 彭放;;估计矿体中心埋深的灰色关联滤波法[A];1993年中国地球物理学会第九届学术年会论文集[C];1993年

3 王福祥;黄超群;;哈尔滨地区丙型肝炎病毒基因分型研究[A];第九届全国疑难及重症肝病大会论文集[C];2017年

相关博士学位论文 前5条

1 邓颖;水稻日本晴和93-11基因组参考序列的质量分析[D];华中农业大学;2013年

2 赵文亮;乙型肝炎病毒基因突变检测与分析平台研发[D];第四军医大学;2014年

3 齐海燕;广西地区HIV-1流行亚型、基因变异性分析及耐药突变的实验研究[D];浙江大学;2012年

4 崇泽臣;插入缺失在模式生物中的演化研究与非模式生物中检测技术的开发[D];中国科学院北京基因组研究所;2013年

5 刘琳;睾丸酮丛毛单胞菌和溶杆菌的比较基因组学研究及玉米BIBAC克隆的参考序列定位[D];华中农业大学;2015年

相关硕士学位论文 前10条

1 许向彦;基于新一代测序数据的Indel检测方法研究[D];西安电子科技大学;2019年

2 郭旭;高度相似基因组序列数据集的压缩算法研究[D];西安电子科技大学;2018年

3 赵睿醒;模体发现中的参考序列选择问题研究[D];西安电子科技大学;2015年

4 刘云;一个基于转录组测序和无参考序列的多倍体作物SNP检测方法[D];浙江大学;2012年

5 曹猛;单核苷酸多态性识别软件设计与实现[D];天津理工大学;2016年

6 汪晓丹;基于短序列比对的InDel检测算法研究[D];哈尔滨工业大学;2015年

7 李平好;基于可压缩结构化数据的信息压缩理论研究与算法实现[D];上海交通大学;2014年

8 林伟森;桉树基因测序数据SNP的模式识别方法的研究[D];华南农业大学;2016年

9 周涛;基于FPGA的线性干扰对齐通信系统的设计与实现[D];西安电子科技大学;2014年

10 乔歌;基于灰色关联度模型的动物药材质量评价模式研究(Ⅱ)[D];辽宁中医药大学;2009年



本文编号:2617602

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2617602.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3995b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com