当前位置:主页 > 科技论文 > 软件论文 >

基于读分割最优匹配的indels识别算法

发布时间:2018-06-27 16:51

  本文选题:结构变异 + 拷贝数变异 ; 参考:《软件学报》2017年10期


【摘要】:高通量测序技术的发展,极大地推动了基因组结构变异识别的研究.当前,该领域主要使用覆盖度、读分割或片段组装方法来识别变异,但目前的方法识别结果不够准确,敏感度高,对基因组结构变异的信息(如变异序列、变异坐标等)挖掘不充分.插入和删除类型的结构变异统称为indels,在基因组结构变异中最为常见.为此,针对indels的精确识别,提出了基于读分割和动态规划的最优序列匹配算法(optimal split-read matching algorithm,简称OSRM).OSRM算法能将异常读片段以最少的空位打断比对到参考序列上.首先,建立异常读片段与特定参考序列的匹配得分矩阵;然后,建立回溯路径矩阵;最后,用以变异特点设计的得分公式对每条路径进行最优匹配筛选,输出精确识别的indels坐标及序列.实验结果显示,该方法对小中型的indels有很高的识别性能.此外,与读分割法的经典算法Pindel进行了比较,证实OSRM算法在小中型的indels识别方面有更好的效果,可识别更复杂的情况.
[Abstract]:The development of high throughput sequencing technology has greatly promoted the study of the identification of genomic structural variation. At present, the domain mainly uses coverage, read segmentation or fragment assembly methods to identify variations, but the current method is not accurate and sensitive, and the information of genome structure variation, such as mutation sequences, variation coordinates, etc., is excavated. Not enough. The structural variation of insert and delete types is called indels, which is the most common in genomic structural variation. For this purpose, an optimal sequence matching algorithm based on read segmentation and dynamic programming (optimal split-read matching algorithm, simply called OSRM).OSRM algorithm is proposed for the precise identification of indels. First, the matching score matrix of the abnormal read fragment and the specific reference sequence is set up; then, the backtracking path matrix is established; finally, the score formula designed with the characteristic of variation is optimized for each path, and the output is accurately identified with the other indels coordinates and sequences. The experimental results show that this method is used. It has high recognition performance for small and medium indels. In addition, compared with the classical algorithm Pindel of read segmentation method, it is proved that the OSRM algorithm has a better effect on small and medium indels recognition and can identify more complex situations.
【作者单位】: 哈尔滨工业大学计算机科学与技术学院;北京建筑大学电气与信息工程学院;
【基金】:国家自然科学基金(61402132,61571163,61532014)~~
【分类号】:Q811.4;TP301.6

【相似文献】

相关期刊论文 前6条

1 马雅楠;孙平平;魏雅卓;陆林英;崔颖;马志强;;改进的系统发育谱算法在蛋白质功能注释中的应用[J];生物信息学;2009年01期

2 连帅彬;郭东亮;戴宪华;;基因结构变异检测方法综述[J];现代生物医学进展;2012年18期

3 姜雷;;关于在人类基因组中检测结构变异计算方法的综述[J];电子世界;2014年06期

4 张雨豪;王亚东;;基于高通量测序数据的结构变异检测方法的研究[J];智能计算机与应用;2013年05期

5 刘琪,朱贻盛,王保华,李亦学;基于动态规划的跨膜蛋白疏水图比对研究[J];高技术通讯;2001年11期

6 李洪杰,贾旭,楚成才;组织培养诱导外源染色体发生结构变异及其在小麦易位系创制中的利用[J];遗传;2001年01期

相关重要报纸文章 前1条

1 通讯员 梁淡丽 记者 刘传书;为人类基因组结构变异检测提供新方法[N];科技日报;2011年

相关博士学位论文 前2条

1 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年

2 姜s,

本文编号:2074580


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2074580.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b84d7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com