基于de Bruijn图的宏基因组序列拼接算法实现

发布时间:2018-03-16 00:12

  本文选题:宏基因组 切入点:第二代测序技术 出处:《山东大学》2017年硕士论文 论文类型:学位论文


【摘要】:基因组测序技术为生物学研究提供了数据支持,从而有力的推动了对生命活动规律的理解和认识。宏基因组学是一门新兴的不依赖于实验室培养直接从环境中提取微生物群落的DNA进行研究的学科,这种大规模的基因组学技术实现了对不同环境中微生物的深入研究。然而受限于测序技术,测序仪每次只能读出基因组上一个短片段,而不是一次读出完整的基因组序列。因此,从短片段中恢复出多个物种的完整基因组的序列拼接是宏基因组学的一个基本问题。目前计算机技术方面,对宏基因组序列拼接算法的研究还仍然处于初步阶段,大多数序列拼接工作依然利用单基因组拼接软件来完成,然而绝大部分单基因组序列拼接在宏基因组上数据上存在很大的局限性。因此,本文针对宏基因组的序列拼接算法展开了一系列的工作并将之实现。本文的主要工作是在我们开发的单基因组拼接软件ARCS的基础上,加入了新的模块来处理针对宏基因组的数据,提出并实现一个有效的宏基因组序列拼接软件Meta-ARCS。我们设计了新的针对第二代数据的序列拼接的拆解deBruijn图形成contigs算法。主要是估计压缩边的序列重数,挑选unique压缩边,利用pair-kmer插入距离信息,并采用线性规划技术求得unique压缩边的最优排布,最终形成更长的contigs和scaffolds。针对这些填充了间隙的scaffolds,我们除去间隙,获得正确率更高的却更短的contigs,利用coverage信息将contigs进行binning操作,每个bin里的contigs都属于单一的物种。在真实数据集和模拟数据集上的实验表明:同已有拼接软件做系统比较,Meta-ARCS取得了比较好的结果。
[Abstract]:Genome sequencing technology provides data support for biological research, Macrogenomics is an emerging discipline that does not rely on laboratory culture to extract microbial communities directly from the environment for research. This large-scale genomics technique allows for in-depth research into microbes in different environments. However, limited to sequencing technology, sequencers can read only one short segment of the genome at a time. So it's a fundamental problem in macrogenomics to restore the complete genome sequence of multiple species from a short fragment. The research on the algorithm of macro genome sequence mosaic is still in the preliminary stage, and most of the sequence stitching work is still completed by single genome mosaic software. However, most of the single-genome sequence splicing on the macro genome has great limitations. In this paper, a series of work has been carried out on the sequence splicing algorithm of the macro genome, which is based on the single genome mosaic software ARCS, which is developed by us. A new module was added to process data for the macro genome, In this paper, we propose and implement an effective macro genome sequence mosaic software Meta-ARCS. we design a new contigs algorithm for the second generation data sequence splicing, which is mainly to estimate the sequence multiplicity of the compressed edges and select the unique compressed edges. By using the pair-kmer insertion distance information and linear programming technique, the optimal arrangement of unique compression edges is obtained, resulting in the formation of longer contigs and scaffolds. for these scaffoldsfilled with gaps, we remove the gaps. Get a higher accuracy but shorter contig, use the coverage information to binning the contigs, Contigs in each bin belongs to a single species. Experiments on real data sets and simulated data sets show that Meta-ARCS has better results compared with existing mosaic software systems.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q811.4;TP319

【相似文献】

相关期刊论文 前10条

1 赵蓉;胡永峰;金奇;;宏基因组学及其在医学微生物学领域的应用[J];病毒学报;2009年03期

2 宋培勇;马莉莉;王庆容;李黛;魏志琴;;宏基因组技术及其应用研究进展[J];贵州农业科学;2009年10期

3 孟飞;俞春娜;王秋岩;谢恬;;宏基因组与宏基因组学[J];中国生物化学与分子生物学报;2010年02期

4 刘海燕;常玉梅;;宏基因组学及在人体微生物研究上的应用[J];中国现代医学杂志;2012年08期

5 阎冰,洪葵,许云,马超;宏基因组克隆——微生物活性物质筛选的新途径[J];微生物学通报;2005年01期

6 欧敏功;崔晓龙;李一青;李铭刚;彭谦;文孟良;;宏基因组学在未培养微生物研究中的应用[J];微生物学杂志;2007年02期

7 艾芳芳;杨桦;曲媛媛;周集体;李昂;关晓燕;苟敏;;宏基因组研究及其应用研究进展[J];环境科学与技术;2007年12期

8 楚雍烈;杨娥;;宏基因组学及其技术的研究进展[J];西安交通大学学报(医学版);2008年06期

9 冯美琴;;宏基因组学的研究进展[J];安徽农业科学;2008年02期

10 李慧;何晶晶;张颖;徐慧;陈冠雄;;宏基因组技术在开发未培养环境微生物基因资源中的应用[J];生态学报;2008年04期

相关会议论文 前10条

1 阎冰;许云;马超;洪葵;;宏基因组克隆——微生物活性物质筛选的新途径[A];中国海洋生化学术会议论文荟萃集[C];2005年

2 张桂敏;王裔雄;胡勇;马立新;;一种简便快速构建宏基因组文库的方法[A];2008年中国微生物学会学术年会论文摘要集[C];2008年

3 黄雅丽;陆勇军;赖心田;张炯;林永成;周世宁;;南海微生物宏基因组文库的构建及功能基因初步筛选[A];微生物实用技术生态环境应用学术研讨会论文集[C];2008年

4 黄雅丽;李慧贤;张炯;杜纪坤;谭红铭;陆勇军;周世宁;;深海宏基因组文库筛选及新的功能基因[A];2010年第四届全国微生物遗传学学术研讨会论文摘要集[C];2010年

5 彭晴;张雪;关国华;李颖;;一个克隆自海洋底泥宏基因组文库的脂酶新基因[A];2008年中国微生物学会学术年会论文摘要集[C];2008年

6 代俊;江帆;彭方;方呈祥;;深海沉积物宏基因组文库中产甲壳素酶克隆的筛选[A];基因开启未来:新时代的遗传学与科技进步——湖北省遗传学会第八次代表大会暨学术讨论会论文摘要汇编[C];2009年

7 沈月毛;;通过构建宏基因组文库探讨植物美登木素生物合成起源[A];2008年中国微生物学会学术年会论文摘要集[C];2008年

8 谢福莉;陈大松;程国军;魏力;李友国;;通过宏基因组学途径研究参与氮素循环主要过程的相关功能新基因[A];2006年度学术研讨会论文摘要汇编[C];2006年

9 何彪;涂长春;;病毒宏基因组学的研究现状及应用[A];中国畜牧兽医学会兽医公共卫生学分会第三次学术研讨会论文集[C];2012年

10 牛泽;曾艳;王敏;杨慧;马荣才;高俊莲;;北京地区重金属污染土壤DNA提取及宏基因组文库构建[A];第十次全国环境微生物学术研讨会论文摘要集[C];2007年

相关重要报纸文章 前6条

1 记者 谭大跃 第五燕燕 实习生 栗洋洋;200余国际顶尖科学家聚深探讨宏基因组学[N];深圳特区报;2010年

2 记者 刘传书;我国科学家完成肠道微生物与Ⅱ型糖尿病的宏基因组关联分析[N];科技日报;2012年

3 王庆;宏基因组学:慧眼巧识微生物[N];工人日报;2014年

4 记者 熊燕;国际首例共生菌宏基因组文库在昆建成[N];云南日报;2009年

5 记者 杨婧如 通讯员 胡雯 刘佳;全球基因专家汇聚深圳话前沿[N];深圳特区报;2013年

6 通讯员 梁淡丽 记者 刘传书;中外科学家全方位分析全球微生物群落[N];科技日报;2011年

相关博士学位论文 前10条

1 高文渊;宏基因组来源酯酶基因的挖掘及其在非水相中催化性能的研究[D];华东理工大学;2016年

2 温燕;特发性间质性肺炎患者下呼吸道菌群结构研究[D];北京协和医学院;2016年

3 曹洋;人体宏基因组整合代谢网络的构建与分析[D];中国人民解放军军事医学科学院;2016年

4 邹晓辉;不明原因肺炎病例病原宏基因组学研究[D];中国疾病预防控制中心;2016年

5 丁啸;基于序列特征的宏基因组数据分析方法研究[D];东南大学;2016年

6 刘云;不平衡数据的模糊聚类算法研究及在宏基因组重叠群分类中的应用[D];吉林大学;2016年

7 苟敏;基于宏基因组的芳烃加氧酶获取及特性研究[D];大连理工大学;2011年

8 贺蕊;式根岛海绵宏基因组文库活性物质研究[D];重庆大学;2013年

9 常秦;宏基因组数据分析中的统计方法研究[D];山东大学;2012年

10 彭帅;应用宏基因组方法检测猪致病微生物及分析牛胃菌群组成[D];吉林大学;2015年

相关硕士学位论文 前10条

1 覃千山;基于宏基因组的未培养互营烃降解菌‘Candidatus Smithella cisternae’的生物信息学研究[D];中国农业科学院;2015年

2 王伟;宏基因组学技术在病原体检测中的应用[D];安徽医科大学;2015年

3 周俊雄;天然木质纤维素降解机制的宏基因组学和宏蛋白质组学分析[D];福建师范大学;2015年

4 王兴兴;西藏开菲尔粒中优势菌的鉴定、分布与稳定性研究[D];上海海洋大学;2015年

5 邓云金;厌氧降解纤维素菌群的鉴定与发酵条件分析及其宏基因组文库构建[D];福建农林大学;2012年

6 赵文静;肠上皮特异性敲除自噬基因Atg5/Atg7小鼠肠道微生物宏基因组测序分析[D];上海交通大学;2015年

7 许悦;宏基因组读段组装融合与基因标注算法研究[D];湖南师范大学;2015年

8 胡资鹏;基于De Bruijn图的宏基因组序列组装算法研究[D];广西师范大学;2015年

9 汪俭;北黄海浮游病毒群落的宏基因组学研究[D];中国海洋大学;2015年

10 罗幸;宏基因组分类分析方法的研究和应用[D];东南大学;2015年



本文编号:1617446

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/1617446.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2204a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com