宏基因组分类分析方法的研究和应用

发布时间:2017-05-17 21:03

  本文关键词:宏基因组分类分析方法的研究和应用,由笔耕文化传播整理发布。


【摘要】:随着环境微生物研究的发展和高通量测序技术的出现,微生物的研究迎来了宏基因组学的技术研究时代。突破传统微生物学研究方法的瓶颈,宏基因组学直接研究环境微生物的基因组。近年来大量研究表明,人体的多种疾病与人体类各个器官的微生物群落是息息相关的,而宏基因组样本分类方法成为研究微生物群落与宿主或环境关系的重要研究手段:通过提取宏基因组样本的特征,结合分类算法鉴定样本类别。目前宏基因组样本分类方法大多使用微生物的全基因组序列,本文深入研究了基于16S rRNA基因序列微生物群落分析方法,建立了一套基于16S rRNA基因序列的样本分类流程,并将分析与分类方法应用到小鼠及人类肠道微生物群落的研究中。样本分类的重要前提是对不同状态的样本提取一种具有显著差异性的特征。本文深入研究不同样本的16S rRNA基因序列,通过模拟数据分析验证群落结构作为样本特征的可行性。分析结果表明,物种丰度包含了样本中微生物的物种数目、比例,是最基本的样本特征;α多样性提炼了样本的物种丰度信息,降低了样本特征维数,是一种较为重要的样本特征;β多样性特征同时结合了群落独立进化信息(UniFrac)和物种丰度,是较为理想的样本特征。结合随机森林算法和三种有效的样本特征,我们建立了一套基于16S rRNA基因序列的样本分类流程。通过对不同参数的模拟数据集的分类实验,我们比较了样本类别数、特征的类间方差、类内方差以及系统发育树高度对分类流程准确率的影响。最终的分类结果表明,在样本特征类间差异不明显,即类内特征方差大、类间特征方差小的情况下本文所建立的分类流程分类准确率比其他分类方法高;在样本类别数增加、群落进化关系复杂等情况下,本文所建立的流程较其他分类方法表现更好。实验结果表明我们设计的宏基因组样本分类流程具有良好的分类性能,能够准确鉴别基于16S rRNA序列的宏基因组样本。将所建立的基于16S rRNA基因序列的宏基因组样本分类分析流程分别应用于小鼠和人类肠道微生物样本。实验结果表明我们发展的分类流程对与环境相关的小鼠肠道微生物样本分类准确率高于88%,能够准确地对小鼠肠道宏基因组样本中微生物群落所生存的环境类别进行区分。同时分类结果表明:特征向量的类间方差小的两组样本错分而导致的样本分类错误较多;不同环境下小鼠肠道微生物样本的群落独立进化信息(UniFrac)对样本差异性的体现不如物种进化关系。对于与肥胖相关的人类肠道微生物样本,我们发展的流程的分类准确率达到75%以上,基本能够鉴定人类肠道宏基因组样本中微生物群落的宿主的体型类别。同时分类结果还表明:过重组和肥胖组两类样本组的特征向量的类间方差低而经常导致样本错分;肥胖相关人类肠道微生物样本的群落独立进化信息作为样本特征的分类性能要优于微生物物种进化信息,我们认为群落独立进化信息更能体现有着不同身体质量指数人群的肠道微生物差异。综合两组数据实验结论如下:首先,样本特征的类间方差对分类准确率影响较大,类间方差较小的两组样本容易错分而导致分类准确率降低;其次,我们设计的流程不论基于哪一种样本特征,分类性能都要比基于支持向量机的分类流程出色:最后,对于不同样本16S rRNA测序数据,MetaPhyl的分类性能不如我们发展的分类流程稳定。
【关键词】:宏基因组 样本分类 16S rRNA 微生物群落分析 有监督分类
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q811.4
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第一章 绪论10-20
  • 1.1 环境微生物10-11
  • 1.2 基因组学11-12
  • 1.3 宏基因组学12-13
  • 1.4 宏基因组样本分类方法13-17
  • 1.4.1 基于全基因组测序数据的宏基因组样本分类13-16
  • 1.4.2 基于16S rRNA基因序列的宏基因组样本分类16-17
  • 1.5 论文的研究意义和内容与安排17-20
  • 1.5.1 论文的研究意义17-18
  • 1.5.2 论文的研究内容18
  • 1.5.3 论文的章节安排18-20
  • 第二章 基于16S rRNA测序数据的宏基因组样本分析与分类方法20-30
  • 2.1 引言20
  • 2.2 基于16S rRNA的样本分析方法20-25
  • 2.2.1 操作分类单元20-21
  • 2.2.2 微生物群落多样性分析21-25
  • 2.3 样本分类方法25-29
  • 2.3.1 样本分类准确率的影响因素25-26
  • 2.3.2 机器学习算法26-29
  • 2.3.2.1 随机森林算法26-27
  • 2.3.2.2 支持向量机算法27-28
  • 2.3.2.3 MetaPhyl群落分类方法介绍28-29
  • 2.4 本章小结29-30
  • 第三章 基于16S rRNA测序数据的宏基因组样本分类流程30-43
  • 3.1 引言30
  • 3.2 方法与数据30-38
  • 3.2.1 宏基因组样本分类流程30-31
  • 3.2.2 宏基因组样本特征31-35
  • 3.2.3 分类模型35-36
  • 3.2.4 模拟数据集36-37
  • 3.2.5 样本分类准确率评估方法37-38
  • 3.3 结果与讨论38-42
  • 3.3.1 基于随机森林的分析流程分类准确率更高38-39
  • 3.3.2 不同样本数据集参数对分析流程性能的影响39-42
  • 3.4 本章小结42-43
  • 第四章 小鼠及人类肠道宏基因组样本分类研究43-55
  • 4.1 引言43
  • 4.2 方法及数据43-51
  • 4.2.1 分类流程及样本特征43-44
  • 4.2.2 真实数据集44-51
  • 4.3 分类实验结果与讨论51-53
  • 4.3.1 小鼠肠道宏基因组分类结果51-52
  • 4.3.2 人类肠道宏基因组分类结果52-53
  • 4.4 本章小结53-55
  • 第五章 总结与展望55-58
  • 5.1 论文工作总结55-56
  • 5.2 展望56-58
  • 致谢58-59
  • 参考文献59-66
  • 作者简介66

【相似文献】

中国期刊全文数据库 前10条

1 赵蓉;胡永峰;金奇;;宏基因组学及其在医学微生物学领域的应用[J];病毒学报;2009年03期

2 宋培勇;马莉莉;王庆容;李黛;魏志琴;;宏基因组技术及其应用研究进展[J];贵州农业科学;2009年10期

3 孟飞;俞春娜;王秋岩;谢恬;;宏基因组与宏基因组学[J];中国生物化学与分子生物学报;2010年02期

4 刘海燕;常玉梅;;宏基因组学及在人体微生物研究上的应用[J];中国现代医学杂志;2012年08期

5 阎冰,洪葵,许云,马超;宏基因组克隆——微生物活性物质筛选的新途径[J];微生物学通报;2005年01期

6 欧敏功;崔晓龙;李一青;李铭刚;彭谦;文孟良;;宏基因组学在未培养微生物研究中的应用[J];微生物学杂志;2007年02期

7 艾芳芳;杨桦;曲媛媛;周集体;李昂;关晓燕;苟敏;;宏基因组研究及其应用研究进展[J];环境科学与技术;2007年12期

8 楚雍烈;杨娥;;宏基因组学及其技术的研究进展[J];西安交通大学学报(医学版);2008年06期

9 冯美琴;;宏基因组学的研究进展[J];安徽农业科学;2008年02期

10 李慧;何晶晶;张颖;徐慧;陈冠雄;;宏基因组技术在开发未培养环境微生物基因资源中的应用[J];生态学报;2008年04期

中国重要会议论文全文数据库 前10条

1 阎冰;许云;马超;洪葵;;宏基因组克隆——微生物活性物质筛选的新途径[A];中国海洋生化学术会议论文荟萃集[C];2005年

2 张桂敏;王裔雄;胡勇;马立新;;一种简便快速构建宏基因组文库的方法[A];2008年中国微生物学会学术年会论文摘要集[C];2008年

3 黄雅丽;陆勇军;赖心田;张炯;林永成;周世宁;;南海微生物宏基因组文库的构建及功能基因初步筛选[A];微生物实用技术生态环境应用学术研讨会论文集[C];2008年

4 黄雅丽;李慧贤;张炯;杜纪坤;谭红铭;陆勇军;周世宁;;深海宏基因组文库筛选及新的功能基因[A];2010年第四届全国微生物遗传学学术研讨会论文摘要集[C];2010年

5 彭晴;张雪;关国华;李颖;;一个克隆自海洋底泥宏基因组文库的脂酶新基因[A];2008年中国微生物学会学术年会论文摘要集[C];2008年

6 代俊;江帆;彭方;方呈祥;;深海沉积物宏基因组文库中产甲壳素酶克隆的筛选[A];基因开启未来:新时代的遗传学与科技进步——湖北省遗传学会第八次代表大会暨学术讨论会论文摘要汇编[C];2009年

7 沈月毛;;通过构建宏基因组文库探讨植物美登木素生物合成起源[A];2008年中国微生物学会学术年会论文摘要集[C];2008年

8 谢福莉;陈大松;程国军;魏力;李友国;;通过宏基因组学途径研究参与氮素循环主要过程的相关功能新基因[A];2006年度学术研讨会论文摘要汇编[C];2006年

9 何彪;涂长春;;病毒宏基因组学的研究现状及应用[A];中国畜牧兽医学会兽医公共卫生学分会第三次学术研讨会论文集[C];2012年

10 牛泽;曾艳;王敏;杨慧;马荣才;高俊莲;;北京地区重金属污染土壤DNA提取及宏基因组文库构建[A];第十次全国环境微生物学术研讨会论文摘要集[C];2007年

中国重要报纸全文数据库 前6条

1 记者 谭大跃 第五燕燕 实习生 栗洋洋;200余国际顶尖科学家聚深探讨宏基因组学[N];深圳特区报;2010年

2 记者 刘传书;我国科学家完成肠道微生物与Ⅱ型糖尿病的宏基因组关联分析[N];科技日报;2012年

3 王庆;宏基因组学:慧眼巧识微生物[N];工人日报;2014年

4 记者 熊燕;国际首例共生菌宏基因组文库在昆建成[N];云南日报;2009年

5 记者 杨婧如 通讯员 胡雯 刘佳;全球基因专家汇聚深圳话前沿[N];深圳特区报;2013年

6 通讯员 梁淡丽 记者 刘传书;中外科学家全方位分析全球微生物群落[N];科技日报;2011年

中国博士学位论文全文数据库 前10条

1 苟敏;基于宏基因组的芳烃加氧酶获取及特性研究[D];大连理工大学;2011年

2 贺蕊;式根岛海绵宏基因组文库活性物质研究[D];重庆大学;2013年

3 常秦;宏基因组数据分析中的统计方法研究[D];山东大学;2012年

4 彭帅;应用宏基因组方法检测猪致病微生物及分析牛胃菌群组成[D];吉林大学;2015年

5 江夏薇;基于嗜耐盐菌基因组分析与深海宏基因组文库的酯酶研究[D];浙江大学;2013年

6 储新民;南海海洋微生物宏基因组文库中酯酶基因的筛选与鉴定[D];中国科学技术大学;2008年

7 赵晶;南极中山站沉积物中微生物多样性分析及宏基因组文库研究[D];厦门大学;2007年

8 侯战辉;中国南海海绵共生微生物的宏基因组研究[D];中国科学院研究生院(海洋研究所);2011年

9 单同领;病毒宏基因组学分析儿童和猪肠道病毒群落及23株病毒的初步研究[D];上海交通大学;2011年

10 谢伟;深海热液口微生物群落环境适应性及其基因资源研究[D];华中科技大学;2010年

中国硕士学位论文全文数据库 前10条

1 覃千山;基于宏基因组的未培养互营烃降解菌‘Candidatus Smithella cisternae’的生物信息学研究[D];中国农业科学院;2015年

2 王伟;宏基因组学技术在病原体检测中的应用[D];安徽医科大学;2015年

3 周俊雄;天然木质纤维素降解机制的宏基因组学和宏蛋白质组学分析[D];福建师范大学;2015年

4 王兴兴;西藏开菲尔粒中优势菌的鉴定、分布与稳定性研究[D];上海海洋大学;2015年

5 邓云金;厌氧降解纤维素菌群的鉴定与发酵条件分析及其宏基因组文库构建[D];福建农林大学;2012年

6 赵文静;肠上皮特异性敲除自噬基因Atg5/Atg7小鼠肠道微生物宏基因组测序分析[D];上海交通大学;2015年

7 许悦;宏基因组读段组装融合与基因标注算法研究[D];湖南师范大学;2015年

8 胡资鹏;基于De Bruijn图的宏基因组序列组装算法研究[D];广西师范大学;2015年

9 汪俭;北黄海浮游病毒群落的宏基因组学研究[D];中国海洋大学;2015年

10 罗幸;宏基因组分类分析方法的研究和应用[D];东南大学;2015年


  本文关键词:宏基因组分类分析方法的研究和应用,由笔耕文化传播整理发布。



本文编号:374465

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/374465.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户98017***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com