基于系统发育基因组学分析解决困难进化问题的策略研究
发布时间:2019-09-19 16:32
【摘要】:随着高通量测序技术的快速发展,分子系统发育学进入了以海量数据为特征的系统发育基因组学时代(phylogenomics)。组学大数据给分子系统发育学带来了前所未有的机遇,许多传统系统发育学难以解析的生物类群进化关系通过增加数据有了明确的结果。然而随着研究的深入,学者们发现在海量数据中,“信号”与“噪音”是并存的。当我们探究少数十分棘手的系统发育关系时(例如经历快速辐射性进化类群的亲缘关系),使用现有的分析方法可能出现稀少的真实“信号”(phylogenetic signal)被系统误差引起的“噪音”(phylogenetic noise)完全掩盖的情况,致使我们得出一个解析度高但不能反映真实进化历史的系统发育关系。本论文的工作在于试图突破现有的数据分析瓶颈,从提出新的数据分析思路及选择新的数据类型入手,运用海量数据解决极具争议的有颌类脊椎动物系统发育框架及劳亚兽总目各目间亲缘关系问题。Ⅰ.有颌类脊椎动物系统发育基因组学研究如何从海量数据中筛选出真实的“信号”,降低数据中存在的“噪音”,以得到一个稳定且真实的系统发育关系是系统发育基因组学研究的重要课题。目前常见的提升数据质量的方法包括选择更完整的数据集、选择进化历程与现有模型更匹配的慢速进化的基因等等。但缺乏实例对这些数据筛选方法进行横向评估比较。有颌类脊椎动物系统发育框架上许多节点即使进入大数据时代仍颇具争议,使得其成为检验现有数据筛选方案的绝佳例子。本研究基于新测的10个有颌类脊椎动物物种的转录组数据结合公共数据库中的基因组及转录组数据,构建了一个包含58个物种,4682个蛋白质编码基因的氨基酸数据集,用于探索有颌类脊椎动物系统发育框架问题。另外,我们选取了有颌类脊椎动物系统发育树上六个具有争议的节点作为测试对象,对已有的数据筛选方案进行分析及评估。结果显示,每个测试问题均存在大量的冲突信号,而现有的数据筛选方案在解决具有多个困难问题的系统发育关系时,提升数据信噪比的效果不佳,筛选数据建树结果不稳定且高度不一致,重建的系统发育关系会随着数据集大小及建树方法的不同而发生改变。基于此现象,我们提出了问题针对型(question-specific)数据筛选策略,即针对每个困难问题生成特定的筛选数据集。该策略包括两种不同的方法,方法一为明确表态法,即将不能明确支持有关困难问题所有假说中任意一种的基因从数据集中删除。方法二为节点原则法,是指所选的基因必须能够支持与研究问题具有相关性的特定的拓扑结构。经检验,问题针对型数据筛选策略在六个测试对象中均有效地提高了数据信噪比,所得结果具有鲁棒性。利用目前最大的有颌类脊椎动物数据集,我们提供了一个可靠的有颌类脊椎动物系统框架。除此之外,我们的结果再次证明了简单的增加数据在解决某些难点问题时是远远不够的。我们提出的问题针对型数据筛选策略也为今后解决生命之树上的困难节点提供了新思路。Ⅱ.劳亚兽总目系统发育基因组学研究厘清经历辐射性进化(rapid radiation)类群的亲缘关系一直是困扰进化生物学家的难题。各物种在极短的时间完成物种分化及形成意味着仅有很少的能够反应真实进化历史的“信号”得以在序列中积累。出于数据的易得性及易操作性,现有大部分研究都以进化速度较慢的蛋白质编码序列作为数据源进行系统发育学分析,而鲜少使用进化速度更快的非编码区序列推断快速辐射类群的亲缘关系。劳亚兽是经历快速辐射性进化的代表类群,其各目间亲缘关系一直存在很大争议,且前人研究大多基于蛋白质编码序列。为了解决这一历史难题,我们利用公共数据库中基因组数据构建了两个数据集,物种取样涵盖了除鳞甲目之外的其他5个目代表物种,形成由3638个基因构成的全长为19,055,073 bp的内含子数据集及由10259个基因构成的全长为20,994,285 bp的蛋白质编码序列数据集,并分别采用超级矩阵方法及基于溯祖理论的物种树方法对劳亚兽各目间发育关系进行推断。数据分析结果表明,内含子数据相比于蛋白质编码数据在解决劳亚兽问题中有更强且匀质的系统发育信号。对建树结果比较发现,内含子数据使用两种方法建树所得拓扑结构一致,且所有节点以支持率100%解析,而蛋白质编码序列得到的拓扑结构不一致,且得到的系统发育关系解析度低。为了检验内含子的高解析度系统发育树不是由于系统误差造成的错误结果,我们通过不同数据筛选条件对内含子数据进行重采样并建树,并对蛋白质编码序列数据集做同样处理。同时本研究还探究了不同外类群的组合方式对内含子建树及蛋白质编码序列建树的影响。研究结果表明,数据重采样及外类群的选择对内含子数据构建的系统发育树影响极小,而蛋白质编码序列构建的系统发育树会随着数据筛选条件的不同及外类群的不同组合产生巨大变化。除此之外,通过统计数据中单基因树拓扑结构我们发现,无论是内含子数据集还是蛋白质编码序列数据集,出现频率最高的单基因树的拓扑结构与内含子完整数据集建树结果相同,说明从单基因树频率来看,蛋白质编码序列数据中“信号”与内含子数据内部是一致的。利用目前最大的非编码的内含子序列数据集重建劳亚兽各目间亲缘关系,我们得到了一个稳定且完全解析的系统发育关系,所得结果支持真盲缺目位于劳亚兽的基出位置,剩下四个目分为两支,奇蹄目与翼手目关系更近,鲸偶蹄目与食肉目为姐妹类群。这一全新的系统发育关系假说,向揭示劳亚兽的生命之树又迈进了一步。同时,我们的分析说明了包含有更多“信号”的内含子数据将是未来解决生命之树上其他经历快速辐射性进化的困难节点的重要数据类型。
【图文】:
第一章绪论发育基因组学概述发育学概念上的生物多种多样,但无论是原核生物、真核生物、植物、祖先演化而来。这一部共同进化的历史决定了不同类群之关联,而这种关联可以用进化树的形式进行描绘。系统发tics)正是追溯物种进化历史,并尝试用生命之树形式描述各门学科(Tree of Life, 图 1-1)。
解析物种间系统发育关系的难点所在。尽管如此,试图揭开历史的面纱,对生命进化的奥妙一探究竟生物进化史最直接的证据最早被用于系统发育关系统发育关系推断具有局限性,因为 1)化石的数据耗费大量时间搜寻与收集;2)目前找到的化石记录牛一毛,大部分物种的化石记录稀缺;3)找到的部物种,很难将其归类到某个门类下;4)化石记录通石记录间难以找到可供比较的共同特征。基于以上直接用于系统发育框架的推断,,而是作为已灭绝物物进化历史的认识,如处于从鱼到两栖类过渡状态实了从鱼类到两栖类的进化(图 1-2)。
【学位授予单位】:中山大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:Q349
本文编号:2538244
【图文】:
第一章绪论发育基因组学概述发育学概念上的生物多种多样,但无论是原核生物、真核生物、植物、祖先演化而来。这一部共同进化的历史决定了不同类群之关联,而这种关联可以用进化树的形式进行描绘。系统发tics)正是追溯物种进化历史,并尝试用生命之树形式描述各门学科(Tree of Life, 图 1-1)。
解析物种间系统发育关系的难点所在。尽管如此,试图揭开历史的面纱,对生命进化的奥妙一探究竟生物进化史最直接的证据最早被用于系统发育关系统发育关系推断具有局限性,因为 1)化石的数据耗费大量时间搜寻与收集;2)目前找到的化石记录牛一毛,大部分物种的化石记录稀缺;3)找到的部物种,很难将其归类到某个门类下;4)化石记录通石记录间难以找到可供比较的共同特征。基于以上直接用于系统发育框架的推断,,而是作为已灭绝物物进化历史的认识,如处于从鱼到两栖类过渡状态实了从鱼类到两栖类的进化(图 1-2)。
【学位授予单位】:中山大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:Q349
【参考文献】
相关期刊论文 前3条
1 王章群;解增言;蔡应繁;舒坤贤;黄飞飞;;系统发育基因组学研究进展[J];遗传;2014年07期
2 邹新慧;葛颂;;基因树冲突与系统发育基因组学研究[J];植物分类学报;2008年06期
3 于黎;张亚平;;系统发育基因组学——重建生命之树的一条迷人途径[J];遗传;2006年11期
本文编号:2538244
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/2538244.html
教材专著