转录组数据的共表达分析和扩展应用

发布时间:2018-01-06 09:22

  本文关键词:转录组数据的共表达分析和扩展应用 出处:《吉林大学》2016年博士论文 论文类型:学位论文


  更多相关文章: 双聚类算法 转录组学数据 生物能源 植物 原核生物 生物信息学


【摘要】:基因组学和转录组学技术的快速发展,使生物信息学的研究进入了大数据时代。这些组学数据的大量产生,在帮助我们解决生物学问题的同时,也产生了许多需要解决的问题。其中一项最主要的问题是:如何高效的利用这些数据并从中分析提取出我们所需要的信息。通过有效地转录组数据分析,让研究人员可以对基因的功能和生物通路的组成有更进一步的了解。作者基于以上的问题,在博士期间以转录组数据为主要研究方向,在生物信息领域进行了相关的研究,扩展了双聚类算法在植物和微生物转录组学数据上的应用范围。研究的主要目的在于提高生物能源产出效率,同时为转录组数据在生物信息学领域开发出各种有效简洁的计算工具和网络平台,提高研究者的工作效率。本文的一项主要研究工作是在能源植物柳叶稷的基因组中有效地寻找植物细胞壁生物过程的相关基因。拟南芥、水稻和玉米等多种模式植物中大量的植物细胞壁相关的基因,已经在相关研究中被实验发现并验证。然而,迄今为止在新测序的能源植物柳叶稷上还没有植物细胞壁相关的实验结果。我们通过使用计算生物学的手段,提出了一种两阶段的方法在柳叶稷基因组中尽可能准确地识别植物细胞壁相关基因。1)首先,我们通过同源比对的方法,将已完成注释的模式生物细胞壁相关的基因映射到柳叶稷的基因组上。通过这种方式,我们在柳叶稷的基因组上得到共计991个同源基因。2)使用双聚类算法分析多种情况下的转录组数据,得到与这些同源基因具有共表达性质的基因集合。该方法共得到104个基因集合,这些基因集合包含了991个同源基因中的830个,同时还包含了823个未曾报道过可能是植物细胞壁相关的基因。之后,我们利用拟南芥的转录组数据对这1653个预测的基因进行了平行验证,从而得到了112个还未报道的非常可能的柳叶稷细胞壁相关的基因。在我们认识到双聚类算法在植物转录组学数据分析上的优势之后,我们在另外一项工作中提出了基于双聚类方法的局部共表达相关性函数BF score,来代替标准Pearson或Spearman相关性系数。由于植物转录组学数据具有重复实验数目少、实验条件多的特点,并基于共表达基因在特定条件下才会产生共表达性质的理论,我们提出的局部共表达相关性函数。该函数在植物转录组数据分析上具有更高的敏感性。通过使用新定义的局部共表达相关性函数,我们研究了拟南芥、玉米和柳叶稷中木质素合成的生物通路的异同点,并分别预测了219、177和532个与木质素合成具有共表达关联性的基因。同时使用提出的局部共表达相关函数定义了生物通路间的共表达性质,找出了与木质素合成具有共表达性质的生物通路。我们继续扩展该局部共表达相关性函数的在转录组学上的应用范围。我们开发了植物RNA-seq短序列映射质量控制软件Gene QC,该软件能够在进行转录组数据分析之前向生物学家提供具体的统计参考信息。通过对RNA-seq短序列映射位点和基因与基因间的序列相似性的分析,可以将经过RNA-seq处理流程所得到的基因表达数据的可信程度分成不同的等级。这就使得植物学家在进行实验验证之前,可以选择更加可靠地候选基因进行敲除和突变处理,从而节约实验费用和时间。我们将局部共表达相关性函数应用于已知的表达数据来生成训练集,这样就可以解决部分RNA-seq短序列,由于与参考基因组多个位置具有很高的序列相似性而导致的无法准确定位的问题。使用以上的解决方法,Gene QC能够提高植物中RNA-seq数据分析的精度和价值。同时我们扩展了转录组学RNA-seq数据的应用范围,通过使用支持向量机构建原核生物转录单元信息的训练集,来预测特定条件下的操纵子结构。我们构建的Seq TU网络平台能自动化的完成RNA-seq数据的测序质量检查、短序列映射和转录单元预测的流程,是一个用户友好,操作简便且预测精度高的良好平台。在文章的最后一章还介绍了博士期间的其它科研工作包括:从能量最优化角度分析近源细菌的基因组组成的共性和差异性以及交互式的细菌生物通路重构平台。
[Abstract]:The rapid development of science and technology studies genome and transcriptome studies, the bioinformatics entered the era of big data. These data were generated in large quantities in biology to help us solve problems at the same time, also has many problems need to be solved. One of the most important question is: how to effectively use these the data and extract the information we need from the analysis. Through effective transcriptome data analysis, which allows researchers to function and biological pathways of genes have further understanding of the author. Based on the above problem, in the doctoral period to the transcriptome data as the main research direction and related research in the field of bioinformatics, extended double clustering algorithm application range of data on plant and microbial transcriptome. The main objective of the study is to improve the output efficiency of bio energy, at the same time for the group. The data in the field of bioinformatics and computational tools to develop effective network platform concise, improve researchers' work efficiency. One of the main research work of this paper is to effectively search for genes related to biological processes in the plant cell wall in the energy plant genome. The millet Arabidopsis plant cell wall a number of related genes in rice and a variety of modes of maize plants, have been found and verified. However, so far in the new sequencing energy plant is no experimental results willow millet plant cell wall related. We use computational biology methods, presents a method of two stage in Millet genome as may the accurate identification of plant cell wall related gene.1) first of all, we through the method of homologous alignment, completed gene annotation mode of biological cell wall related mapping Shoot the willow millet genome. By this way, we get in the millet genome on a total of 991 homologous gene.2) analysis of transcriptome data under various conditions, using the double clustering algorithm, and the homologous gene co expression with the nature of the gene set. The method has 104 sets of genes, these genes set contains 830 991 homologous genes, but also includes the 823 had not been reported may be related to cell wall gene plant. After that, we use gene transcriptome data on Arabidopsis this 1653 prediction is carried out in parallel verification, resulting in 112 genes has not been reported very likely millet leaf cell wall related. After we realize the double clustering algorithm to learn the advantages of data analysis in the plant transcriptome, we also work in a proposed dual clustering method based on The correlation function BF score co expression, to replace the standard Pearson or Spearman correlation coefficient. The plant transcriptome data with repeated experiments less the number of experimental conditions and characteristics, based on the co expressed genes will produce under specific conditions of co expression of nature of the theory, we put forward the local co expression correlation function. This function has higher sensitivity in the analysis of plant transcriptome data. By using the new definition of local co expression of correlation function, we studied Arabidopsis, maize and millet in the lignin biosynthesis pathway in difference, and respectively predicted 219177 and 532 and the lignin synthesis related genes with co expression. At the same time using the proposed local co expression correlation function defines the co expression of biological pathways between nature, and find out the lignin synthesis with co expression of biological pathways in nature. I We continue to expand the local co expression of correlation function in the scope of application of the transcriptome. We developed the plant RNA-seq short sequence mapping quality control software Gene QC, the software can provide statistical reference information to specific biologists before analyzing transcriptome data. Through the analysis of the sequence similarity of RNA-seq short sequence mapping sites and between genes and genes, can be obtained through the process of RNA-seq gene expression data credibility is divided into different levels. This makes the botanist before the experiment, can choose a more reliable candidate gene knockout and mutation, thus saving the experimental cost and time. We apply the local co expression the expression of correlation function is applied to the known data to generate the training set, so that it can solve the RNA-seq short sequence, and as a reference gene Unable to accurately locate multiple locations with high sequence similarity to solve the problem. Use the above methods, Gene QC can improve the RNA-seq data analysis of plants in the precision and value. At the same time we expanded the scope of application of the transcriptome of RNA-seq data, by using support vector machine to build prokaryotic transcription unit information the training set to predict the operon structure under specific conditions. We construct Seq TU network platform can complete the automatic quality inspection of RNA-seq sequencing data, short sequence mapping and transcription unit prediction process, is a good platform for user friendly, simple operation and high accuracy. In the last chapter the other research work during the doctoral period include: similarities and differences between the composition of near source of bacterial genomes and interactive bacteria from Perspective of energy optimization Physical path reconstruction platform.

【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:Q811.4;TP311.13

【相似文献】

相关期刊论文 前10条

1 张玉芳;赵丽娟;曾幼玲;;基因表达研究中内参基因的选择与应用[J];植物生理学报;2014年08期

2 李旭平;乐卫东;;单细胞基因表达分析技术在神经科学研究中的应用[J];生理科学进展;2006年01期

3 胡瑞波;范成明;傅永福;;植物实时荧光定量PCR内参基因的选择[J];中国农业科技导报;2009年06期

4 常青山,余增亮;基因表达分析方法及其研究进展[J];生物技术通报;2002年06期

5 占祖兵;张越;赵若苹;王文;;炓腹果蝇中嵌合新基因的进化命运和表达模式[J];动物学研究;2011年06期

6 何琳;何娟;沈耕宇;杨波;黄水清;;一种通过文本挖掘发现实时定量聚合酶链式反应实验内参基因的方法研究[J];现代图书情报技术;2012年Z1期

7 王怡,王海平,王全立;基因表达系列分析技术研究进展[J];医学分子生物学杂志;2004年03期

8 吴志革;邹方东;;强大的广谱基因表达分析技术——基因表达系列分析法[J];四川动物;2006年03期

9 胡赓熙;检查基因表达分析的生物技术——cDNA阵列开发成功[J];中国科学院院刊;2000年03期

10 郑芳,周新,严明,叶水清,刘芳;微量材料系列性基因表达分析技术的研究[J];生物化学与生物物理进展;2002年03期

相关会议论文 前1条

1 陈维;;文昌鱼SOX9基因的克隆与分析[A];遗传学与社会可持续发展——2010中国青年遗传学家论坛论文摘要汇编[C];2010年

相关博士学位论文 前10条

1 刘胜浩;南极丝瓜藓耐逆相关功能基因的发掘和功能研究[D];山东大学;2015年

2 孟璐;癌细胞中OCT4B的功能及所调控的p53新变体研究[D];中国农业大学;2015年

3 齐笑笑;梨果实萼片宿存与脱落过程基因表达谱分析及PsIDA、PsJOINTLESS基因功能的初步研究[D];南京农业大学;2014年

4 陈鑫;转录组数据的共表达分析和扩展应用[D];吉林大学;2016年

5 李斌;拟南芥转录因子TCPs和表观遗传因子CLF及LHP1抑制KNOX基因的分子机制研究[D];复旦大学;2012年

6 张晓东;人和大鼠精子发生相关基因的克隆及其基因结构和功能分析[D];中国协和医科大学;2000年

7 童晓玲;家蚕翅模式决定基因的克隆、表达及功能研究[D];西南大学;2008年

8 周纯葆;基因岛预测与隔离迁移模型并行化[D];吉林大学;2012年

9 张桦;新牧1号杂花苜蓿抗逆相关基因的克隆和功能分析[D];新疆农业大学;2011年

10 邓小敏;小麦CBL基因CIPK基因的克隆及在非生物胁迫中的功能研究[D];华中科技大学;2013年

相关硕士学位论文 前10条

1 其木格;玉米黏虫转录组学研究及RNAi机制相关基因的克隆[D];内蒙古大学;2015年

2 刘祖碧;决明种子转录组学分析及胰蛋白酶抑制剂基因的克隆与功能研究[D];西南交通大学;2014年

3 张毛毛;水稻OsmtATPS1基因的克隆及功能初步分析[D];西北农林科技大学;2015年

4 靳晶豪;辣椒疫病抗性相关基因CaPT11和CaHIR4的克隆及初步功能分析[D];西北农林科技大学;2015年

5 肖瑶;茶树AsA代谢相关酶基因的克隆及表达分析[D];西北农林科技大学;2015年

6 杨立清;甜瓜CMe-ERF1和CMe-ERF2基因的功能研究[D];内蒙古大学;2015年

7 李亚莉;苹果磷脂酸合成途径相关基因的生物信息学分析及DGK基因表达分析[D];西北农林科技大学;2015年

8 徐伟;小麦bZIP基因TaGBF参与植物开花调控机制研究[D];山东大学;2015年

9 位正玉;ABA胁迫相关的小麦MAC基因的克隆及功能研究[D];山东大学;2015年

10 岳思思;拟南芥AT2G17350基因功能的初步研究[D];陕西师范大学;2015年



本文编号:1387264

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1387264.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ec6a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com