基于信息通道模型的转录组重建与分析关键技术研究

发布时间:2017-12-28 05:42

  本文关键词:基于信息通道模型的转录组重建与分析关键技术研究 出处:《清华大学》2015年硕士论文 论文类型:学位论文


  更多相关文章: 剪接异构体识别 转录丰度估计 信息传导量 自动组装 转录组分析软件


【摘要】:基于高通量RNA测序(RNA-Seq)数据的自动的剪接异构体识别和转录丰度估计是有关下一代测序技术的研究中的重要课题。这两项任务有助于人们分析物种基因组和转录组的全貌,在基因差异表达分析、基因调控机制研究等方面有重要应用。然而,目前两项任务仍然存在较大挑战。RNA-Seq技术仅对转录组进行部分测序,存在难以预测的信息损失。使用局部的观测值进行全转录组的重建具有高度的不确定性。现有的方法普遍面临着重建准确度低、依赖辅助标注等问题。针对以上问题,本文结合RNA-Seq的技术特点,将RNA-Seq建模为信息传递系统,转录组和读段分别建模为信号源与观测信号,使用信息论的方法对系统中的不确定度进行分析。提出基于信息通道的方法,通过优化信息传导量降低数据不确定度,进行转录组的重建和分析。本文所提出方法的主要内容如下:首先进行基因结构单元的自动组装和剪接异构体的重建。在无标注模式下,自动组装工作包括:逐级地完成表达区域的粗略划分,基因位点识别,亚外显子识别结果的修正等环节。构建有向图进行候选剪接异构体的重建,利用图的结构特点计算不同性质的路径代价,对路径进行有效筛选。其次,基于最大信息传导量模型,进行同时的剪接异构体识别和转录丰度估计。本文将RNA-Seq的过程建模为信息传递通道,使用互信息度量测序读段和可行的剪接异构体之间的关联度,并对信息通道容量进行估计。我们对由于信息缺失和读段歧义匹配造成的数据不确定度进行直接的建模和控制,通过最大化信息传导量,对信号源进行恢复。实验结果证明本文所提出的方法对于识别复杂结构的基因/剪接异构体具有突出的效果。最后,我们将算法框架扩展至给定基因标注的情形,对于有标注模式下的转录组重建进行实现。同时,基于综合算法开发了用于转录组分析的软件。在给定标注的条件下,我们将基因/剪接异构体自动组装的结果与现有标注进行比对和融合,进而识别新的基因位点和可变剪接结构。软件可用于无标注模式和有标注模式,适合不同的应用。
[Abstract]:Based on high-throughput RNA sequencing (RNA-Seq) data, automatic recognition of splicing isoforms and estimation of transcriptional abundance are important topics in the next generation sequencing technology research. These two tasks are helpful for us to analyze the panorama of species genome and transcriptome, and have important applications in gene differential expression analysis, gene regulation mechanism research and so on. However, there are still big challenges for the present two tasks. RNA-Seq technology only partially sequenced the transcriptional group, and there was an unpredictable loss of information. The reconstruction of the whole transcriptional group with a local observation value has a high degree of uncertainty. The existing methods are generally faced with the problems of low reconstruction accuracy and relying on auxiliary annotation. In view of the above problems, combined with the technical characteristics of RNA-Seq, RNA-Seq is modeled as an information transfer system, and transcripts and segments are modeled as signal sources and observation signals, respectively. The uncertainty of the system is analyzed by information theory. A method based on information channel is proposed to reconstruct and analyze the transcriptional group by optimizing the amount of information transmission to reduce the uncertainty of data. The main contents of the proposed method are as follows: first, the automatic assembly of the gene structural units and the reconstruction of the splicing isomers are carried out. In the annotation mode, the automatic assembly work includes: completing the rough division of expression area step by step, identifying gene loci, and modifying the result of sub exon recognition. The reconstruction of candidate splicing isomers is constructed with a directed graph, and the path costs of different properties are calculated by using the structure characteristics of the graph, and the path is screened effectively. Secondly, based on the maximum information conduction model, the simultaneous splicing isomer identification and the estimation of the transcriptional abundance are carried out. In this paper, the RNA-Seq process is modeled as an information transfer channel, and the mutual information is used to measure the correlation degree between the sequenced segments and the feasible splicing isomers, and the information channel capacity is estimated. We directly model and control the data uncertainty caused by information missing and segment ambiguity matching, and recover the signal source by maximizing information transmission. The experimental results show that the proposed method has a prominent effect on identifying the complex structure of the gene / splice isomer. Finally, we extend the algorithm framework to the case of a given gene tagging, and implement the reconstitution of the transcriptome in the labeled model. At the same time, the software for the analysis of the transcriptional group is developed based on the integrated algorithm. Under given labeling conditions, we compare and fuse the results of automatic assembly of gene / splice isoforms with existing annotations, and further identify new gene loci and alternative splicing structures. The software can be used for antagged mode and annotation mode, suitable for different applications.
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q811.4

【相似文献】

相关期刊论文 前2条

1 王峰;黄璐圆;;人锰超氧化物歧化酶基因剪接异构体的表达分析[J];生物技术通报;2010年03期

2 ;[J];;年期

相关会议论文 前7条

1 任伟;陆超;张永梅;周国平;;两种新的干扰素调节因子-3剪接异构体的结构及表达[A];中华医学会第五次全国儿科中青年学术交流大会论文汇编(上册)[C];2008年

2 柴祥;何涛;倪海波;殷文江;李亨;高殿帅;;GDNF剪接异构体在小鼠中枢神经系统中表达的研究[A];中国解剖学会2013年年会论文文摘汇编[C];2013年

3 金蕊;周国平;袁文霄;徐华国;任伟;庄丽丽;;哮喘相关基因ORMDL3新剪接异构体的克隆鉴定[A];中华医学会呼吸病学年会——2011(第十二次全国呼吸病学学术会议)论文汇编[C];2011年

4 富显果;张朵;张晓;柯龙凤;严爱贞;朱忠勇;兰风华;;脆性X智力障碍1基因新型可变剪接外显子和剪接异构体的鉴定[A];第八次全国医学遗传学学术会议(中华医学会2009年医学遗传学年会)论文摘要汇编[C];2009年

5 刘永;胡成钰;;草鱼ADAR1剪接异构体基因的鉴定与组织表达分析[A];中国水产学会鱼病专业委员会2013年学术研讨会论文摘要汇编[C];2013年

6 刘玉松;刘肖萍;张志远;范旭;赵琳;张凤华;徐红运;段二珍;卢晓艳;夏平安;崔保安;;猪IgGIIB类Fc受体剪接异构体的分子特征[A];中国畜牧兽医学会动物传染病学分会第四次猪病防控学术研讨会论文集[C];2010年

7 李军华;余章龙;昌鸣先;;草鱼PGRP6剪接异构体的克隆与表达模式分析[A];中国水产学会鱼病专业委员会2013年学术研讨会论文摘要汇编[C];2013年

相关博士学位论文 前2条

1 任伟;干扰素调节因子3第二内含子内剪接异构体1的转录调控[D];南京医科大学;2011年

2 覃艳红;L型PML-RARα融合基因不同剪接异构体对维甲酸诱导分化的影响及与剪接因子hnRNPA1、ASF/SF2的相关性研究[D];山西医科大学;2011年

相关硕士学位论文 前5条

1 罗超;TCF4N剪接异构体在食管癌细胞中的表达研究[D];重庆医科大学;2015年

2 杨扬;基于信息通道模型的转录组重建与分析关键技术研究[D];清华大学;2015年

3 王怡;干扰素调节因子3第二内含子中新剪接异构体2核心启动子的功能特征[D];南京医科大学;2011年

4 袁文霄;人ORMDL3基因第一内含子内剪接异构体启动子的转录调控研究[D];南京医科大学;2012年

5 刘玉松;猪IgGⅡB类Fc受体剪接异构体克隆与活性鉴定[D];河南农业大学;2010年



本文编号:1344812

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/1344812.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6042***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com