小鼠脑发育相关IncRNAs的高通量筛选及注释平台构建
发布时间:2017-09-10 19:41
本文关键词:小鼠脑发育相关IncRNAs的高通量筛选及注释平台构建
更多相关文章: 长非编码RNAs 脑发育 RNA-Seq 注释平台 共表达
【摘要】:长非编码RNAs(lnc RNAs)是长度在200 nt以上的非编码RNAs,在胚胎发育、癌症、病痛和炎症等过程中发挥重要的作用。然而,目前公共数据库中小鼠lnc RNAs数据较少,而其中被功能注释的则更少。脑组织是lnc RNAs表达的主要器官,预测脑表达lnc RNAs对于全面识别小鼠脑发育相关的lnc RNAs及认识其在脑发育中的作用具有重要意义。此外,将预测的lnc RNAs与已知lnc RNAs进行整合、注释并存储进专门的数据库中对于lnc RNAs的规范化和再利用具有重要意义。小鼠DNA元件百科全书计划测定了大量组织和细胞系的RNA测序(RNA-Seq)和染色质免疫共沉淀测序等高通量数据,对于预测新的lnc RNAs提供了一个新的思路。因此,本研究收集大量组织和细胞系的RNA-Seq数据,基于RNA-Seq筛选鉴别新lnc RNAs,通过基因组、转录组、表观基因组和功能基因组学表征证明其有效性,利用模型进行特征选择从而筛选脑发育相关的lnc RNAs。整合已知和基于大规模RNA-Seq数据预测的lnc RNAs,构建lnc RNAs注释平台和开发分析工具,便利研究人员的使用。本论文首先对已有的RNA-Seq流程进行优化,进而筛选胚胎脑发育相关的基因间、内含子和顺式反义3种类型lnc RNAs。分别从基因组、转录组、表观基因组和功能基因组学方法表征胚胎脑发育相关的新lnc RNAs,并与已知lnc RNAs和编码转录本进行比较。结果表明新lnc RNAs具有相对完整的基因结构及较低的编码潜能,具有与已知lnc RNAs相似的组织特异性,并与典型的染色质修饰相关。功能富集分析和基于RNA干扰的分析结果表明胚胎脑发育相关的lnc RNAs具有潜在的脑发育调控功能和结合转录因子发挥功能的倾向。随机挑选的lnc RNAs的实验验证结果进一步表明lnc RNAs具有较强的发育阶段特异性并且可能受到印记机制调控。其次,LASSO调整的罗杰斯特回归模型在本论文中被用于筛选lnc RNAs与编码转录本之间的基因组和表观基因组学差异。由于使用了3个发育阶段的染色质修饰数据,因此差异的特征可并用于筛选脑发育过程相关的lnc RNAs。对模型进行十倍交叉证实和独立检验集测试后发现特征选择模型的性能和只使用基因组特征和染色质修饰特征相近,表明少数特征对lnc RNAs的预测发挥了主要作用。基于特征选择模型对3个发育阶段的RNA-Seq数据预测的候选lnc RNAs进行进一步筛选。通过对新lnc RNAs进行的基因组、转录组和功能基因组学方法表征表明模型筛选脑发育相关lnc RNAs的有效性。研究lnc RNAs与临近编码基因的关系后发现lnc RNAs倾向于与临近编码基因共表达,表明lnc RNAs可能调控临近基因。当使用模型分析lnc RNAs特异性后,发现lnc RNAs在脑发育过程中的表达特异性受到发育阶段特异的染色质修饰调控,例如H3K4me1和H3K36me3,但并未发现受到基因组特征调控,表明LASSO模型具有脑发育过程特异lnc RNAs的识别能力。原位杂交结果验证了随机挑选的lnc RNAs的脑发育特异性,而半定量RT-PCR结果发现胚胎发育阶段特异表达的lnc RNAs倾向于具有脑组织特异性。再次,目前公共数据库中lnc RNAs的数目较少,于是整合基于大规模的RNA-Seq数据预测的lnc RNAs和已知lnc RNAs注释,从而识别出了约26万个lnc RNA转录本,称之为lnc RNA合集。其中新lnc RNAs占75%,暗示大部分小鼠lnc RNAs尚未被报道。分析发现该合集中新lnc RNAs具有脑器官特异性,但没有发育阶段特异性。对新lnc RNAs和已知转录本进行加权共表达网络分析发现了57个模块,其中对脑组织表达的转录本模块进行的表达谱热图和GO生物学过程富集分析表明脑模块中脑特异基因的富集,为功能注释奠定基础。基于随机化实验确定的共表达阈值,筛选了12 548个预测的具有功能的lnc RNAs,其中包括3 128个预测的脑功能相关的lnc RNAs。进一步利用牵连获罪(guilt by association)方法预测新lnc RNAs的功能,结果发现预测出功能的新lnc RNAs数量比基于加权共表达网络的方法的数量多1倍,并且注释的功能条目数目要多2倍以上,突出了这种方法在预测lnc RNAs功能方面的作用。基于交叉证实和独立测试数据的检验初步证明牵连获罪方法的有效性。最后,对lnc RNA合集中脑表达的lnc RNAs进行筛选,得到约246 464个lnc RNAs。对这些lnc RNAs进行基因组和功能基因组注释,发现已知基因注释仅能覆盖不足1/3的lnc RNAs;而几乎所有的lnc RNAs都可以通过Entrez Gene ID得以在基因组定位,因此lncbrain注释平台中可以通过该ID进行lnc RNAs查询。对lnc RNAs的注释存储在建立的lncbrain注释平台中,该平台具有较优的平台设计架构及可视化界面,可对查询进行流畅的响应。平台中除了有预先计算好的基因组注释,还有支持使用者实时的表观基因组和功能基因组分析模块。此外,本文还对lncbrain平台的使用进行了详细的介绍。综上所述,本文筛选了大量的脑表达的lnc RNAs,并构建lnc RNA合集。对lnc RNAs进行了基因组、转录组、表观基因组和功能基因组学注释。构建的平台有助于实验人员进行脑功能lnc RNAs的筛选及生物信息学研究人员进行lnc RNAs的大规模研究。
【关键词】:长非编码RNAs 脑发育 RNA-Seq 注释平台 共表达
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q78
【目录】:
- 摘要4-6
- Abstract6-15
- 第1章 绪论15-37
- 1.1 课题背景及研究的目的和意义15-17
- 1.1.1 课题背景15-16
- 1.1.2 研究的目的和意义16-17
- 1.2 lnc RNAs介绍17-23
- 1.2.1 lnc RNAs的序列特性17-18
- 1.2.2 lnc RNAs的基因组特性18-20
- 1.2.3 lnc RNAs的转录调控20
- 1.2.4 lnc RNAs的功能20-23
- 1.3 lnc RNAs在脑发育中的作用23-25
- 1.3.1 lnc RNAs在脑发育中的调控作用23-24
- 1.3.2 lnc RNAs失调在神经系统疾病中的作用24-25
- 1.4 lnc RNAs的预测和注释的研究进展25-32
- 1.4.1 lnc RNAs大规模预测的研究进展25-28
- 1.4.2 基于RNA-Seq的lnc RNAs筛选的研究进展28-30
- 1.4.3 lnc RNAs功能注释的研究进展30
- 1.4.4 lnc RNAs注释平台建设的研究进展30-32
- 1.5 本文的主要研究内容32-37
- 1.5.1 RNA-Seq筛选胚胎脑发育相关的lnc RNAs32-33
- 1.5.2 基于模型的脑发育相关lnc RNAs的识别33-34
- 1.5.3 基于共表达信息的lnc RNAs功能注释34-35
- 1.5.4 脑表达lnc RNAs合集及其注释平台构建35-36
- 1.5.5 技术路线36-37
- 第2章 材料与方法37-51
- 2.1 实验材料37-40
- 2.1.1 高通量测序数据37
- 2.1.2 基因组注释数据37
- 2.1.3 功能基因组数据37-38
- 2.1.4 实验动物及实验材料38
- 2.1.5 实验仪器、网站和软件38-40
- 2.2 生物信息学方法40-46
- 2.2.1 转录组测序数据分析40-41
- 2.2.2 染色质修饰测序数据分析41-42
- 2.2.3 预测lnc RNAs的整合模型42-43
- 2.2.4 基因功能富集分析43-46
- 2.2.5 统计学分析46
- 2.3 分子生物学方法46-50
- 2.3.1 胚胎及组织的获取46
- 2.3.2 核酸的提取等常规分子生物学技术46-48
- 2.3.3 RNA探针的制备48-49
- 2.3.4 原位杂交实验49-50
- 2.4 本章小结50-51
- 第3章 RNA-Seq筛选胚胎脑发育相关的lnc RNAs51-69
- 3.1 引言51
- 3.2 基于RNA-Seq筛选lnc RNAs51-53
- 3.3 胚胎脑发育lnc RNAs的基因组表征53-58
- 3.4 胚胎脑发育lnc RNAs的转录组表征58-60
- 3.5 胚胎脑发育lnc RNAs的表观基因组表征60-62
- 3.6 胚胎脑发育lnc RNAs的功能基因组表征62-66
- 3.7 胚胎脑发育lnc RNAs的验证66-68
- 3.8 本章小结68-69
- 第4章 基于模型的脑发育相关lnc RNAs的识别69-89
- 4.1 引言69
- 4.2 LASSO模型的构建和特征选择69-73
- 4.3 基于LASSO模型的性能分析73-77
- 4.3.1 LASSO模型的交叉证实和独立检验73-75
- 4.3.2 LASSO模型的参数对模型性能的影响75-76
- 4.3.3 LASSO模型特征选择的稳定性分析76-77
- 4.4 脑发育特异lnc RNAs的筛选和表征77-81
- 4.5 脑发育特异lnc RNAs对临近基因的调控81-84
- 4.6 染色质修饰调控脑发育特异lnc RNAs84-86
- 4.7 脑组织特异的lnc RNAs的验证86-88
- 4.8 本章小结88-89
- 第5章 基于共表达信息的lnc RNAs功能注释89-105
- 5.1 引言89
- 5.2 基于RNA-Seq的候选lnc RNAs的筛选及表征89-93
- 5.3 基于RNA-Seq的加权共表达模块分析93-96
- 5.4 基于共表达网络的lnc RNAs功能预测96-98
- 5.5 牵连获罪方法预测lnc RNAs的功能98-104
- 5.6 本章小结104-105
- 第6章 脑表达lnc RNAs合集及其注释平台构建105-124
- 6.1 引言105
- 6.2 小鼠脑发育过程表达的lnc RNA合集105-108
- 6.3 注释平台lncbrain中lnc RNAs的注释108-110
- 6.4 注释平台lncbrain的架构110-111
- 6.5 注释平台lncbrain的功能介绍111-122
- 6.6 本章小结122-124
- 结论124-126
- 参考文献126-139
- 附录Ⅰ139-144
- 附录Ⅱ144-145
- 攻读博士学位期间发表的论文及其它成果145-147
- 致谢147-148
- 个人简历148
本文编号:826258
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/826258.html