基于组学及临床数据的疾病lncRNA挖掘方法研究
发布时间:2017-05-24 08:21
本文关键词:基于组学及临床数据的疾病lncRNA挖掘方法研究,,由笔耕文化传播整理发布。
【摘要】:步入新世纪以来,随着生物研究的不断深入与新一代测序技术的快速发展,生物研究与生物信息研究逐渐深入到分子水平上,越来越多的生物大分子的功能被进一步揭示出来。起初,人们专注于研究蛋白质分子与编码蛋白的编码RNA,然而,慢慢地人们逐渐认识到之前被看成“转录垃圾”的非编码RNA也扮演着很多重要的角色。lnc RNA是非常重要的一类非编码RNA,它与生命体的多种生命过程密切相关,它的重要性逐渐被广大生物信息研究人员所认识,并且吸引了越来越多的生物与生物信息研究人员投身其中。本文主要研究基于组学及临床数据的疾病预后相关的lnc RNA挖掘方法。首先综合分析了国内外的研究现状,并详细介绍了TCGA相关数据。然后对数据进行了有效的整合,通过对当前的变量选择方法的详细介绍与比较分析,最终确定了以lasso变量选择为核心的研究方法。接着,利用最小二乘法对lnc RNA的权重系数进行计算,并据此对病人的生存时间进行有效的评估。随后,对训练组和测试组进行生存分析,通过生存分析与训练对照的方法来证实挖掘出的lnc RNA的有效性。最后,借助m RNA对lnc RNA挖掘结果进行GO和Pathway的功能富集分析,探究这部分lnc RNA的潜在功能,进而验证挖掘方法的正确性。此外,本文将该疾病预后相关的lnc RNA挖掘方法应用到肺癌数据中,完成了对肺癌预后相关的lnc RNA挖掘。结果表明:预测出的18个与肺癌病人预后相关的lnc RNA在训练集与测试集中,均很好地预测了肺癌病人的预后情况,通过Log Rank检验,其P值均小于0.01,具有极大的显著性;进一步GO和Pathway的功能富集分析显示,这部分lnc RNA与很多免疫有关的节点和通路有关,并且还与含氧反应以及氧脂素的合成有关,以上事实充分说明了通过该方法挖掘出的lnc RNA与肺癌的发生发展以及病人的预后有着潜在的关联。
【关键词】:lnc RNA 变量选择 TCGA 功能富集
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:R318;TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第1章 绪论8-16
- 1.1 课题背景及研究的目的和意义8-11
- 1.1.1 课题背景8-10
- 1.1.2 研究的目的和意义10-11
- 1.2 国内外研究现状11-13
- 1.2.1 国内研究现状11-12
- 1.2.2 国外研究现状12
- 1.2.3 国内外研究简析12-13
- 1.3 本文主要研究工作13-14
- 1.4 本文组织结构14-16
- 第2章 相关生物学数据介绍16-25
- 2.1 引言16-17
- 2.2 TCGA简介17-18
- 2.3 LNCRNA相关数据18-21
- 2.4 癌症预后相关数据21-23
- 2.5 本章小结23-25
- 第3章 疾病预后相关的LNCRNA挖掘25-37
- 3.1 引言25-26
- 3.2 算法总体结构26-27
- 3.3 数据整合27-28
- 3.4 常用变量选择方法28-30
- 3.4.1 基于信息论的准则28-29
- 3.4.2 基于Bayes方法的准则29
- 3.4.3 基于预测误差的准则29-30
- 3.4.4 基于系数压缩的准则30
- 3.5 LASSO与最小二乘法30-33
- 3.5.1 LASSO30-32
- 3.5.2 最小二乘法32-33
- 3.6 生存分析与训练测试33-34
- 3.6.1 生存分析33-34
- 3.6.2 训练测试34
- 3.7 LNCRNA功能分析34-35
- 3.8 本章小结35-37
- 第4章 肺癌预后相关的LNCRNA预测37-52
- 4.1 引言37-38
- 4.2 肺癌相关数据38-43
- 4.2.1 肺癌lnc RNA表达数据38-40
- 4.2.2 肺癌病人预后数据40-42
- 4.2.3 肺癌数据整合42-43
- 4.3 肺癌训练集与测试集43-46
- 4.3.1 训练集与测试集划分43-44
- 4.3.2 训练集与测试集检验44-46
- 4.4 肺癌预后相关的LNCRNA挖掘46-47
- 4.4.1 lnc RNA选取与权重计算46
- 4.4.2 生存分析46-47
- 4.5 肺癌LNCRNA功能分析47-51
- 4.5.1 m RNA的选取47-48
- 4.5.2 GO和Pathway富集48-51
- 4.6 本章小结51-52
- 结论52-53
- 参考文献53-56
- 攻读硕士学位期间发表的论文56-58
- 致谢58
【参考文献】
中国期刊全文数据库 前1条
1 杨玲,李连弟,陈育德,Donald Maxwell Parkin;中国肺癌死亡趋势分析及发病、死亡的估计与预测[J];中国肺癌杂志;2005年04期
本文关键词:基于组学及临床数据的疾病lncRNA挖掘方法研究,由笔耕文化传播整理发布。
本文编号:390247
本文链接:https://www.wllwen.com/yixuelunwen/swyx/390247.html