【摘要】:背景和目的在全球范围内,肺癌发病率和死亡率均居于恶性肿瘤首位,其中约85%肺癌为非小细胞肺癌(non-small cell lung cancer,NSCLC)。目前尚缺乏有效的早期诊断方法,很多肺癌患者初诊时已处于中晚期,错过了最佳治疗时间。高通量测序技术和分析方法的不断发展完善,为研究肺癌肿瘤标志物提供了新的思路和方法。肿瘤的形成是一个多基因参与、多因素相互作用、多阶段发展的复杂的生物学过程,这个过程涉及到原癌基因突变、转录本表达谱改变以及蛋白质结构、功能或表达量异常。通过高通量测序技术从转录组水平来深入研究肺癌的分子学机制,可为肺癌早期诊断及靶向治疗提供理论依据。材料和方法本研究对两大公共数据库(GEO和ArrayExpress)进行了系统检索,共纳入了3个与肺癌相关转录组高通量测序(RNA sequencing,RNA-seq)数据和两个肺癌相关的TCGA RNA-seq数据(LUAD和LUSC),根据目前主流研究推荐重新搭建了RNA-seq数据分析流程,对3个GEO数据中的2个原始数据重新进行标准化流程分析,得到了转录组基因计数文件;对于2个肺癌相关的TCGA数据,由于没有获取原始测序文件的权限,因此直接利用GDC的API下载了TCGA提供的LUAD和LUSC转录组表达计数(counts)表达矩阵。随后对五个数据集进行了合并,利用DESeq2和edgeR进行差异表达分析,进而利用limma程序包去除批次效应(batch effect)并利用DESeq2程序包中vst功能进行正态化转换,获得可用于后续WGCNA和机器学习的基因表达矩阵。使用加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis,WGCNA)方法,对1327例NSCLC组织和231例癌旁正常对照的基因转录组表达谱构建基因共表达网络、划分基因模块并寻找与NSCLC密切相关的基因模块,对与NSCLC密切相关的模块进行基因本体(Gene Ontology,GO)和KEGG通路分析。将基因差异表达分析得出的结果与WGCNA结果进行联合分析,可以得到一批与NSCLC密切相关的差异表达基因,随后从去除批次效应并进行正态化转换的转录组表达数据中获取这些基因的表达数据,利用十折交叉验证结合机器学习的方法,构建NSCLC预测模型,在验证组对预测模型效果进行评价。结果DESeq2和edgeR程序包差异表达基因分析结果显示,当差异表达基因定义为|log_2FC|1且校正P0.01时,共有2956个基因在NSCLC中高表达,其中2124个基因为蛋白编码基因(mRNA),254个基因为lncRNA,578个基因为其他类型基因;共有1790个基因低表达,其中1565个基因为mRNA,96个为lncRNA,129个基因为其他类型基因。WGCNA网络中共划分了39个基因模块,其中2个模块与非小细胞肺癌呈强相关(宝石绿模块R~2=0.60,蓝色模块R~2=-0.79,均有P0.001),其中宝石绿模块与NSCLC最为密切。对宝石绿模块中基因的GO分析结果显示,这些基因为核染色体、染色体、中心体、微管组织中心、细胞骨架、微管、微管细胞骨架等组分,DNA结合、转录调控、结合ATP等生物学功能,参与增殖、细胞骨架和微观组织、有丝分裂细胞周期、核分裂、姐妹染色体分离、DNA代谢过程、DNA复制、DNA修复以及细胞DNA损伤刺激反应等生物学过程;KEGG通路分析显示宝石绿模块基因主要富集在细胞周期、卵母细胞减数分裂、细胞衰老等信号通路,模块中差异表达基因主要参与细胞周期、卵母细胞减数分裂、孕酮介导的卵母细胞成熟、细胞衰老、P53信号通路、同源重组等信号通路。这进一步揭示了NSCLC的分子学机制。WGCNA分析结果联合差异表达基因分析结果显示,与NSCLC最密切的宝石绿模块中,共有988个差异表达基因。利用十折交叉验证结合机器学习方法对1558例研究对象的988个基因表达矩阵分析结果显示,构建的多个NSCLC预测模型具有很好的分辨能力,这些模型在验证组中也表现良好,其中SVM、XGBoost、C5.0、PLS、AdaBoost和gbm等算法构建的模型在验证组数据中预测准确率可高达0.98以上;尽管JRip、PART、和rpart算法构建的半透明模型在验证组中准确率也较高,但是特异度较低,综合比较,选取SVM和XGBoost这类黑盒子算法模型作为最终NSCLC预测模型。本研究成功构建了多个准确度在0.98以上的NSCLC预测模型。结论本研究通过对常用公共数据库中与NSCLC相关的RNA-seq数据进行差异表达分析、WGCNA分析,筛选到一批与NSCLC密切相关差异表达基因,GO和KEGG富集分析结果进一步揭示了NSCLC的分子学机制;利用这些基因正态化后的表达数据,采用十折交叉验证结合机器学习的方法,成功构建了多个NSCLC预测模型,其中基于XGBoost、SVM、C5.0和PLS算法的预测模型在验证组中准确度均高于0.98,为RNA-seq数据用于NSCLC早期基因学诊断提供了理论依据。
【学位授予单位】:郑州大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:R734.2
【图文】: 挑选至少在 155 例(约占总数 10%)样本中 logCPM>1 的基因(最后保留19805 个基因),进行后续的差异表达基因分析。本研究利用 limma 程序包去除批次效应,然后用DESeq2集成的vst功能对数据进行正态化转换。结果见图3.1。3.3 差异表达基因筛选本研究使用 R 软件中的 DESeq2 程序包和 edgeR 程序包提供的算法,利用基因的表达计数文件进行分析,进行差异表达分析,利用 org.Hs.eg.db 程序包和GENECODE 提供的注释文件对筛选出来的差异表达基因进行注释[64, 65]。当筛选条件设定为|log2FoldChange|>1、FDR<0.01 时,DESeq2 筛选出 5085 个差异表达基因,其中上调基因为 3092 个,下调基因为 1993 个;edgeR 筛选出来 6175 个差异表达基因,其中上调基因为 4093 个,下调基因为 2082 个。对两个软件包筛选出来的差异表达基因求交集
21图 3.3 去除离群样本后样本层次聚类数与对应临床信息关系图 1:图中颜色深浅代表数字大小。 2:分类样本取值说明:Group:NSCLC:1,Control:0。Stage:I~IV 分期分别对应 1~4,照为 0。Smoking_status: 0: 不吸烟;1:已戒烟;2:现吸烟。
21图 3.3 去除离群样本后样本层次聚类数与对应临床信息关系图 1:图中颜色深浅代表数字大小。 2:分类样本取值说明:Group:NSCLC:1,Control:0。Stage:I~IV 分期分别对应 1~4,照为 0。Smoking_status: 0: 不吸烟;1:已戒烟;2:现吸烟。
【参考文献】
相关期刊论文 前10条
1 陈晓源;张晋雯;师秀艳;;HOXD13基因突变及所致疾病[J];沈阳医学院学报;2017年04期
2 司家瑞;;浅谈机器学习在医学大数据中的应用[J];科技展望;2016年23期
3 姚兰;陈书成;;过表达ITLN-1能抑制人子宫内膜癌Ishikawa细胞的增殖并诱导其凋亡[J];肿瘤;2016年05期
4 李策;聂彩辉;张力君;徐寒梅;;肿瘤标志物的应用及其筛选技术研究进展[J];药学进展;2014年01期
5 方耀敏;陈玉丙;;MAGE-3基因疫苗的构建及其免疫活性的实验研究[J];中国免疫学杂志;2013年12期
6 李广旭;宋平平;张百江;;黑色素瘤相关抗原(MAGE)基因在肺癌中的表达及意义[J];中国肺癌杂志;2013年06期
7 黎涛;白崇峰;马春山;于晋建;王云;;MAGE基因在非小细胞肺癌中的表达及其临床意义[J];实用医药杂志;2013年02期
8 徐晗;张斌;陈虎;;针对MAGE-3抗原的DC肿瘤疫苗的研究进展[J];中国肿瘤生物治疗杂志;2012年03期
9 刘涛;郭建极;;MAGE-1 mRNA在非小细胞肺癌外周血中基因的表达[J];临床肺科杂志;2012年06期
10 刘帮助;刘超;;MAGE基因在肺癌疫苗研究进展[J];国际呼吸杂志;2012年04期
相关博士学位论文 前3条
1 赵志洪;加权基因共表达网络分析(WGCNA)探索肺腺癌中的功能基因模块[D];北京协和医学院;2017年
2 王攀;加权基因共表达网络分析(WGCNA)在食管鳞癌中的应用[D];北京协和医学院;2014年
3 杨广民;联合应用MAGE-1与IL-18基因疫苗抗肝癌免疫治疗作用的实验研究[D];吉林大学;2010年
相关硕士学位论文 前4条
1 马星;MAGE-A3/C2在非小细胞肺癌中的表达及其临床意义的研究[D];郑州大学;2017年
2 尹丹静;黑色素瘤抗原-As在肺癌患者肿瘤组织及外周血中的表达及其临床意义[D];河北医科大学;2017年
3 刘涛;RT-PCR检测非小细胞肺癌外周血LUNX和MAGE-1基因的表达及意义[D];广西医科大学;2013年
4 李玉枫;黑色素瘤相关抗原-A3在肺癌中的表达及临床意义的研究[D];南方医科大学;2012年
本文编号:
2763169
本文链接:https://www.wllwen.com/yixuelunwen/zlx/2763169.html