当前位置:主页 > 科技论文 > 基因论文 >

肺腺癌和肺鳞癌特征性基因的筛选及使用SAM-GSR算法区分NSCLC亚型

发布时间:2020-03-18 02:35
【摘要】:肺癌在我国已成为发病率和死亡率最高的恶性肿瘤。其中,非小细胞肺癌(Non-small-cell lung carcinoma,NSCLC)占肺癌的85%以上。鳞状细胞癌(Squam-ous cell carcinomas,SCC)和腺癌(Adenocarcinomas,AC)是NSCLC最主要的两种病理类型。这两种肺癌的发生机制、生长过程等均有很大的不同,在临床治疗上也应该采用不同的治疗手段。然而,由于目前对SCC和AC发生分子机制方面的研究还比较缺乏,一般对这两种亚型采取相同的治疗措施,结果导致治疗效果不够理想。因此,本研究旨在利用生物信息学分析方法筛选SCC和AC特征基因,并通过基因的功能分析及上游调控因子的预测分析两种亚型潜在的不同致病机制。此外,目前已报道了一些特征选择的方法,但是都存在不同的缺点,尤其是对于单基因特征分析的准确性不高。因此,本研究还分析了特征选择算法SAM-GSR区分SCC和AC亚型和划分各亚型所属疾病阶段的可行性。首先从NCBI GEO数据库中搜索到四个合格的数据集(GSE10245,GSE18842,GSE2109和GSE43580)并获取相关表达谱数据,通过Meta QC包对数据进行质控检验和Meta DE包筛选显著差异表达的特征基因(也称为差异表达基因,DEGs)。利用rank函数和cor.test函数检验两两数据集间基因显著差异的相关性和一致性。其次,利用DAVID在线分析工具对DEGs分别进行GO功能和KEGG通路的富集分析。第三,综合STRING、Bio GRID和HPRD三个数据库中的人类蛋白-蛋白相互作用关系,取3者并集获得DEGs的蛋白相互作用关系,构建DEGs的蛋白互作关系网络,并利用Cytoscape3.3对网络可视化;用节点的度分布,节点接近程度,中介性核心性三个指标分析网络拓扑结构。对网络中每个节点的三个参数分别进行降幂排序,每个参数均取top100的节点,对三个参数top100的基因进行比较,选择交叠部分进行通路以及转录调控因子(Transcription Factor,TF)富集分析。第四,利用mi R2Disease数据库搜索与AC和SCC直接关联的mi RNAs。通过mi Randa数据库对疾病直接关联的mi RNA靶向的靶标基因进行检索。将靶标基因映射到之前筛选得到的重要基因中,再结合前一步得到的重要基因相关的TFs,构建疾病mi RNA和TF调控网络。接着,以GSE43580为训练数据集,其他三组表达谱数据为验证数据集,利用随机森林算法(RF)筛选最优重要基因,利用支持向量机(SVM)构建分类模型。最后,利用SAM-GSR算法分析了GSE50081数据集和癌症基因组图谱计划数据库(TCGA)的RNA-seq数据,相互交替作为训练集和验证集,分析SAM-GSR算法在NSCLC数据阶段划分中的性能以及与其它特征选择算法进行了性能比较。研究得到以下几个结果:(1)基于Meta DE包共筛选得到1201个一致性显著DEGs,其中661个显著下调表达的基因和540显著上调表达的基因。(2)GO功能和KEGG通路的富集分析表明这些DEGs显著富集的GO功能主要有细胞黏附、钙离子结合、生物黏着和表皮细胞分化等,而大多数DEGs显著富集的KEGG通路有细胞粘附分子、补体和凝血级联反应、糖酵解途径和黑素合成等。(3)在整合的相互作用网络中,共获得869对互作关系,包含529个基因节点,其中包括135个显著下调表达和394个显著上调表达的基因。通过各节点Degree、BC和CC值top100节点的排序并取交集,得到了39个重要基因。其中,上调的ELAVL1和MYC的度分布、BC和CC值均分别排名第一和第二。这39个重要基因显著富集到细胞周期通路,P53和TGF-β信号通路等,此共预测了8个显著相关的TFs,例如NFY,EGR1和NKX2-2等。(4)总共预测得到了5个与肺癌相关的mi RNAs(hsa-mi R-200b、hsa-mi R-205、hsa-mi R-18a、hsa-mi R-486和hsa-let-7a),且在整合的mi RNA-target-TF网络中,共包含32个节点,其中包括4个mi RNAs、8个TFs、3个显著下调和17个显著上调表达的基因;该网络中mi R-200b下游靶基因数目最多,包括ERRFI1,PPARGC1A和MAPK6;其次let-7a可能调控下游靶基因有EZH2、MAPK6、MYC、SUV39H1和TK1等。(5)RF算法提取出由5个基因构成的最优基因组合:SNCA、IFI16、MAPK6、ERRFI1和SFN,以包含样本数最多的GSE43580数据集作为训练数据集,基于前一步筛选得到的5个最优基因组合构建疾病亚型判别分类器,能够准确分类133个样本(75个AC和58个SCC),准确率为88.67%,用剩余的三个数据集验证结果表明该分类模型具有可重复性和可移植性。(6)各种算法的性能统计表示SAM-GSR算法较Lasso,Penalized SVM,DEGs+SVM和Radviz+SVM算法具有一定的可比性,SAM-GSR的信念混淆度量(BCM)值达0.609,精确回归曲线下面积(AUPR)值达0.63,分别排名第一和第二。结论:1.我们发现一系列角蛋白家族成员在鳞癌和腺癌样本间存在差异表达如KRT1、KRT4、KRT5、KRT6B、KRT15、KRT16、KRTAP19-1、KRT23、KRT75、KRT33A,且这些基因在鳞癌中的表达均高于腺癌。2.CDK1,CCND1,SFN和CHEK2可能通过调控细胞周期和P53信号通路,介导AC和SCC细胞增殖速度的不同,此外DEGs SMAD7和MYC富集在TGF-β信号通路,表明两种肺癌亚型可能在TGF-β信号通路调控上存在差异。3.上调的mi R200b可能通过下调ERRFI1和PPARGC1A在肺癌的发生中起重要作用,且该调控机制与鳞癌的相关性更大;下调表达的let-7a可能调控EZH2、SUV39H1、TK1和MYC在NSCLC的肿瘤形成中起促进作用,且其下游靶基因在肺鳞癌样本的表达高于腺癌,同样表明该调控机制与鳞癌的相关性更大。4.机器学习方法筛选出5个最优化的重要基因:SNCA、IFI16、MAPK6、ERRFI1、SFN,利用这5个基因在AC和SCC亚型样本中的表达特性构建的样本类型判别分类器,能够准确地识别不同亚型的肺癌样本,这对确定肺癌亚型,指定针对正确亚型指定治疗和防御方案具有重要作用。5.SAM-GSR算法可以应用于AC和SCC特征选择,对于疾病亚型的阶段划分较其它算法具有可比性。考虑到该算法存在通路信息不完整、未涉及路径拓扑知识和模型简约等缺点,因此也需要不断稍加修改SAM-GSR算法和在未来的工作中继续评估,以推进基于通路的特征选择算法的发展。
【图文】:

数据集合,质量控制图,表达谱


图 2.24 个表达谱数据集合 MetaQC 质量控制图。示主成分分析中的第一和第二主成分。1-4分别表示4个对应数据集合。等含义请参见方法中第二部分。ure2.2 MetaQC quality control charts of 4 expression data set.

层次聚类,热图,数据集,数据集中


protein 6 homolog(CDC6)、Forkhead box protein A1(FOXA1)等。基于筛选得到的1201个一致性显著DEGs在各个数据集中的表达值,利用heatmap.sig.genes函数,同时做4个数据集的双向层次聚类热图,如图2.3所示。由图可以看出,筛选得到的1201个DEGs在4个数据集AC和SCC样本中表达差异是明显的(红绿颜色分明),且差异情况一致性非常好(红绿分布位置在每个数据集中非常一致),说明1201个显著差异表达的基因在四个数据集中表达及差异模式(方向)的一致性。图2.3 四个数据集基于1201个显著DEGs双向层次聚类热图。从左到右以此表示GSE10245、GSE18842、GSE2109、GSE43580数据集。上方样本条中,,黑色和白色分别表示AC和SCC类型样本。Figure 2.3 Bidirectional hierarchical clustering image based on 1201 significantly differentexpression genes in the four data sets.From left to right to represent the GSE10245, GSE18842, GSE2109, and GSE43580 data sets. Inthe upper sample bar, black and white represent AC and SCC type samples
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:R734.2

【参考文献】

相关期刊论文 前10条

1 周航;武峰;;肺癌CT能谱成像:定量分析及与TTF-1和EGFR表达水平的相关性[J];放射学实践;2017年08期

2 朱利群;王纯;陈菊香;;血清miRNA-200b在非小细胞肺癌中的表达及其临床意义[J];实用癌症杂志;2017年07期

3 陈梦竹;王秀杰;夏立新;;肺腺癌和肺鳞癌中mRNA可变剪接特征的比较[J];深圳大学学报(理工版);2017年01期

4 黄仁飞;江倩;金蒙蒙;刘茵;杜婷;张妍蓓;;血清胸苷激酶1评估非小细胞肺癌化疗疗效的意义[J];实用医学杂志;2016年17期

5 赵丹;尹春岭;王重利;张晨;张丽丽;张海青;;细胞角蛋白7、甲状腺转录因子1、新天冬氨酸蛋白酶A、细胞角蛋白5/6、p40、p63在肺腺癌及鳞状细胞癌鉴别诊断中的价值[J];中国综合临床;2015年07期

6 罗旭;王聪;范宁;罗文超;徐飞;李岩;;S100A4在肺鳞癌与肺腺癌细胞中的表达差异和生物学作用[J];大连医科大学学报;2015年02期

7 韩戍君;邵永平;刘健康;;抑癌基因MIG-6与肿瘤[J];中国生物化学与分子生物学报;2014年11期

8 楚荷莹;常静侠;王华启;张国俊;;吉非替尼单药二线治疗非小细胞肺癌的临床疗效[J];中国现代药物应用;2014年16期

9 张雷;王琳琳;张旭东;刘世荣;孙鹏森;王同立;;随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例[J];生态学报;2014年03期

10 魏辉;侯俊明;董明;杜宁;任宏;;Hsa-let-7诱导肺癌细胞凋亡与G_0/G_1期阻滞及其分子机制[J];现代肿瘤医学;2013年11期

相关博士学位论文 前1条

1 王莉;在肺癌发生中Smad7对TGF-β信号通路的调控[D];重庆医科大学;2005年

相关硕士学位论文 前4条

1 王天骄;识别早期非小细胞肺癌不同亚型间差异表达基因的Meta分析[D];吉林大学;2016年

2 陈明达;肺腺癌CircRNA芯片筛选及其调控机制探讨[D];华北理工大学;2016年

3 周楠楠;S100A8和S100A9在肺腺癌及肺鳞癌中的表达及临床意义[D];河南大学;2015年

4 沈旦;MiR-205调控非小细胞肺癌细胞发生上皮—间充质转化过程的机制研究[D];苏州大学;2014年



本文编号:2588077

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2588077.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7c925***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com