基于GEO/TCGA数据库识别GNG2基因在乳腺癌发生发展中的作用研究
发布时间:2021-01-06 14:10
第一部分基于GEO/TCGA数据库识别乳腺癌差异基因 GNG2目的:整合GEO和TCGA大样本数据库,采用生物信息学方法筛选出在乳腺癌中具有重要研究价值的差异基因,为进一步发现乳腺癌新的治疗靶点和预后标志物提供理论依据。方法:从GEO数据库下载乳腺癌和正常对照的m RNA表达数据,共计三个芯片(GSE45827,GSE50428,GSE57297),204个样本被纳入差异基因筛选体系,其中乳腺癌样本有181个,正常对照样本有23个。同时,每个芯片所对应的平台注释文件也被下载下来。之后,根据注释文件将探针转换为基因名称(如果一个基因名称对应多个探针,则取平均值)。将三个芯片的原始数据合并之后,利用R(3.5.1)中的Sva包进行批次矫正。接下来,利用R(3.5.1)中的limma包对矫正后的数据进行差异分析,筛选标准为:FDR≤0.05,|log Fold Change(FC)|≥1,adjust P≤0.01,并利用TCGA数据库对筛选的差异基因进行验证。随后,使用R(3.5.1)中的pheatmap包对差异基因进行聚类分析;使用R(3.5.1)中的Cluster Profiler包对...
【文章来源】:重庆医科大学重庆市
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
实验流程图
重庆医科大学硕士研究生学位论文26图1.2联合分析体系的批次矫正(A.批次矫正前B.批次矫正后)Figure1.2Batchnormalizationofjointanalysissystem(A.BeforebatchnormalizationB.Afterbatchnormalization)批次矫正成功之后,便可进行下游的差异基因分析。使用基于R运行环境的Limma程序包对联合分析体系进行差异分析,以|logFoldChange|≥1.2,adjustP<0.01为筛选条件,共筛选出1321个差异基因,其中上调的基因有624个,下调的有697个。使用Pheatmap程序包对差异基因进行聚类分析,聚类热图如图1.3所示。按|logFlodChange|值进行排序,乳腺癌中上调的前十个基因和下调的前十个基因在热图中进行分开展示。
重庆医科大学硕士研究生学位论文27图1.3差异基因热图Figure1.3Heatmapofdifferentialexpressiongenes3.2差异基因验证为了进一步证实基于GEO数据库分析得来的差异基因的准确性,我们利用TCGA数据库进行验证。我们从TCGA数据库共下载到1230个乳腺样本,包括1109个乳腺癌样本和121个正常组织样本。从基于GEO联合分析体系筛选得来的差异基因中随机选择5个上调和5个下调的差异基因,用TCGA中的数据进行验证,结果表明这些差异基因在TCGA数据库中呈一致的差异趋势(如图1.4),提示基于联合分析体系得来的差异基因是准确可靠的。图1.4差异基因验证(表达值取2的对数处理)Figure1.4Verificationofdifferentialexpressiongenes(Theexpressionvalueislogarithmicof2)3.3GO和KEGG富集分析
【参考文献】:
期刊论文
[1]中国女性乳腺癌筛查指南[J]. 黄育北. 中国肿瘤临床. 2019(09)
[2]全球女性乳腺癌流行情况研究[J]. 师金,梁迪,李道娟,王立群,靳晶,张亚琛,贺宇彤. 中国肿瘤. 2017(09)
[3]基于Cytoscape的蛋白质网络可视化聚类分析插件[J]. 唐羽,李敏. 生物信息学. 2014(01)
[4]乳腺癌病因的高危因素分析[J]. 祁玉娟. 青海医药杂志. 2009(04)
[5]Perl程序设计语言综述[J]. 刘步权,廖湘科,吴庆波. 计算机工程与应用. 2002(18)
硕士论文
[1]GPC4在白色脂肪细胞褐变过程中的作用及其机制[D]. 李秋锦.重庆医科大学 2019
[2]乳腺癌100例临床预后的COX分析[D]. 任虎虎.新疆医科大学 2010
本文编号:2960712
【文章来源】:重庆医科大学重庆市
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
实验流程图
重庆医科大学硕士研究生学位论文26图1.2联合分析体系的批次矫正(A.批次矫正前B.批次矫正后)Figure1.2Batchnormalizationofjointanalysissystem(A.BeforebatchnormalizationB.Afterbatchnormalization)批次矫正成功之后,便可进行下游的差异基因分析。使用基于R运行环境的Limma程序包对联合分析体系进行差异分析,以|logFoldChange|≥1.2,adjustP<0.01为筛选条件,共筛选出1321个差异基因,其中上调的基因有624个,下调的有697个。使用Pheatmap程序包对差异基因进行聚类分析,聚类热图如图1.3所示。按|logFlodChange|值进行排序,乳腺癌中上调的前十个基因和下调的前十个基因在热图中进行分开展示。
重庆医科大学硕士研究生学位论文27图1.3差异基因热图Figure1.3Heatmapofdifferentialexpressiongenes3.2差异基因验证为了进一步证实基于GEO数据库分析得来的差异基因的准确性,我们利用TCGA数据库进行验证。我们从TCGA数据库共下载到1230个乳腺样本,包括1109个乳腺癌样本和121个正常组织样本。从基于GEO联合分析体系筛选得来的差异基因中随机选择5个上调和5个下调的差异基因,用TCGA中的数据进行验证,结果表明这些差异基因在TCGA数据库中呈一致的差异趋势(如图1.4),提示基于联合分析体系得来的差异基因是准确可靠的。图1.4差异基因验证(表达值取2的对数处理)Figure1.4Verificationofdifferentialexpressiongenes(Theexpressionvalueislogarithmicof2)3.3GO和KEGG富集分析
【参考文献】:
期刊论文
[1]中国女性乳腺癌筛查指南[J]. 黄育北. 中国肿瘤临床. 2019(09)
[2]全球女性乳腺癌流行情况研究[J]. 师金,梁迪,李道娟,王立群,靳晶,张亚琛,贺宇彤. 中国肿瘤. 2017(09)
[3]基于Cytoscape的蛋白质网络可视化聚类分析插件[J]. 唐羽,李敏. 生物信息学. 2014(01)
[4]乳腺癌病因的高危因素分析[J]. 祁玉娟. 青海医药杂志. 2009(04)
[5]Perl程序设计语言综述[J]. 刘步权,廖湘科,吴庆波. 计算机工程与应用. 2002(18)
硕士论文
[1]GPC4在白色脂肪细胞褐变过程中的作用及其机制[D]. 李秋锦.重庆医科大学 2019
[2]乳腺癌100例临床预后的COX分析[D]. 任虎虎.新疆医科大学 2010
本文编号:2960712
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2960712.html
最近更新
教材专著