基于芯片数据和文本挖掘的胶质瘤生物信息学分析
发布时间:2019-08-08 19:21
【摘要】:目的: 胶质瘤是目前人们生活中一种常见的多发的肿瘤疾病。作为一种恶性肿瘤,严重影响人们的生活质量和日常的工作。虽然基于单个基因的研究已经有所报道,但是对于基因间的互作及基因功能的富集分析的研究目前还很少。因此本文提出基于基因芯片对胶质瘤的研究。本实验采用芯片分析技术和文本挖掘技术对胶质瘤进行生物信息学分析,筛选差异表达基因、差异共表达基因及及差异共表达关系对,构建分子差异调控网络、蛋白质互作网络、生物学通路间的交互网络,并进行功能富集,以阐明胶质瘤的发生发展作用机制,为胶质瘤的诊断治疗奠定理论基础。 方法: 从GEO数据库下载芯片数据GSE4290,选取其中77例胶质瘤样本和23例正常对照样本进行后续生物信息学分析分析。使用R软件limma包中的T_test法计算差异表达基因(DEGs),选取P-value0.05及|logFC|2为显著性阈值,筛选差异表达基因。使用DAVID在线工具对差异表达基因进行GO功能注释;使用cytoscape软件构建蛋白质与蛋白质相互作用(PPI)网络;Cytoscape的插件ClusterONE进行模块划分,并随后进行显著的模块进行功能富集分析。 使用R软件中的Affy包和limma包筛选差异表达基因,选择阀值|logFC|0.6且Pvalue0.05,再使用R软件DCGL包中的DCe、DCp和DCsum函数,选择阀值q0.25作为差异共表达基因(Differential Coexpression Gene,DCG)和差异共表达关系(Differentially Co-expressed Link,DCL)的筛选条件。DAVID在线工具对差异共表达基因(DCGs)进行KEGG pathway显著性富集分析。用Cytoscape构建差异共表达基因的转录调控网路,随后使用Cytoscape插件ClusterONE对其进行模块分析,选取最显著的前5个模块进行功能富集分析。 基于自然语言处理法进行文本挖掘分析,然后在人与小鼠的基因同源性数据MGD的基础上,挖掘与胶质瘤相关的突变基因。利用cytoscape软件进行分子相关关系网络的构建。采用DAVID在线工具进行KEGGpathway和GO功能富集分析。 结果: 1.共筛选到548个差异表达基因,包括441个下调基因和107个上调基因。PPI网络中共包含1305个节点和1604条边。选取最显著的前5个子模块进行子网络模块分析,这5个子模块的中心节点基因依次为:FN1、GNAO1、STX1A、CDK1、CHGB。子模块的GO富集结果主要为:extracellular region part,vesicle-mediated transport, cell cycle process, nucleoplasm等。KEGG pathway富集结果主要是:ECM-receptor interaction, long-term depression, SNARE interactions invesicular, cell cycle等。 2.共筛选到999个差异共表达基因(DCGs)和1833200对差异共表达关系。差异共表达调控网络共包含1441节点和2127条边。前5个子模块的节点基因分别为:模块1:STAT1、STAT3、STAT4、PLAU;模块2:EPAS1;模块3:BPTF;模块4:CBFB、NFYB;模块5:EGR3。差异共表达模块的GO估计主要结果为:enzyme binding, protein modification by small protein conjugation or removal,muscle cell differentiation, mitotic cell cycle, pore complex等。 3.共筛选到52518个人类分子互作关系对,其中人与老鼠同源的分子关系对为27526个。此外,筛选到9个与胶质瘤相关的突变基因。胶质瘤相关基因的互作网络中共包含875个节点和1068条边,其中连接度最高的基因为:TP53、CDKN2A、PTEN、NF1、TG等。显著富集的KEGG pathway为:p53signalingpathway, pathways in cancer, cell cycle等。显著富集的GO功能为:nucleoplasmand regulation of cell death等。 结论: 通过筛选差异表达基因和共表达基因,构建PPI网络和转录调控网络,随后进行功能富集分析;此外,结合文本挖掘技术筛选胶质瘤相关的突变基因,,构建胶质瘤相关分子的互作网络,并进行功能富集分析;筛选到与胶质瘤显著相关的差异表达基因、差异共表达基因、突变基因及通路,为进一步深入研究胶质瘤的发病机制提供有力的依据,为今后胶质瘤的基因治疗探明药物作用靶点。
【图文】:
图 1.1 基因芯片测序原理1.3.3 基因芯片数据的分析基因芯片可一次性地检测上万个基因的表达,面对如此海量的数据,单基因的分析方法已不适用。而基因芯片数据分析可通过数据筛选、基因聚类等方法,将海量的芯片数据进行整合,以期发现基因表达与分子生物学功能之间的联系。此外,基因芯片的数据分析可将无机的信息数据和有机的生命活动结合起来,用以解释基因在相关疾病的发病机制中所发挥的作用。基因芯片的数据分析包括前期实验设计、数据预处理和后期的数据分析等。实验设计是整个芯片数据分析的基础,也是最重要的一部分。芯片扫描得到的原始数据由于背景较杂、存在一些测序误差等原因,可信度较低,需经过数据预处理及归一化,才能进行更高水平的分析。后续数据分析的第一步是筛选差异表达基因。差异表达基因分析是为了筛选在不同实验条件、不同实验样品中表达水平
1.2 GEO平台、样本、数据集和表达谱之间关系示意图:对平台上的每个(比如基因A),有多个样本(样本1-样本3)测量值。相关样本构成一个据集,从表达谱中可产生多个或单个基因表达个体。.5 文本挖掘文本挖掘是应用计算机算法及程序对文本进行分析,从而理解其所包含的和意义[27]。在生物医药领域中,应用文本挖掘技术可帮助医务工作人员从海献中挖掘疾病相关基因或疾病相关治疗的最新研究进展,并从中发现隐藏的。应用信息抽取技术抽取相关的生物学信息,用以数据处理和生物信息学分络的构建。文本挖掘技术可极大地减少检索文献的时间,提高效率。虽然文掘技术在数据提取的准确率(accuracy)、查准率(precision)和查全率(recall)方瑕疵,且有赖于计算机技术以及程序的进一步加强,但仍可帮助我们在短时
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:R739.41
本文编号:2524550
【图文】:
图 1.1 基因芯片测序原理1.3.3 基因芯片数据的分析基因芯片可一次性地检测上万个基因的表达,面对如此海量的数据,单基因的分析方法已不适用。而基因芯片数据分析可通过数据筛选、基因聚类等方法,将海量的芯片数据进行整合,以期发现基因表达与分子生物学功能之间的联系。此外,基因芯片的数据分析可将无机的信息数据和有机的生命活动结合起来,用以解释基因在相关疾病的发病机制中所发挥的作用。基因芯片的数据分析包括前期实验设计、数据预处理和后期的数据分析等。实验设计是整个芯片数据分析的基础,也是最重要的一部分。芯片扫描得到的原始数据由于背景较杂、存在一些测序误差等原因,可信度较低,需经过数据预处理及归一化,才能进行更高水平的分析。后续数据分析的第一步是筛选差异表达基因。差异表达基因分析是为了筛选在不同实验条件、不同实验样品中表达水平
1.2 GEO平台、样本、数据集和表达谱之间关系示意图:对平台上的每个(比如基因A),有多个样本(样本1-样本3)测量值。相关样本构成一个据集,从表达谱中可产生多个或单个基因表达个体。.5 文本挖掘文本挖掘是应用计算机算法及程序对文本进行分析,从而理解其所包含的和意义[27]。在生物医药领域中,应用文本挖掘技术可帮助医务工作人员从海献中挖掘疾病相关基因或疾病相关治疗的最新研究进展,并从中发现隐藏的。应用信息抽取技术抽取相关的生物学信息,用以数据处理和生物信息学分络的构建。文本挖掘技术可极大地减少检索文献的时间,提高效率。虽然文掘技术在数据提取的准确率(accuracy)、查准率(precision)和查全率(recall)方瑕疵,且有赖于计算机技术以及程序的进一步加强,但仍可帮助我们在短时
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:R739.41
【参考文献】
相关期刊论文 前2条
1 袁军鹏;朱东华;李毅;李连宏;黄进;;文本挖掘技术研究进展[J];计算机应用研究;2006年02期
2 陈骅;黄强;翟德忠;董军;王爱东;兰青;;周期蛋白依赖性激酶1在胶质瘤组织中的表达及其沉默对胶质瘤细胞恶性表型的影响[J];中华肿瘤杂志;2007年07期
本文编号:2524550
本文链接:https://www.wllwen.com/yixuelunwen/shenjingyixue/2524550.html
最近更新
教材专著