加权基因共表达网络分析(WGCNA)探寻胆管癌枢纽基因
发布时间:2021-03-07 22:39
目的:胆管癌是起源于胆管上皮细胞的恶性肿瘤。胆管癌患者早期常无临床症状,随着疾病的进展,可出现腹部不适、乏力、恶心、黄疸、发热等症状。血清学检查方面,在出现胆道梗阻时,肝功能检查可有胆红素、ALP和GGT升高,转氨酶可轻度升高。由于胆管癌起病隐匿,多数患者早期无症状或无特异性症状,这对胆管癌的早期诊断提出了极大的挑战。加之很多患者对疾病的认识少、意识差,上述因素使得胆管癌的病人早期发现率低,大部分发现后均属于晚期,失去了手术治疗时机,只能采取一些保守的治疗方法,严重影响患者的预后和生活质量。因此,此次研究旨在寻找胆管癌患者枢纽基因,以便指导对高危人群进行筛查及对胆管癌患者进行靶向治疗。方法:此次研究通过检索癌症基因组数据库(TCGA),下载胆管癌的基因表达数据(包括RNA-seq count、FPKM)及临床数据,其中包括33个为癌症组织样本、8个为癌旁组织样本。我们将基因样本分为肿瘤组织及癌旁组织样本,并通过edge R包对基因表达数据(RNA-seq count)进行差异表达基因筛选以去除低表达和无差异的基因。将下载的RNA-seq FPKM列表与上一步骤所得差异基因比对并取交集,...
【文章来源】:河北医科大学河北省
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
WGCNA基本过程
15色)连有大量边(即网络关键节点)。软阈值的选择标准为使得每个基因网中包含的基因之间的连接服从无尺度网络分布即连接数为k的概率p(k)与k的n次方成反比,即p(k)~k-r。在实际应用中研究者通过选择加权系数来逼近无尺度网络分布,使之满足如下条件:连接节点个数的对数(log(k))与此节点出现概率的对数值(log(p(k)))为负相关关系(相关系数R2≧0.8),同时,不同模块中的基因的平均连接度相对较高。选择合适的power值,对相关矩阵进行幂指数加权运算得到邻接矩阵。随后将邻接矩阵转换成拓扑矩阵=[ωij]。基因共表达网络构建的基础为节点的相异程度,转化公式为dij=1-ωij。以基因之间的拓扑相异矩阵dij为基本元素构建分层聚类树(hierarchicalclusteringtree),聚类树的不同分支代表不同的基因模块。静态剪切树和动态剪切树是两种构建聚类树算法。静态剪切树是通过定义一个固定的高度将群集分支,该方法识别群集的准确度不高。而动态剪切算法基于树状图的分支形状,它可挖掘得到静态剪切无法检测出的基因模块,更重要的是,用动态剪切算法鉴定出的基因网络以往的生物实验结果比较一致[5]。所以,我们常常采用动态剪切算法划分基因模块。图2随机与无尺度网络Fig.2Randomandscale-freenetworks基因模块划分后,我们可以将其与临床特征相联系,挑选出与其相关模块。为了了解各模块基因网络调控的关键节点,我们需要筛选筛选枢纽基因。枢纽基因是指在一个模块中连通性最高的一系列基因,它们在基因网络调控中起到决定性作用并且决定了整个模块的特征。目前,筛选枢纽基因的方法有多种。在本次研究中,我们采用三种应用较广泛的方法,其
19图4基因差异分析火山图Fig.4volcanicmapofdifferentiallyexpressedgenes3.去除离群样本将下载的基因FPKM列表与上一步骤所得差异基因比对并取交集,获取差异基因的FPKM进行后续数据分析。由于临床数据中有6个样本TNM分级数据缺失,继续数据联合分析前先将其剔除。为保证网络构建的结果可靠,首先需去除离群的样本数据。拟通过不断去除IAC平均值较小的样本,直到剩余样本的聚类树无明显离群样本。我们将计算得到的IAC值绘制成直方图,其平均IAC值为0.79,如图5/Fig.5。我们将numbersd设置为-2.5,筛选并去除离群样本。本次试验数据中,numbersd值无低于阈值的样本,图6/Fig.6。最后,我们对35个样本进行聚类分析,如图7/Fig.7。图横坐标为各样本名,纵坐标为样本间相异程度。综上,35样本中无明显离群样本。
【参考文献】:
期刊论文
[1]乳腺癌成纤维细胞生长因子受体靶向治疗药物研究进展[J]. 程志远,王俊男,孙枫原,徐拯,李恒宇. 世界临床药物. 2019(03)
[2]胆管癌诊断及预后相关分子标记物研究进展[J]. 唐浩文,蒙轩,吕文平,董家鸿. 解放军医学院学报. 2018(02)
[3]胆管癌流行病学、危险因素及分型、分期的研究进展[J]. 费健,韩天权. 中华肝脏外科手术学电子杂志. 2015(04)
[4]胆管癌诊断与治疗——外科专家共识[J]. Chinese Chapter of International Hepato-Pancreato-Biliary Association;Hepatic Surgery Group,Chinese Society of Surgery,Chinese Medical Association;. 临床肝胆病杂志. 2015(01)
[5]成纤维生长因子受体在非小细胞肺癌中的研究进展[J]. 蒲丹,侯梅. 中国肺癌杂志. 2013(11)
[6]基于WGCNA算法的基因共表达网络构建理论及其R软件实现[J]. 宋长新,雷萍,王婷. 基因组学与应用生物学. 2013(01)
本文编号:3069927
【文章来源】:河北医科大学河北省
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
WGCNA基本过程
15色)连有大量边(即网络关键节点)。软阈值的选择标准为使得每个基因网中包含的基因之间的连接服从无尺度网络分布即连接数为k的概率p(k)与k的n次方成反比,即p(k)~k-r。在实际应用中研究者通过选择加权系数来逼近无尺度网络分布,使之满足如下条件:连接节点个数的对数(log(k))与此节点出现概率的对数值(log(p(k)))为负相关关系(相关系数R2≧0.8),同时,不同模块中的基因的平均连接度相对较高。选择合适的power值,对相关矩阵进行幂指数加权运算得到邻接矩阵。随后将邻接矩阵转换成拓扑矩阵=[ωij]。基因共表达网络构建的基础为节点的相异程度,转化公式为dij=1-ωij。以基因之间的拓扑相异矩阵dij为基本元素构建分层聚类树(hierarchicalclusteringtree),聚类树的不同分支代表不同的基因模块。静态剪切树和动态剪切树是两种构建聚类树算法。静态剪切树是通过定义一个固定的高度将群集分支,该方法识别群集的准确度不高。而动态剪切算法基于树状图的分支形状,它可挖掘得到静态剪切无法检测出的基因模块,更重要的是,用动态剪切算法鉴定出的基因网络以往的生物实验结果比较一致[5]。所以,我们常常采用动态剪切算法划分基因模块。图2随机与无尺度网络Fig.2Randomandscale-freenetworks基因模块划分后,我们可以将其与临床特征相联系,挑选出与其相关模块。为了了解各模块基因网络调控的关键节点,我们需要筛选筛选枢纽基因。枢纽基因是指在一个模块中连通性最高的一系列基因,它们在基因网络调控中起到决定性作用并且决定了整个模块的特征。目前,筛选枢纽基因的方法有多种。在本次研究中,我们采用三种应用较广泛的方法,其
19图4基因差异分析火山图Fig.4volcanicmapofdifferentiallyexpressedgenes3.去除离群样本将下载的基因FPKM列表与上一步骤所得差异基因比对并取交集,获取差异基因的FPKM进行后续数据分析。由于临床数据中有6个样本TNM分级数据缺失,继续数据联合分析前先将其剔除。为保证网络构建的结果可靠,首先需去除离群的样本数据。拟通过不断去除IAC平均值较小的样本,直到剩余样本的聚类树无明显离群样本。我们将计算得到的IAC值绘制成直方图,其平均IAC值为0.79,如图5/Fig.5。我们将numbersd设置为-2.5,筛选并去除离群样本。本次试验数据中,numbersd值无低于阈值的样本,图6/Fig.6。最后,我们对35个样本进行聚类分析,如图7/Fig.7。图横坐标为各样本名,纵坐标为样本间相异程度。综上,35样本中无明显离群样本。
【参考文献】:
期刊论文
[1]乳腺癌成纤维细胞生长因子受体靶向治疗药物研究进展[J]. 程志远,王俊男,孙枫原,徐拯,李恒宇. 世界临床药物. 2019(03)
[2]胆管癌诊断及预后相关分子标记物研究进展[J]. 唐浩文,蒙轩,吕文平,董家鸿. 解放军医学院学报. 2018(02)
[3]胆管癌流行病学、危险因素及分型、分期的研究进展[J]. 费健,韩天权. 中华肝脏外科手术学电子杂志. 2015(04)
[4]胆管癌诊断与治疗——外科专家共识[J]. Chinese Chapter of International Hepato-Pancreato-Biliary Association;Hepatic Surgery Group,Chinese Society of Surgery,Chinese Medical Association;. 临床肝胆病杂志. 2015(01)
[5]成纤维生长因子受体在非小细胞肺癌中的研究进展[J]. 蒲丹,侯梅. 中国肺癌杂志. 2013(11)
[6]基于WGCNA算法的基因共表达网络构建理论及其R软件实现[J]. 宋长新,雷萍,王婷. 基因组学与应用生物学. 2013(01)
本文编号:3069927
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3069927.html
最近更新
教材专著