目的:我们通过分析公共数据库中已经公布的含有活动性肺结核(active pulmonary tuberculosis,APTB)和对照样本的微阵列数据来找到具有差异表达的模块,借助蛋白质-蛋白质相互作用(PPI)网络对APTB的病理机制进行评估。以STRING数据库检索到的PPI网络生成的差异表达网络(DEN)作为基础,根据DEN的程度特征提取自我基因,并基于EgoNet算法的基因扩增收集模块,最后通过随机置换测试评估APTB和对照组之间的模块的差异表达,之后基于Reactome数据库的途径富集分析检测差异模块的生物学意义。了解APTB的发病机制,并为有效治疗APTB提供潜在的生物标记物。方法:1.微阵列的可用性和预处理我们通过Array Express-数据库收集APTB的原始数据(登录账号:E-GEOD-56153)。微阵列共包括18名APTB患者,18名健康对照者,15名经过8周治疗和28名经过28周治疗的APTB患者。在我们的研究中,为了进一步探索结核病的分子机制,我们只选择了该微阵列中18例APTB患者和18例健康对照者进行之后的分析。原始数据由MicroArray Suite(MAS)软件(版本)5.0进行预处理。将探针数据映射到基因符号之后,总共获得17,638个基因。2.DEN的构建和权重值的计算首先,我们在STRING数据库中检索到覆盖787,896个相互作用的全部PPI网络和16,730个基因。接下来,将已经确定的微阵列图谱中的所有基因都映射到全部的PPI网络从而剔除无关的相互作用。最终,我们提取了 8,157个基因中的50,355个相互作用来构建背景PPI网络。接下来,我们采用皮尔森相关系数(PCC)来评估背景PPI网络中的基因互作,这也是用来衡量两个共表达基因的概率的指标。在当前的工作中,我们将基因互作的PCC绝对值确定为预定义的阈值K,并且仅选择K≥0.8的互作来构建DEN。最后,将权重值分配给DEN中的每个边缘,通过单侧t检验来计算APTB和对照样本中的差异表达的P值。3.差异模块分析EGO算法的设计目的是检测与ego相关的模块,并具有最大的分类准确率。该算法框架包括四个基本步骤:(1)提取高z-分值的自我基因;(2)功能模块的收集;(3)优化;(4)显著性过滤。3.1自我基因鉴定在模块检测之前,我们首先鉴定一系列的初始自我基因。为了发现自我基因,我们首先将DEN中的基因按度特征进行排序。之后,根据公式(?)计算出DEN中每个基因的z值。在这个公式中,Nk(i)代表网络中的邻居集合;A,为度数归一化加权邻接矩阵,记为Ak =D-1/2AD1/2。然后,Z分数按降序排列。在我们的研究中,排名前5%的基因被命名为自我基因。3.2功能模块集合在识别自我基因后,我们将每个自我基因作为起始,并应用分类准确性指数来评估模块收集的规模。重复该过程直到分类能力没有增加。这个模块扩展过程被称为滚雪球抽样法。详细地说,对于给定的自我基因nGN,它被定义为DEN中的模块X之后,将自我基因n的邻居集合基因m连续组合到模块X中,接着识别出新的模块X'。计算两个模块之间分类精度的变化:△F(X',X)= F(X)-F(X')。当△F(X',X)0时,表示基因m的加入增加了模块X的分类能力,直到分类权下降,停止搜索步骤。3.3优化在收集候选模块后,我们对这些候选模块进行了优化,同时保持了它们的分类准确性,在我们的研究中,基因数量≤5且分类能力0.9的模块将被删除。3.4统计显著性评估在此步骤中,根据随机置换测试产生的分类准确度,计算模块显著性的经验P值:随机置换测试中随机选择每个模块的分类准确度,并重新运行该算法。随机置换测试在同一模块上重复1000次,通过将观察到的候选模块的分类准确度值与置换测试计算的准确性分数进行比较来记录模块的P值。接下来,利用多重测试的校正来控制假阳性,而降低多重测试假阳性的一种常见方法是控制错误发现率(FDR)。在我们的研究中,使用Benjamini-Hochberg方法将原始P值校正为FDR。只有FDR不小于0.05的模块被认为是差分模块。4.具有功能类别的模块注释为了评估差异模块中的通路水平,我们使用了 Reactome和背景PPI的数据来检测在差分模块中包含的注释。所有通路均从Reactome数据库获得,然后提取每条通路中富集的基因与背景PPI网络中的基因之间的交集。当移除基因数5的基因或100的通路时,我们获取了 1137个种子通路并进一步分析。随后,差异模块的基因与每个种子通路对齐,确定了每个差异模块富集的通路。利用Fisher's检验来计算原始富集P值。之后,应用Benjamini&Hochberg方法计算FDR以进一步校正P值。在该研究中,我们定义FDR0.05的途径为差异模块富集的通路。值得注意的是,一个模块可以富集多种通路。根据FDR得分将每个模块富集的通路进行排序,选择FDR最低的通路作为给定差异模块的显著通路。结果:1.DEN的构建通过对微阵列图谱中的17,638个基因和PPI网络进行分析,共提取了50,355个相互作用和8157个基因,构建了背景PPI网络。为了使网络更有可信度,选择k≥0.8的背景PPI网络中的相互作用来构建DEN。DEN覆盖了 940个基因和5647个相互作用。2.鉴定自我基因在我们的研究中共鉴定了 47个自我基因,并发现这些基因的z值均大于100。其中,有6个自我基因的得分高于300,包括RPL35(332.026),RPS20(357.377),RPL19(333.121),RPS19(332.626),RPL27(328.252),RPS13(309.069)。有趣的是,我们进一步发现这47个自我基因中,一类与RPL相关,另一类与RPS相关。这些ego基因与核糖体蛋白相关,而这些蛋白被认为与APTB中的耐药性具有相关性。3.模块集合如方法一中所述,我们共获得了 47个候选模块。模块的平均基因数为5个。当我们淘汰了基因数≤5且分类能力小于0.9的模块,共识别出7个自我模块,包括模块4,模块7,模块9,模块19,模块25,模块38和模块43。值得注意的是,我们发现这7个自我模块分类能力是相同的,且最高的分类能力为1,这进一步表明这些自我模块可以准确区分APTB与健康对照样本。然而,这7个自我模块的基因组成是不同的。具体来说,模块7拥有最大的基因大小,包括 RPL19(ego 基因),RPL29,RPL32,RPL37,RPL14,RPL7A,UBC,TRIM21 和 RIPK2。4.评估自我模块的统计显著性我们应用随机排列测试来进一步测量活动性结核病患者与健康对照之间的自我模块的重要性。对于每个自我模块,随机排列测试均进行了 1000次。结果显示,7个自我模块的FDR都等于0,这表明这些模块之间是有差别的。5.功能类别的模块注释从结果中我们发现模块4,模块25,模块38和模块43中的基因在相同的途径中富集,形成游离的4:0S亚基池。此外,模块7和模块9的重要途径是真核翻译终止途径。模块19的差异途径是由外显子连接复合物(EJC)增强的无义介导的衰变。结论:在本研究中,我们利用一个基于自我中心网络分析技术的分析方法,从大规模的生物网络中详尽搜索并按优先顺序区分出疾病子网络和标记基因。最后将区分出的疾病子网络进行通路富集分析。最终我们成功地提取了 7个富含3种差异通路的差异模块。这些模块和相应的自我基因以及通路可能是APTB诊断和治疗的基础标志,我们的研究揭示了 APTB机制的潜在启示。
【学位单位】:山东大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:R521
【部分图文】: 查顶部识别的自我网络是否恢复了真正的子网络,筛选结果见表1,通过结果??可以看出,SVM的筛选结果在三种方法中是最优的,其次是KNN。??表1?子网筛选比较表??Topi?Top5??Linear?(%)?Nonlinear?(%)?Linear?(%)?Nonlinear?(%)??SVM?68*?53*?89?83*??RF?50?42?83?69??KNN?62?46?91*?70??注:*表示每种模拟设置中性能最好的方法??我们对EgoNet的性能和国外学者提出的方法也进行了比较,结果见图1,表??明了尽管差异相对较小,但EgoNet在分类精度方面优于Chuang等人的方法。??而且我们发现EgoNet显示恢复真正的自我节点的比例相当高。正如所料,这种??差异在自我节点本身不与临床结果直接相关的情况下最为明显。图1中红色节??点是推定的疾病基因,白色节点是作为改变节点或自我节点隐藏的疾病基因。??A???*6????
图2?EgoNet验证图??
我们的分析步骤主要包括基于Reactome数据库的数据选择(微阵列概况,??PPI数据),DEN的构建,查找差异化模块以及功能类别的模块注释。流程图??见下(图1):?????I??^?i?T ̄-?microairay??Original?protem-protein???v??interaction?(PPI)?network?—?Pro?e?一__H??-———^?1^"??>?f??Background?PPI?network?—??...????-__— ̄??k>?0.8??Differential?expression?network??Ranking?z-scores:?top?5%??■????^Egogenes?|J_??Module?collection??Candidate?modules??Gene?size?>?5,?dassific-ation??power?>?0.9,?FDR?<?0.05??>?t???Differential?modules??Reactome?database???v???Differential?pathways?_??一.??? ̄??图1分析流程图??1.微阵列可用性和预处理??我们从ArrayExpress服务器数据库(登录号:E-GEOD-56153)获取APTB的??原始数据。Ottenhoff等[21]提供的微阵列谱包括18名APTB患者
【相似文献】
相关期刊论文 前10条
1 郑琳,赵明光,毕玉蓉;cDNA微阵列技术:一种有效的差别表达基因克隆新方法[J];生命的化学;2003年01期
2 韩欢欢;张养军;钱小红;;微阵列技术在糖组学研究中的应用[J];生命的化学;2008年06期
3 洪萍;朱培元;;微阵列技术在输血医学中的应用及其研究进展[J];中国输血杂志;2006年05期
4 ;微阵列技术催生毒理基因组市场[J];生命科学仪器;2004年01期
5 张林杰;微阵列技术及其应用[J];国外医学(分子生物学分册);2001年01期
6 陶疆,周曾同;微阵列技术在口腔癌研究中的应用[J];上海口腔医学;2003年02期
7 何继亮,陈智;微阵列技术在毒理学研究中的应用[J];环境与健康杂志;2002年04期
8 黄聪;;微阵列技术在基因表达分析中的应用[J];中国煤炭工业医学杂志;2010年03期
9 刘毅,韩金祥,黄海南,梁浩,黄海燕;膜微阵列技术的建立及检测细菌条件的优化[J];临床检验杂志;2003年04期
10 江荣才,于士柱,浦佩玉,申长虹,焦宝华,康春生,王虎,董伦;应用微阵列技术初步探讨间变性星形细胞瘤基因表达谱[J];中华病理学杂志;2004年04期
相关博士学位论文 前5条
1 边中睿;基于微阵列与数据集样本分析对活动性肺结核诊断的应用研究[D];山东大学;2018年
2 王明怡;微阵列数据挖掘技术的研究[D];浙江大学;2004年
3 邓晔;微阵列技术中生物信息的利用和挖掘[D];浙江大学;2007年
4 周涛;基于细胞微阵列筛选泛素—蛋白酶体通路底物的研究[D];中国人民解放军军事医学科学院;2007年
5 崔书中;腹腔热灌注化疗治疗胃癌恶性腹水的临床与基础研究[D];南方医科大学;2012年
相关硕士学位论文 前8条
1 何玮;SNP-array微阵列技术在检测稽留流产绒毛组织的遗传学研究[D];广西医科大学;2015年
2 杜文津;DNA微阵列技术对DMD基因缺失检测的基础与临床研究[D];第四军医大学;2002年
3 张国栋;抑制性消减杂交和cDNA微阵列技术研究星星草耐盐机理[D];东北林业大学;2006年
4 周珏宇;miR-181a抑制人红白血病K562细胞生长机制的研究[D];第一军医大学;2006年
5 尚俊丽;单核细胞增生李斯特菌生物被膜形成机制的转录水平研究[D];华中师范大学;2014年
6 刘佳;基因表达数据中共调控模式的挖掘算法[D];哈尔滨工业大学;2010年
7 金波;微阵列数据集的频繁闭合模式挖掘算法研究[D];桂林电子科技大学;2007年
8 周江霖;应用点着色聚类方法识别阿尔茨海默病致病基因[D];四川师范大学;2012年
本文编号:
2849061