系统流行病学网络差异比较的统计方法及其应用研究
发布时间:2021-04-22 21:37
对人类疾病遗传与环境的病因学研究一直是流行病学的重要任务。然而,传统"黑盒子"流行病学往往侧重于识别单一危险因素,并未聚焦网络对疾病的影响,因而难以深层次地探讨致病机制。研究者渴望打开"黑盒子",阐明致病因素如何通过"黑盒子"中的病因链环节而导致疾病发生、发展与转归结局。高通量组学技术的成熟发展与检测成本的大幅度减低,使得流行病学家有机会将系统生物学理论方法与传统流行病学有机结合,借助于丰富多彩的组学标记在大样本人群中阐明"暴露"到"疾病结局"的作用机制,从而催生了一个崭新的流行病学分支学科——系统流行病学。本课题组将系统流行病学的学科内涵概括为:将高通量组学技术与传统流行病学研究相互融合,利用基因组(Genome)、表观组(Epigenome)、转录组(Transcriptome)、蛋白组(Preteome)、代谢组(Metabolome)、表型组(Phenome)等生物组学标记,结合生物信息学网络数据库的通路信息,采用系统生物学方法构建"暴露因子-组学生物标记-疾病终点"间的交互网络,并检测不同状态下(例如疾病组与健康组)网络间的差异,以推断危险因子导致疾病发生、发展与转归的致病网络或特定致病通路及其效应大小;从而,为进一步阐明危险因子致病通路及流行病学作用机制、实验室功能验证、药物靶点设计、预防或诊疗措施制定与评估提供科学依据。系统流行病学为在人群水平上阐明疾病发生、发展与转归机制描绘了宏伟蓝图,它将实现从独立病因研究向病因网络研究的跨越性转变。在这一转变进程中,病因网络构建与致病通路识别将是打开"黑盒子"的重要策略,而网络差异的比较正是获取致病网络及致病通路统计学证据的重要方法。因此,系统流行病学的核心是在人群水平上通过"暴露因子-组学生物标记-疾病终点"网络/通路的组间差异统计学比较,推断危险因子导致疾病发生、发展、转归的网络/通路及其效应大小。任何破坏网络/通路交互结构的统计学比较方法势必会丢失信息,失去其系统流行病学意义。然而,目前在流行病学研究中,仍以卡方检验、t检验或回归分析等传统方法作为生物标记组间差异比较的主流方法。这些方法武断地将原本是相互作用(或调控)的网络节点假定为近似相互独立状态,忽略了它们间的交互网络结构;所以,除了得到生物标记组间差异的基本信息外,既不能得到组间网络差异信息,更不能推断出特定危险因素的致病通路及其效应大小。最近,尽管在一些高质量的人群组学研究中,已经注重通过后续功能实验验证和生物信息学方法推断出调控网络拓扑结构,但因缺乏组间网络差异比较的有效统计学方法,也只能定性地分析网络拓扑结构特征,仍难以在人群水平上定量推断危险因子的致病网络/通路及其效应大小。因此,发展网络差异比较的统计分析方法,在人群水平上,比较不同组间的网络差异,进而推断危险因子的致病通路及其效应大小,就成为系统流行病学统计分析的重要任务。必须澄清的是,尽管系统流行病学强调用高通量组学分析技术在人群水平上获得组学标记大数据,但在实际工作中,因研究假设、目的或条件的不同,常常需要在2种不同研究策略下推断网络差异:1)基于分子流行病学方法的假设驱动(Hypothesis-Driven)研究策略:研究者在深入理解所研究疾病的生理、生化及病理机制基础上,综合以往细胞(动物)实验或组学分析结果,借助生物信息学网络数据库通路信息,事先勾画出一个假定合理的致病网络/通路。进而,用分子流行病学方法检测网络/通路节点上的生物标记,并在人群水平上检验组间网络/通路差异及其效应。以期在人群中验证所假设致病网络/通路的真实性及实用性(设计药物靶点、预测疾病发生预后、制定及评估预防或诊疗策略等)。2)基于高通量组学技术的数据驱动(Data-Driven)研究策略:研究者在不受任何假设限制的情况下,利用各种高通量组学技术,在人群水平上获得研究样本的组学标记数据。进而,借助系统生物学方法构建"暴露因子-组学生物标记-疾病终点"网络模型,并在人群水平上检验"对比组"间网络/通路差异及其效应。为进一步实验验证、药物靶点确定、制定预防或诊疗措施提供依据。无论是假设驱动还是数据驱动的研究策略,均存在无向网络比较和有向网络比较两种情形。前者侧重点是比较"对比组"间网络节点及其相互作用(相关关系)的统计学差异,而后者侧重点则是比较网络节点及其调控关系的统计学差异。因此,系统流行病学研究中网络差异比较的检验方法,应包括无向网络比较和有向网络比较2种情形。在系统流行病学研究中,生物网络不仅具备复杂网络的一般性质(自组织、自相似、吸引子、小世界、无标度等),更重要的是,对于多数复杂疾病的致病网络而言,其"节点"和"边"的连续定量变化谱蕴含着网络差异的全部信息;即,节点和边多不是"全有或全无(1或0)"式的"开或关"模式,而是多表现为由0 →1的定量渐变式的模式。即使有些基因(如某些致癌基因)在健康状态下几乎不表达而呈现"全有或全无"模式,其实质也可看作是连续表达谱上的一个极端特殊情形。因此,系统流行病学网络的差异囊括了"节点"和"边"的双重差异,单纯"节点"或单纯"边"的差异远不能代表其全部信息的差异。对于有向网络,网络差异绝非仅仅是其"节点"和"边"两部分差异的简单合并,还应充分体现网络拓扑结构所蕴含的方向信息,即调控网络内"边"的箭头指向及"上游节点"对"下游节点"的调控权重。然而,目前在系统生物学或人群组学研究中,现有的网络比较算法((或统计量)多数未能涵盖统计量构建中所必需的上述全部信息。因而,不适合推广到系统流行病学研究中网络差异比较上。存在的问题可概括为如下4个方面:1)最极端的情况是上述讨论过的传统方法(卡方检验、t检验等),它们完全忽略了网络的"边差异信息"。2)系统生物学中的网络比较算法和软件,多是针对网络拓扑结构特征指标,对"边"进行操作而不注重"节点"信息。主要采取网络对齐、网络相似性比较或聚类、网络路径搜索等方法比较网络拓扑结构差异。3)生物信息学中的生物网络比较方法,多数是对"点"进行标准化使其均值为0方差为1后(无疑损失了点的变异信息),再针对"边"的差异着重检测"点"之间的连通性,包括通过节点中心性比较以寻找关键节点或通路、基于网络模体频率比较网络拓扑差异、基于网络间不相似性度量构建网络差异比较统计量、基因芯片差异表达连通分析等。4)尚缺乏考虑有向网络内"边"的箭头指向及"上游节点"对"下游节点"调控权重的有向网络比较方法。为解决以上问题,本研究在系统流行病学框架下,从统计学和系统生物学的双重视角,审视生物网络"节点"与"边"共变特征,采取"结构拆分→数理整合"的研究策略,构建融合网络"节点"、"边"和"方向"差异信息的"系统流行病学网络差异比较的统计分析方法体系"。图1是本论文的研究框架。如图1(1)所示,尽管"对比组"间网络差异类型有5种,若将情形b)、c)、d)、e)中节点或边的去除或增加均看作是情形a)中的"虚拟"点或边,则所有情形均可归属于情形a);此时去掉的点或边的取值为0,而增加的点或边的取值为其相应的节点测量值及相关程度。如图1(2)所示,假设两"对比组A、B"的样本量分别为nA、nB,nA+nB=N 根据上述"虚拟"点或边的思想,A、B两"对比组"对应的网络均可视为具有M个节点K条边。用GA(VA,EA)表示A组对应的网络,其中VA =(x1A,x2A,…,xMA)为其节点集合。EA=(IijAσijA)M×M为其边集合(更详细的矩阵表达形式见图1),其中,IijA=(?)为示性函数,表示节点 xiA 与xjA之间的连接状态,即IA=(IijA)M×M在无向网络中仅表示节点xiA与xjA是否连接,此时IijA= IjiA,而在有向网络中,当节点 xiA 与xjA的连接状态为xiA→xjA(i≠j,xiA,xjA∈ VA)时,IijA=1,IjiA=0,反之亦然;σijA表示节点xiA 与 xjA之间的连接强度(可用相关系数等度量)。相应地,GB(VB,EB)表示B组对应的网络,其中VB=(x1B,x2B,…,xMB)为其节点集合,EB=(IijBσijB)M×M为其边的集合,而IB=(IijBM)M×M 为连接状态集合。本研究构建"对比组"间网络差异检验统计量的基本策略为"结构拆分→数理整合"。其基本思想是:1)结构拆分:先将对比组A与B的网络GA(VA,EA)与GB(VB,EB)的拓扑结构分别拆分为节点信息(VA,VB)、边信息(EA,EB)和方向信息(IA,IB),再求两对比组间相应的节点信息、边信息和方向信息的差值(即效应)DV =(VA-VB)、DE =(EA-EB)和DI=(IA-IB)。2)数理整合:通过数理统计手段,将节点信息、边信息和方向信息的差值(效应)DV、DE和DI整合为两"对比组"间网络差异(效应)的统计量Diff =(DV ∪ DE ∪DI);该统计量将网络的"节点"、"边"和"方向"差异信息融为一体。在上述研究策略框架内(图1),本论文针对致病网络差异囊括"节点"、"边"和"方向"的共变特征,重点研究了以下几个关键问题:1)提出网络差异比较的"结构拆分→数理整合"的研究策略。2)整合网络"节点"和"边"的双重连续渐变差异信息,发展了致病通路识别及其效应估计的统计推断模型(第二章)和无向网络组间差异比较的得分检验方法(第三章)。3)整合网络"节点"与"边"双重差异信息、以及上下游节点调控加权信息,发展了"有向网络"组间差异比较的检验方法(第四章)。4)基于联合密度估计的非参数方法,建立了致病交互网络筛选模型并对其预测效果进行了系统评价(第五章)。具体分述如下:一、致病通路识别及其效应估计的统计推断模型研究(第二章)在传统"黑盒子"流行病学研究中,通常采用病例对照设计或队列研究分析暴露危险因素与疾病的关联性。其策略是通过比较病例组与对照组之间某危险因子的暴露比例而计算OR(比如吸烟与肺癌之间的OR=6.5等)或比较暴露组与非暴露组之间的疾病发病率而计算RR(比如吸烟与肺癌之间的RR=5.5等),以阐明暴露与疾病的关联强度。这种基于变量独立假设的统计推断方法(logistic回归、Cox回归等)只能提供危险因素与疾病之间的关联性及其强度大小,并不能阐明危险因素通过"黑盒子"导致疾病结局的病因链及其致病通路。然而,在不明确暴露因素导致疾病发生、发展与转归的致病通路或网络的情况下,往往很难有效地预测和评估干预暴露因素的效果,且难以得出令人信服或可重复验证的结论。鉴于此,流行病学家一直期望能够打开"黑盒子",并挖掘特定危险因子致病网络或通路。尽管病因网络的概念早已被提出,但由于缺乏有效的致病通路识别及其效应估计的统计推断方法,流行病学家一直未能实现上述夙愿。为此,本研究在上述系统流行病学研究框架(图1)下,遵循路径分析的基本原理,构建了识别致病通路并对其进行统计学假设检验的推断方法。以病例对照研究为例,其基本理念是:设病例组中的特定通路为(?),若该通路路径系数乘积∏k=1KβkD≠0,则表明暴露(或生物标记)X1D可以通过该病因链将其效应传递到生物标记Xk+1D,其效应量为βD=∏k=1KβkD;同理,对照组中该通路(?)的效应量为βC=∏k=1βkC;该通路对疾病的贡献可用统计量D=βD-βC=∏k=1KβkD-∏k=1KβkC来测量。当H0:D=βD-βC=0成立时,表明上述通路对疾病无效应。本研究将统计模拟与实例分析有机结合,对上述统计量进行了系统科学的评价。主要结果:(1)致病通路识别的检验统计量采取如下统计量构建和检验策略来识别致病通路:1)非参数bootstrap置信区间检验方法,其统计量PEM-D定义为:(?)其中K为通路长度,表示该通路中有K+1个节点(变量)和K条边,βkD和βkC分别表示病例组与对照组通路中第k个节点和第k+1个节点之间的标准化回归系数(即路径系数)。采用百分位数bootstrap置信区间(percentile bootstrap confidence interval)以及偏差校正后的 bootstrap 置信区间(bias-corrected bootstrap confidence interval)进行非参数检验,以检验H0:D=βD-βC =0是否成立。2)渐进正态分布统计量(PEM-UD):统计模拟表明,以下统计量(?)近似服从正态分布,其中var(βD)和var(βC)分别表示βD和βC的方差,分别采用精确估计(the exact estimator)方法var(β)exl =∏k=1K(sβk2 +βk2)-∏k=1Kβk2、无偏估计(unbiased estimator)方法 var(β)unbiased=∏k=1Kβk2=∏k=1K(βk2-sβk2)、多元 delta 估计(multivariate delta estimator)方法 var(β)mtult-delta=Δcov(β1,β2,…,βK)ΔT(其中Δ =[(?)β/(?)β1,…,(?)β/(?)βK])和bootstrap方法进行估计。(2)统计模拟针对上述统计量,在H0:D=βD-βC=0成立的前提下遍历不同样本量(n),评估其犯第一类错误的概率是否稳定在给定的检验水准α附近。在H1:D=βD-βC≠0成立的条件下,设定不同样本量(n),通路长度(K),效应大小(δ= βD-βC)以及路径系数相关模式(即路径系数向量的取值模式),评估统计量的检验效能。模拟结果显示:1)统计量PEM-D采用两种bootstrap置信区间检验,统计量PEM-UD采用四种方法计算方差,在H0成立的前提下,当样本量达至200时,其犯第一类错误的概率均稳定在给定的检验水准(α=0.05)附近(表2.2),表明所构建的统计量具有良好的稳定性。2)对于上述六种情况,在H0不成立时,其模拟结果(见图2.2-图2.4)显示:随着样本量和效应δ的增加,统计量的检验效能均呈单调递增趋势;固定样本量及效应δ时,随着通路长度K的增加,统计量仍然具有足够高的检验效能,表明统计量检验效能不受通路长度的影响;固定样本量及效应δ时,随着路径系数增大,统计量检验效能有所降低,表明在路径系数较大时需要更大的样本量才能达到足够高的检验效能。总体而言,在上述六种情形中百分位bootstrap方法、偏差校正的bootstrap方法、bootstrap估计方差法的稳定性和检验效能均较好,尤其是偏差校正bootstrap置信区间的检验效能最高。(3)实例分析采用上述统计量PEM-D和PEM-UD,分析基于病例对照设计的急性髓性白血病(AML)分子流行病学数据(包含98例患者和35例对照个体的骨髓中T17细胞,Treg细胞和细胞转化生长因子TGF-β的检测数据)。结果表明:除精确估计法外,其余五种方法均发现通路Treg→TGF-β→Th17与AML具有关联性(表2.3)。实验性研究也早已证实,Treg、TGF-β和Th17均与AML有关联,且Th17细胞和Treg细胞在功能上具有相互抑制作用。我们的研究结果进一步表明通路Treg-→TGF-β→Th17对AML的发生具有重要意义。结论:统计量PEM-D和PEM-UD均具有良好的统计学性能,可用于识别和检验致病通路,其中bootstrap非参数检验方法更加高效。主要创新点:构建了基于路径系数连乘积之差的致病通路识别检验统计量,为系统流行病学中致病通路识别提供了新方法。二、无向网络组间差异比较的假设检验方法研究(第三章)比较和检验对比组间(病例组VS对照组、暴露组VS非暴露组、干预组VS非干预组)网络的统计学差异,是系统流行病学研究中识别致病通路、阐明暴露因子或干预措施对疾病发生、发展与转归机制影响的核心任务。然而,目前尚缺乏网络比较的统计学检验方法。对于多数复杂疾病的致病网络而言,其"节点"和"边"的连续定量变化谱蕴含着网络差异的全部信息;因此,系统流行病学网络的差异囊括了"节点"和"边"的双重差异,单纯"节点"或单纯"边"的差异远不能代表其全部信息的差异。在构建"对比组"间网络差异比较的统计量时,必须同时包含"节点"和"边"的差异;即,在统计量中,用对比组间网络"节点平均量"的差来刻画节点平均水平的组间差异,而用网络节点间"边变化"的差来刻画节点相互作用(边)的差异。当不明确或不考虑网络中节点间的方向时,可根据图1中无向网络比较的统计量构建方法,融合经典统计量构建策略(例如得分检验统计量,似然比检验统计量,wald检验统计量),综合考虑节点和边的信息,构建相应的无向网络比较统计量。本章将借助得分检验统计量的理论构建无向网络比较的统计检验方法。其基本思想是,在上述"结构拆分→数理整合"策略(图1)中可不考虑方向差异。则两"对比组"间网络差异检验统计量的一般形式可简化为Diff =(DV∪DE)。主要结果:(1)无向网络组间差异比较的统计量令GD与GC分别表示两对比组的网络,并假定GD与GC具有相同的拓扑结构(M个节点、K条边);理论上,对比组间(病例组VS对照组、暴露组VS非暴露组、干预组VS非干预组)网络节点取值和边的强度之间的差异,可以表征致病效应或干预效果。以病例对照研究为例,给定病例组与对照组的样本量分别为nD和nC,当原假设H0:GD=Gc成立时,两组间的对应网络节点总体均值相等,即μ1D =μiC(i=1,…,M);同时两组间各对应边的强度相等βkD=βkC(k =1,…,K)。根据得分检验(score test)思想,在H0:GD=GC成立的前提下两组样本可合并为N=nD+nC;则对于个体l(l = 1,2,…,N),定义 其第i个点的取值为xli。则节点xi对两"对比组"间网络差异贡献(即效应大小)的得分为 从而,得到"节点差异效应"得分向量类似的,第k条边·(xi)—·(xj)对两"对比组"间网络差异贡献(即效应大小)的得分为而,得到"边差异效应"得分向量为DE=(D1E,D2E,,DKE)T。将"节点差异效应"与"边差异效应"合并为"网络差异效应"得分向量D=(?),该向量的协方差阵为∑ = cov(D)=(σpq)(M+K)×(M+K),p,q=1,2,…,(M + K),(M + K)为网络中所有"节点数"与"边数"之和。从而,将"节点信息"和"边信息"整合到统计量NetDifM中NetDifM = DT∑-1D其中,协方差矩阵∑可表示为分块矩阵(?),其计算方法如下:1)对于∑V,p,q=1,2,…,M,σpq=l=1N(Yl-Y)2cov(Xp,Xq),Xp=(x1p,x2p,…,xNp);2)对于∑E,p,q = M + 1,M + 2,…,M + K,σpq =(Yl-Y)2 cov(Zp,Zq),Zp=(Xi-Xi)×(Xj-Xj);3)对于∑VE,p = 1,2,…,M,q = M + 1,M + 2,…,M + Kσpq=∑l=1N(Yl-Y)2cov(Xp,Zq)。由得分检验理论推知,在大样本情况下,在H0:GD=GC成立时,NetDifM服从自由度为M+K的卡方分布,即NetDifM~χ2(K+ M)。样本量较小时也可采用permutation方法进行假设检验。(2)统计模拟针对上述统计量,在H0:GD=GC成立的前提下遍历不同样本量(n)以及网络规模大小(M=10,20,40;K=21,45,54),评估其犯第一类错误的概率是否稳定在给定的检验水准α附近。在H0不成立的条件下,设定节点X =(X1,X2,…,XM)数据服从多元正态分布,模拟如下3种情形,以系统评估统计量的检验效能。情形1:两网络之间只有节点水平的差异;情形2:网络间只有边(关联强度)存在差异;情形3:网络间同时存在节点水平与边(关联强度)的差异。特别地,为进一步评价统计量NetDifM对节点变量分布的稳健性,令节点X=(X1,X2,…,XM)数据为非正态分布,在部分节点非正态(随机选择部分节点,令其为指数分布)和全部节点非正态(令全部节点为指数分布)两种情况下,分别就上述3种情形进行了系统的模拟研究。模拟结果:1)在H0:GD=GC成立的前提下,针对组间网络对应节点及边差异之和所构建的非参数permutation统计量VEWDM、只考虑两组间边差异的非参数permutation统计量Yates'D,和本章所构建的卡方分布统计量NetDifM三种方法,模拟结果表明,在样本量达到一定程度时三种方法的犯第一类错误的概率均稳定在给定的检验水准(α=0.05)附近(表3.1-表3.2),而卡方分布统计量NetDifM在样本量相对较小时(n200)即表现出良好的稳定性。2)在H0不成立的条件下,给定单纯节点差异(如μ3D-μ3C=0.2等)、单纯边差异(如β3D-β35C=-0.2等)和节点与边均存在差异(如μ8D-μ8C= 0.2,β5D-β57C=0.2等)时,模拟结果(图3.4-图3.8)显示,本章所构建的统计量NetDifM与统计量VEWDM及Yates'D相比,始终具有最高的检验效能。3)特别地,在只存在节点差异时,正如所期望的那样,统计量Yates'D失去检验效能,而统计量NetDifM仍然具有很高的检验效能。4)在节点数据偏离正态分布时,本章所构建的统计量NetDifM仍然具有最高的检验效能,表明NetDifM具有良好的稳健性。(3)实例分析将所构建的无向网络差异检验的统计量NetDiM应用于麻风病致病网络比较(706例麻风病病例与514例健康对照),结果显示该统计量具有合理性和实用性,分析结果符合生物学机制。同时,将统计量进一步用于卵巢癌致病通路PI3K-SKT与Notch(C1亚型卵巢癌病人83例,C2-C6亚型168例)的组间比较,也发现了符合生物学机制的组间差异。结论:统计量NetDifM不仅具有良好的稳定性、检验效能和稳健性,而且具有较高的实用性,为系统流行病学研究中无向网络比较提供了良好的统计学检验方法。主要创新点:针对无向网络的特征,采用"节点信息与边信息整合得分"的融合策略,构建了网络组间差异比较的统计量NetDifM,为系统流行病学无向网络比较提供了新方法。三、有向网络组间差异比较的假设检验方法研究(第四章)上述第三章所构建的无向网络比较的统计量NetDifM只注重了节点差异和边差异信息,尚未考虑方向信息。然而在系统流行病学网络比较中,网络中的方向信息会提供更有价值的致病路径及暴露(或干预)的作用机制。从而为探讨疾病发生、发展和转归机制,评价干预措施,寻找精准药物靶点等提供重要依据。因此,本章将进一步构建有向网络差异比较的假设检验方法。其基本思想是:对于有向网络,网络差异绝非仅仅是其节点和边两部分差异的简单合并,还应充分体现网络拓扑结构所蕴含的方向信息,即调控网络内"边"的箭头指向及"上游节点"对"下游节点"的调控权重。为此,在构建有向网络比较的统计量时,需将网络"节点"、"边"和"方向"差异信息融为一体,将节点信息、边信息和方向信息的差值(效应)DV、DE和DI整合为两"对比组"间网络差异(效应)的统计量 Diff =(DV∪DE∪DI)。主要结果:(1)有向网络组间差异比较的统计量令GD与GC分别表示两对比组的网络,V(GD)与E(GD)分别表示GD中的节点集合与有向边集合。当原假设H0:GD=GC成立时,两组间的对应网络节点总体均值相等,即μjD =μjC(i=1,…,M);同时两组间各对应边的强度及方向相同βkD=βkC(k= 1,…,K)。用XiDXjD表示节点XiD与XjD之间的有向边其中βijD表示XiD对XD的调控强度。令ViD表示节点XiD的子代节点数目,将XiD的权重定义为,其含义为XD的子代节点数占全部节点子代节点总数的比例。令V = V(GD)UV(GC),E=E(GC)∪E(GC)则,本章构建如下有向网络组间差异比较的检验统计量其中,wkD,XkD,βijD分别表示网络GD中 XiD 相应的权重、样本均值以及βijD的估计值;wkC,X C,βijC分别为网络GC中相应的变量。需注意的是K与M分别为节点集V与边集E的数目,如果节点X(或边XiXj)在GD中存在,但在GC中不存在,则将XkC与其方差(或βijC与其方差)视为0,反之亦然。统计量中采用的加权形式为a +(wkD + wkC)/2,也可以替换为logb(+(kkD+wkC)/2),其中a与6越小,表示网络拓扑结构信息(上、下游节点间的调控关系)在统计量中占的比重越大。采用permutation方法进行假设检验。(P)统计模拟针对上述统计量WNES在H0:G =GC成立的前提下,遍历不同样本量(n)、网络规模大小(M=12,35,K =15,79)以及网络结构(箭头多少及方向),评估统计量犯第一类错误的概率是否稳定在给定的检验水准α附近。在H0不成立的条件下,给定三种网络方向加权方式(无方向加权、1 +(wiD + wkC)/2,log2(2+(wkD +(wkC)/2)),模拟如下5种情形,以系统评估统计量的检验效能。情形1:只有节点水平的改变;情形2:只有边强度值的改变;情形3:同时有节点水平与边强度值的改变,变化的点为上游节点;情形4:节点与边数值的改变与情形3相同,变化的点为下游节点;情形5:网络中仅有边方向改变。模拟结果显示:1)在H0:GD = GC成立时,本章所构建的统计量WNES在不同网络结构以及网络规模大小的情况下,犯第一类错误的概率均稳定在给定的检验水准(α=0.05)附近(表4.1),表明该统计量具有良好的稳定性。2)在H0不成立的前提下,统计量WNES的检验效能模拟结果(图4.3-图4.6)显示:当只存在网络节点差异时(情形1),只包含节点差异信息的统计量NS与同时包含"节点信息、边信息和方向信息"的统计量WNES具有相同的检验效能,表明此情形下所构建的统计量WNES稳健性良好;当只存在网络边强度值改变时(情形2),WNES与只包含边信息的统计量ES相比,其检验效能略低,表明此情形下,统计量WNES会受到无效冗余点信息的影响;当同时存在节点水平与边强度改变时(情形3与4),WNES的检验效能明显高于NS与ES的检验效能;以上结果表明WNES可以同时检验节点与边的差异并且检验效能足够高。在情形WNES具有足够高的检验效能,表明WNES能够检验网络中边方向的改变。模拟结果还显示,WNES采用a+(wk + wk+)/2与logb(6 +(wkD+wkC)/2)两种加权方式时,检验效能都高于无加权的统计量检验效能,表明这两种加权方式都能将网络中上、下游节点间的位置信息融入到统计量中,提高检验效能,进一步说明了对节点进行加权是必要且合理的。(3)实例分析将所构建的有向网络差异检验的统计量WNES应用于基于病例对照设计的肺癌致病网络、麻风病致病网络以及急性髓性白血病致病网络比较,结果显示,1)WNESES可以检验出麻风病相关基因网络的差异;2)WNES识别出免疫相关的Foxp3、IL-10、Th17与TGF-β在患白血病与正常情况两种状态下调控网络的差异;3)WNE 发现Wnt经典信号通路中35个基因构成的网络的改变与肺癌的发生相关(表4.2)。结论:统计量WNES能够同时检验网络中节点与边强度及其方向的差异,不仅具有良好的稳定性、检验效能,而且具有较高的实用性,为系统流行病学研究中有向网络比较提供了高效的新方法。主要创新点:针对有向网络的"边的方向性差异",借助于"生物群体家系谱图中,后代子孙越多的个体对生物群体的繁衍贡献越大"的生物学现象,巧妙地定义了网络内上游节点对下游节点的调控权重,构建了"节点"、"边"和"方向"差异融为一体的有向网络比较的统计量WNES,提供了有向网络比较的新方法。四、致病交互网络筛选策略方法研究及其预测效果评价(第五章)对复杂疾病而言,研究不同对比组(病例组VS对照组、暴露组VS非暴露组、干预组VS非干预组)间各生物标记之间相互关系的差异将有利于揭示潜在致病机制、预测药物脱靶效应、发展多靶点抗癌药物以及评价干预措施作用机制。上述对比分析的实质是从复杂致病网络中筛选出对结局或干预效果有贡献的生物标记之间的致病交互子网络。然而,在复杂疾病致病网络中,暴露(或干预)以及病因通路上的生物标记之间的作用往往是错综复杂的,不仅存在线性效应,还广泛存在着形式复杂、分布不清的非线性效应。因此,从复杂致病网络中筛选出对疾病发生、发展与转归结局有效应的生物标记线性或非线性交互效应,是阐明复杂疾病致病机制的核心。目前,在生物网络组间比较中,往往是比较生物标记之间的线性相关差异性,而忽略了广泛存在的非线性相关差异。此外,多数方法无法调整协变量的混杂效应。为此,本章提出了一种基于联合密度估计的高维网络差异分析方法并将其进一步应用于构建疾病的判别预测模型(JDINAC)。其基本思想是:以病例对照设计为例,令Y表示结局变量,Y=1表示病例组,Y=0表示对照组,fij与gij分别表示两个生物标记xi与j在病例组与对照组的联合密度,即,((xi,xj)| Y = 1)~fij,((xi,xj)~gij。则,可用ln(fij(x= 0)/gij(xi,xj))可用 来表征两个标记(xi,xj)的交互关联性在病例组与对照组之间的差异。JDINAC方法不需要假设生物标记数据服从某种已知参数分布,也不需要假定他们呈线性关系。既可提高网络差异比较的准确性,又可提高疾病判别预测的准确性。主要结果:(1)统计模型以病例对照设计为例,假定每个个体均有p个生物标记测量值(例如基因表达水平、甲基化程度等),对于个体l(l = 1,2,…,n),定义Yl=(?),其第i个标记的测量值为xlt。构建JDINAC模型如下:(?)其中,Zs(s = 1,…,S)表示协变量(如年龄、性别等),fij与fij分别表示生物标记xi与xj在病例组与对照组的联合密度,即,((xi,xj)|Y =1~),((xi,xj)|Y=0)~gij。若βij≠0,表示两个标记(xi,xj)的关联性在病例组与对照组之间存在差异。在高维情况下,生物标记对(xi,xj)的数目远大于样本量,此时利用L1范数惩罚方法估计β:其中,λ为惩罚参数,,vec(·)为矩阵拉直算子。JDINAC模型具体算法如下:Step1.将样本D = {(Yl,Xl),l = 1,…,n}随机分成两部分:D =(D1,D2)。Step2.利用第一部分样本D1,估计联合密度函数fij与gij(xi,xj),i,j = 1,…,p,ji。Step 3.利用第二部分样本D2,拟合基于L1惩罚的logistic回归模型,通过交叉验证选择最佳惩罚参数。Step 4.将Step 1~Step 3重复T次,从而得到βij,与结局概率P1,t = 1,2,…,T。Step 5.计算 作为最终结局概率;计算生物标记对(xi,xj)的权重;其中I(·)为示性函数。(2)统计模拟本章分以下4种情形进行了模拟,情形1与情形2中生物标记之间的关联性均为线性相关,情形1设置效应值较大,情形2效应值较小。情形3:生物标记对(xi,xj)在两组网络中Pearson相关系数相同,但其联合密度不同。情形4:生物标记之间存在非线性关系。针对以上4种情形,采用真阳性率(TPR)、真阴性率(TNR)以及正确发现率(TDR),来评价JDINAC与其他3种方法(DiffCorr,DEDN,cPLR)在网络差异分析方面的优劣。采用ROC曲线与分类错误率来比较JDINAC与随机森林、朴素贝叶斯、oPLR与cPLR的判别分类准确性。模拟结果显示:1)在网络差异分析方面,JDINAC可靠性高,几乎在所有情形下都具有最高的TPR,TNR与TDR。在4种模拟情形下JDINAC的TDR分别为93.7%,95.6%,88.3%,99.9%,尤其在情形3与情形4明显高于其它3种方法DiffCorr(81.3%,85%,7.5%,3.8%),DEDN(33.5%,16.5%,2.1%,5%),cPLR(19.8%,25.6%,53.6%,0.7%),(Table 5.1)。这表明JDINAC确实可以检测出网络中非线性关系的变化。2)在分类方面,ROC曲线与分类错判率皆表明JDINAC明显比其他4种方法(RF,NB,cPLR,oPLR)判别分类更准确(图5.4,表5.2)。(3)实例分析实例数据来自TCGA数据库中114例乳腺癌病人的癌组织以及匹配的正常组织的基因表达数据。本研究选取KEGG数据库中癌症通路列出的373个基因,分析癌组织与正常组织两组基因网络的差异。每组随机选取50个样本作为预测集,来评价判别分类准确性。结果显示:JDINAC检测出的排序靠前的网络差异基因对,与已有实验结果相一致,并且选出的大部分关键基因节点也与乳腺癌细胞的发生、生长或转移密切相关。在判别分类准确性方面,JAINAC与oPLR方法的错判率为1%,而RF、NB与cPLR的错判率分别为19%,2%,17%(表5.6),表明JDINAC具有良好的实用性。结论:本章建立了基于联合密度估计的致病交互网络筛选策略方法,该方法不仅能筛选出网络中生物标记之间的线性交互效应,而且能筛选出其非线性交互效应。基于所提取的交互效应而构建的疾病判别预测模型优于传统的机器学习方法。主要创新点:1)基于非参数联合密度估计,实现了从网络中筛选出对疾病或结局有贡献的非线性交互效应。2)基于非线性交互效应所构建的疾病判别预测模型优于现有统计模式识别方法。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:R181
本文编号:1406834
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:R181
文章目录
CHINESE ABSTRACT
ABSTRACT
DENOTATION
CHAPTER 1 INTRODUCTION
1.1 SYSTEMS EPIDEMIOLOGY: THE TWO WORLDS OF TRADITIONAL EPIDEMIOLOGYAND OMICS PLATFORM MEETING AND STAYING TOGETHER
1.2 DESIGNS IN SYSTEMS EPIDEMIOLOGY: KEEPING SYSTEMS THINKING IN MIND
1.3 STATISTICAL STRATEGY IN SYSTEMS EPIDEMIOLOGY: PUTING THINGS AT THE NETWORK LEVEL
1.4 OUTLINE OF THE DISSERTATION
CHAPTER 2 STATISTICAL INFERENCE FOR IDENTIFICATION AND EFFECT ESTIMATION OF DISEASE-RELATED PATHWAY
2.1 BACKGROUND
2.2 METHODS
2.2.1 Pathway effect and PEM-statistics
2.2.2 Non-parametric bootstrap test
2.2.3 Asymptotic normal distribution statistic
2.2.4 Simulation
2.2.5 Application
2.3 RESULTS
2.3.1 Simulation results
2.3.2 Application results
2.4 DISCUSSION
CHAPTER 3 HYPOTHESIS TEST FOR GROUP DIFFERENCES BETWEEN UNDIRECTED NETWORKS
3.1 BACKGROUND
3.2 METHODS
3.2.1 Statistical model
3.2.2 Simulation studies
3.2.3 Application
3.3 RESULTS
3.3.1 Simulation results
3.3.2 Application results
3.4 DISCUSSION
CHAPTER 4 HYPOTHESIS TEST FOR GROUP DIFFERENCES BETWEEN DIRECTED NETWORKS
4.1 BACKGROUND
4.2 METHODS
4.2.1 Statistical model
4.2.2 Simulation studies
4.2.3 Application
4.3 RESULTS
4.3.1 Simulation results
4.3.2 Application results
4.4 DISCUSSION
CHAPTER 5 SCREENING STRATEGY FOR DISEASE-RELATED INTERACTION NETWORK AND ASSESSMENT FOR ITS PREDICTIVE PERFORMANCE
5.1 BACKGROUND
5.2 METHODS
5.2.1 Statistical model
5.2.2 Simulation studies
5.2.3 Application
5.3 RESULTS
5.3.1 Simulation results
5.3.2 Application results
5.4 DISCUSSION
CHAPTER 6 CONCLUSIONS
6.1 INNOVATIONS
6.2 LIMITATIONS
REFERENCES
ACKNOWLEDGEMENT
攻读学位期间发表的学术论文
附表
附件
参考文献
期刊论文
[1]An Integrated Workflow for Proteome-Wide Off-Target Identification and Polypharmacology Drug Design[J]. Thomas Evangelidis,Lei Xie. Tsinghua Science and Technology. 2014(03)
本文编号:1406834
本文链接:https://www.wllwen.com/shoufeilunwen/yxlbs/1406834.html
教材专著