网络结构驱动的生物标记筛选及疾病预测模型研究
发布时间:2017-08-15 06:15
本文关键词:网络结构驱动的生物标记筛选及疾病预测模型研究
更多相关文章: 网络结构 生物标记 变量选择 疾病筛检模型 疾病风险预测模型
【摘要】:流行病学的任务是研究人群中疾病(或健康状况)的分布及其影响因素,并研究疾病防治及健康促进策略和措施。其中,筛选导致疾病发生、发展与转归的危险因素(或生物标记),不仅是病因推断的基础,也是预测疾病发生与转归结局的前提。而病因的确定或疾病及结局的准确预测,对于制定防治策略与措施均具有重要指导意义。因此,研究筛选疾病危险因素的新方法,探讨如何构建高效而准确的疾病预测模型,具有理论与实践意义。理论上,任何疾病的发生与转归均是遗传(基因)与环境因素(个人生活习惯、生理心理因素、环境污染等)交互作用的结果,众多遗传因子与环境因素之间的复杂交互作用往往交织成为网络系统,而正是这个交互网络系统调控着疾病发生、发展及转归的进程。因此,无论是筛选导致疾病发生、发展和转归的危险因素(或生物标记),还是构建其预测模型均应以交互网络系统为基础,忽略交互网络结构的建模策略必将导致信息损失。目前,回归理论是筛选疾病危险因素或构建疾病预测模型的常用方法,其基本思想是,基于线性可加理论构建疾病发生或转归结局(因变量)与危险因子(自变量)之间的回归方程,进而借助回归模型筛选危险因素或构建预测模型。尽管目前发展了一些非线性回归的建模方法(如样条回归等),但仍是在加性理论的框架下构建回归模型,即仍未脱离回归模型的限制。这是因为,回归建模思想是一把“双刃剑”。虽然它采取线性可加的简单形式,用回归系数定量地刻画了自变量对因变量效应;但是,在其建模过程中重点关注的是自变量(危险因子)对因变量(疾病发生或转归结局)的独立效应,而忽略了自变量之间的相关信息;尽管可以用自变量乘积项的形式将其放入回归模型内探测其交互效应,但往往难以遍历整个网络系统的交互结构(包括两变量间的交互效应、多变量间的多阶交互效应、以及整个通路的复杂交互效应);况且,当交互项或交互阶数过多时,自变量之间的共线性将会急剧增加,且其维数也将急剧膨胀,从而导致回归模型估计偏性或失效。为此,着眼于整个网络结构(thinking globally)筛选变量或构建模型,进而推断特定通路(acting locally)上危险因素(或生物标记)对疾病发生的效应,应当成为流行病学病因推断和预测模型构建的未来发展方向。本研究将重点探讨在网络结构框架内,如何筛选危险因素(或生物标记)以及如何构建疾病发生预测模型。随着高通量生物组学(基因组、转录组、表观组、蛋白组、代谢组等)和环境暴露组学技术的成熟发展以及检测成本的大幅度降低,流行病学家在群体水平上同时获得海量的危险因子或生物标记成为现实。这为上述基于网络结构的建模思想提供了丰富的数据信息。为此,本研究将在网络结构框架内,从如下三个方面探讨危险因子(或生物标记)筛选及疾病预测模型构建的理论和方法:1)基于基因交互网络拓扑结构,在贝叶斯模型框架内筛选与疾病表型相关的生物标记(第二章)。2)基于贝叶斯网络,构建疾病筛检模型(第三章)。3)基于贝叶斯网络和竞争风险理论,构建疾病风险预测模型(第四章)。采用统计模拟与实际数据分析相结合的方法,评估上述建模策略的有效性,并通过与回归模型(LASSO回归模型,Logistic回归模型)进一步比较评价模型的优劣性。一、基因网络拓扑先验驱动的贝叶斯生物标记筛选模型(第二章)在全基因组关联分析(GWAS)中,数据分析策略包括两种:第一种是统计推断策略,即采用统计学检验(如卡方检验、t检验、Logistic回归模型等)方法,针对每一个生物标记(SNP位点)计算对比组(如病例组和对照组)之间的统计量及其对应的P值,通过比较P值与预先设定的显著性检验水准α决定是否拒绝H0,若Pα则认为该SNP位点与疾病具有统计学关联。第二种是变量选择策略,即采用变量选择方法(如LASSO回归、岭回归等),将与疾病具有关联性的SNP位点选入模型。上述两类方法均忽略了基因交互网络结构,因而不可避免的会丢失信息。为此,本研究提出了基因网络拓扑先验驱动的生物标记(SNP)筛选模型,在SNP和疾病表型之间引入基因网络层,作为生物标记筛选的网络拓扑先验,进而构建贝叶斯分层模型(Bayesian hierarchical model),筛选出与疾病表型有关的SNP位点。即,构建基因网络拓扑先验驱动的贝叶斯生物标记筛选模型(ND-BVS model).该方法是针对全外显子测序的GWAS基因组数据的整体基因关联分析方法,此类数据是以整体基因为单位(gene-based),获取基因内外显子区域内的全部SNP分型数据。基因网络拓扑先验驱动的贝叶斯生物标记筛选模型的基本原理和方法如下:1)从KEGG数据库(http://www.keggjp/)中获取基因网络的拓扑结构(该数据库中的生物网络结构均经大量的实验证实),构建基因间的邻接矩阵R(如果基因i和基因j间在网络中有连线,则R=1,否则凡=0)。2)以基因网络结构为先验,构建贝叶斯分层模型Zi=(T(Οξ,γ)β(ξ,γ))i+εi,εi~N(0,1),其中Z是表型潜变量得分,T(ξ,r)是基因得分,β(ξ,r)为基因对表型的效应;ξ=(ξ1,…,ξJ)是决定第j个基因是否被选入模型的指示变量,ξ,=1表示第j个基因被选入,否则不被选入。γ=(γ1,…,γP)是决定特定基因j内第p个SNP是否被选入模型的指示变量,rp=1表示第p个SNP被选入,否则不被选入。3)在上述贝叶斯分层模型中,ξ=(ξ1,…,ξJ)的先验分布定义为基因之间的马尔科夫随机场,两两基因之间的关系由邻接矩阵R决定;γ=(γ1,…,γp)的先验分布由每个SNP的指示变量服从伯努利分布而界定。4)根据概率的链式分解法则推导上述模型内所有参数的联合后验分布,进而通过马尔科夫链蒙特卡洛(MCMC)方法获得参数的后验概率。5)根据SNP的后验概率由高到低排序,将SNP依次纳入模型后经十折交叉验证计算预测误差,当模型纳入前k个SNP使得预测误差达到最小时,则将前k个SNP定义为与疾病表型相关联的位点。主要结果:(1)根据致病SNP对表型潜变量得分的解释方差,分别模拟生成三组数据,数据对应的解释方差分别为70%、50%和30%(记为GV70、GV50和GV30)。模拟结果显示:1)在致病位点的识别能力方面,本研究提出的基因网络拓扑先验驱动的贝叶斯生物标记筛选模型(ND-BVS),其识别致病位点的AUC随着致病位点的解释方差的增高而增大,分别为0.792/GV3、0.894/GV50、0.911/GV70;该结果优于LASSO (0.779/GV30、0.882/GV5、0.891/GV70)和逐步回归法(0.774/GV30、0.853/GV50、0.869/GV70)。2)在对疾病表型的预测能力方面,ND-BVS的表现仍优于LASSO和逐步回归法(图2-2)。(2)应用上述三种模型分析麻风病的GWAS数据(病例组706人,对照组514人,492109个SNP经单点Logistic回归检验在α=0.0001的初筛水平上筛选出3388个SNP),利用上述三种模型对初筛后的SNP数据集进行筛选,结果显不:ND-BVS方法筛选出94个SNP,其中有5个SNP在独立群体当中得到验证;LASSO筛选出100个SNP,仅3个SNP被验证;逐步回归法仅筛选出3个SNP,其中1个SNP被验证。结论:ND-BVS模型充分利用了基因之间的交互网络拓扑先验,与传统方法(LASSO回归和逐步回归法)相比提高了致病位点的识别能力及对疾病表型的预测能力。主要创新点:在贝叶斯分层模型框架内,基于基因网络拓扑先验,构建了基因网络拓扑先验驱动的贝叶斯生物标记筛选模型(ND-BVS),为全外显子测序的GWAS基因组数据分析提供了新方法。二、网络结构驱动的疾病筛检模型(第三章)疾病筛检是一种主动发现无症状疾病的预防性措施,它是应用能迅速区分外表健康的人群中可能有病者与可能无病者的试验、检查或其他步骤,对未被识别的疾病或缺陷作出推断性鉴定。通常采用横断面调查,首先确定与疾病表型相关的因素(包括生活习惯、体质测量指标、生化指标、血清学标记、基因标记等),然后以表型相关因素为输入变量,以疾病表型为输出变量,采用统计模式识别模型构建相应的疾病筛检模型。在建模策略上,通常是基于回归建模策略(例如Logistic回归模型),将自变量(筛查指标)以线性可加形式纳入疾病筛检模型。这种策略只能反映筛检指标对疾病表型的独立线性可加效应,或通过变量的乘积项反映变量之间的交互的独立效应对疾病表型的贡献。然而,筛检指标对疾病表型的影响是复杂的,不仅广泛存在着非线性效应,而且往往存在复杂的交互效应。当筛检指标较多且交互作用复杂时,回归建模策略将出现估计偏性或失效。尽管可以采用神经网络模型等学习算法,优化学习变量之间的交互效应或非线性效应,从而提高预测精度,但此类方法本质上仍未摆脱回归模型的限制,仍然忽略了变量之间的调控关系,且往往存在过度学习的缺陷,从而出现外推预测的不准确性。为此,本研究基于条件独立准则,构建变量之间的贝叶斯网络,不仅充分提取变量之间的调控关系,而且利用了变量网络的整体效应,旨在提高模型的筛检能力。贝叶斯网络是借助网络拓扑结构来描述变量之间的依赖和独立关系的有向无环图(directed acyclic graph, DAG)。网络中的节点表示变量,节点间的边表示变量间的直接依赖关系。贝叶斯网络的构建包括网络的结构学习和参数学习两部分,在网络节点(生物标记)之间的病理生理调控先验与计算机机器学习算法有机结合,进行网络的结构学习,在网络结构学习的基础上,通过最大似然法估计网络节点的条件概率(即参数学习)。为了评价基于网络结构的疾病筛检模型的科学性和有效性,本研究设计了如下统计模拟试验:以十折交叉验证的AUC(AUC-CV)作为评价指标,评价所构建的贝叶斯网络疾病筛检模型的判别能力,并与Logistic回归模型、神经网络模型进行比较。具体模拟方案如下:1)在原假设成立(AUC=0.5)时,设立两种情形(所有预测因子相互独立且与疾病结局无关、预测因子之间具有网络结构但与疾病结局无关),评价模型的判别能力AUC指标是否稳定在0.5附近。2)设置多种网络结构(如普通网络、轮状网络、链状网络),基于贝叶斯网络算法产生网络模拟数据,探索在何种情况下忽略网络结构而盲目采用回归分析策略(Logistic回归模型、神经网络模型)将导致判别能力的损失。3)通过Logistic回归模型产生线性可加性的没有网络结构的数据,比较贝叶斯网络模型与Logistic回归模型的判别能力,探讨贝叶斯网络在线性可加情况下的稳健性。主要结果:(1)统计模拟表明:1)当两种原假设成立时(图3-5),当样本量较小且不进行交叉验证时,三种方法(贝叶斯网络、Logistic模型、神经网络模型)的AUC均偏离0.5,但尤以神经网络偏离最为严重,其次是贝叶斯网络模型和Logistic回归模型。随着样本量的增大,三种模型的AUC逐渐逼近0.5。采用十折交叉验证的模拟策略显示,三种模型的AUC-CV在样本含量较小时,即接近0.5的水准,当样本量大于500时,AUC-CV稳定在0.5左右。因此,本研究认为AUC-CV是评价模型稳定性的良好指标。2)模拟发现,在存在网络结构的情况下,三种模型的判别能力(AUC-CV)对样本量并不十分敏感,但鉴于其稳定性对样本量十分敏感,本研究认为构建疾病筛检模型的样本量应足够大(500以上)。3)对于采用贝叶斯网络算法产生的网络数据,当预测因子与疾病结局之间的网络结构较复杂时(图3-6),贝叶斯网络模型的判别能力(AUC=0.72;以样本量500为例)明显优于Logistic判别能力(AUC=0.60)和神经网络的判别能力(AUC=0.62),说明忽略网络结构而构建的疾病筛检模型将不可避免的损失判别能力。4)仍采用贝叶斯网络算法产生模拟数据,当预测因子与疾病结局之间呈简单的链状结构时(图3-7),贝叶斯网络模型的判别能力(AUC-CV=0.66)与神经网络模型的判别能力(AUC-CV=0.63)相当,但Logistic回归模型几乎失去判别能力(AUC-CV=0.56)。5)基于贝叶斯网络算法产生轮状结构数据(图3-8),即各预测因子分别独立的对疾病表型相关;此时结果显示三种方法判别能力相当(AUC-CV=0.65);说明在预测因子独立地与疾病表型相关时,贝叶斯网络模型能显示出与Logistic回归模型等价的判别能力。6)直接采用Logistic回归模型产生数据(即数据完全满足线性独立可加条件;图3-9),此时贝叶斯网络模型、Logistic回归模型及神经网络模型的判别能力几乎一致(AUC-CV=0.8),此模拟结果进一步验证了在预测因子独立地与疾病表型相关时,贝叶斯网络模型仍能显示出与Logistic回归模型等价的判别能力。(2)实例分析:采用经GWAS外部群体验证的16个与麻风病相关联的SNP基因标记数据,在样本量为1220(706病例,514对照)时,构建麻风病筛检的贝叶斯网络模型、Logistic回归判别模型和神经网络模式识别模型,经十折交叉验证后发现,本研究所提出的基于网络结构的疾病筛检模型建模策略表现出较好的预测能力(AUC-CV=0.7152),而忽略网络结构的Logistic回归模型(AUC-CV=0.6976)和神经网络模型的判别能力稍差(AUC-CV=0.6794)。结论:忽略预测因子之间以及预测因子与疾病表型之间的网络结构而构建的疾病筛检模型,不可避免的将损失判别能力;而利用上述网络结构信息构建的疾病筛检模型不仅能提高判别能力,并且在预测变量间不存在网络结构时,贝叶斯网络模型仍能显示出与Logistic回归模型等价的判别能力。主要创新点:提出了利用预测因子与疾病表型之间的网络结构信息提高疾病筛检模型判别能力的创新建模策略,证明了忽略网络结构信息而构建的疾病筛检模型势必损失判别能力,为充分利用网络信息提高疾病筛检模型判别能力提供了新思路。三、网络结构驱动的疾病风险预测模型(第四章)疾病风险预测的基本任务是指在疾病结局发生前,采用竞争风险模型预测个体未来特定时间段内疾病发生的绝对风险。而绝对风险是指具备某特定危险因素集的某个体在年龄α时未发生疾病结局而在年龄α+τ时段内发生该疾病的概率,其中τ是人为规定的随访时间,一般设为五年风险预测模型或十年风险预测模型。在疾病风险预测中,竞争风险是广泛存在的,它是指在研究对象的随访期内,除了会发生所研究的疾病结局外,还会出现其它竞争性结局,它的出现往往会影响所研究的疾病结局的发生概率,甚至导致疾病结局不会再发生;例如,在构建脑卒中发病风险预测模型时,若某个体在脑卒中发生前死于肺癌,则该个体今后发生脑卒中的概率即为O。在构建疾病风险预测模型中,若不考虑竞争风险效应对疾病发生或转归概率的影响,势必会导致对预测果的偏差。因此,疾病风险预测模型构建常常基于竞争风险理论,构建原因别风险模型(cause-specific hazard model)或部分分布风险模型(sub-distribution hazard model)。其中,原因别风险模型使用范围较广,既可基于队列设计,又可基于病例对照设计构建疾病风险预测模型,其基本原理如下:设人群中有N个个体,在一定时间内发生了n例所研究的疾病,由此得到n个病例和N-n的非病例的数据信息,令Xi=(Xi1,Xi2,…,Xip)为第i个个体的预测因子向量。根据原因别风险模型,对于人群中具备特定危险因素集的某个体在年龄α时未发生所研究疾病,而在年龄α+τ时段内发生该病的绝对风险可表示为其中,下标1表示所关注的疾病结局事件(如脑卒中发生),下标2表示竞争风险事件(如非脑卒中死亡),λ10(t)为人群中年龄为t的个体发生所预测疾病的基准风险,rr1(t | X)为具有协变量X的该个体年龄为t时发生所预测疾病的相对危险度(以其最低可能风险水平X0为参照);由于年龄常与危险因素具有交互作用,所以,即使X是固定不变的,rr1(t|X)也将随年龄增长而变化;此外,若X(t)随年龄t的增长而变化,则rr1(t | X)也会变化。实践中,可以假定rr1(t | X)在一段时间内是固定不变的,同时假定非疾病结局(如非脑卒中死亡)的竞争风险不依赖于X(t)。此时模型中的相对危险度rr1(t| X)既可以通过cox模型估计,也可以由Logistic回归模型估计;λ10(t)=[1-AR(t)]λ10*(t)可用归因危险度估计,λ10*(t)可用全人群中所预测疾病的平均发病风险代替。在上述基于Logistic回归的疾病风险预测模型中,相对风险rr1(t| X)的估计方法是,首先建立p个危险因素和疾病之间的多元Logistic回归模型,得到每个预测因子的相对危险度指标rj=(1,2,…,p)。对于第i个个体,其相对风险为.该相对风险的基本原理是提出了各风险因子的线性独立可加效应,从而忽略了预测因子之间的交互网络结构信息,因而势必会造成模型的预测能力的损失。为此,本研究提出了网络结构驱动的疾病风险预测模型构建的新策略。其基本方法是,首先建立预测因子与疾病表型之间的贝叶斯网络模型,进而利用贝叶斯网络计算具有特定预测因子向量的个体发生疾病结局的相对危险度为是处于基准发病风险的个体的暴露水平,而Xi1,Xi2,…,Xip是其实际暴露水平。基于以上理论模型,本研究通过统计模拟实验,评价所构建的网络结构驱动的疾病风险预测模型的校准能力(E/O比)和判别能力(AUC),并与传统的Logistic回归模型方法进行比较(模拟方案见正文4.2.3)。通过本课题组所构建的多中心健康体检纵向检测队列构建糖尿病风险预测模型,进一步评价模型的实用性。主要结果:(1)统计模拟结果表明:1)在样本量较大时(队列规模大于1000),网络结构驱动的疾病风险预测模型(BN模型)和基于Logistic回归的风险预测模型(LRT模型)的E/O比与AUC均趋于稳定(图4-2),二者的判别能力(AUC)虽无差异,但校准能力(E/O比)差别较大,LRT模型明显偏离1,从而高估了疾病风险,而本研究所构建的BN模型的E/O比接近于1,外推准确性较高。2)当预测因子的效应增大时,LRT模型和BN模型分别倾向于高估和低估个体累积得病风险,然而BN模型在两种效应度量下的E/O比均明显优于LRT模型;两个模型的AUC相当并随预测因子效应增大而增大(图4-2)。3)两个模型的E/O比不受变量相关性的影响,且BN的E/O比整体优于LRT模型;两者的AUC相当且随自变量相关性的增强而提高(图4-3)。4)随着外推预测期限的延长,BN模型的E/O比仍优于LRT模型。两个模型的AUC相当且不受预测期限的影响(图4-4)。5)BN模型的校准能力对人群中累积发病率水平不敏感,而LRT模型受人群累积发病水平的影响大,当累积发病率较高时,LRT模型的E/O比越来越偏离1,而BN模型E/O比不受累积发病水平影响,表现均优于LRT模型;二者的判别能力(AUC)无差异且不受累积发病率影响(图4-5)。(2)实例分析:依托山东多中心健康体检纵向监测队列,以山东省立医院健康体检人群糖尿病随访队列(队列中7381人,随访5年,共发生糖尿病757例)分别基于BN模型和LRT模型构建糖尿病风险预测模型,进而在同类外部人群队列(济宁医学院附属医院健康体检人群糖尿病随访队列,队列中4142人,随访5年,共发生糖尿病233例)进行外推验证,结果表明基于BN的糖尿病风险预测模型(AUC=0.699)与基于LRT的预测模型(AUC=0.701)的判别能力虽无差异,但在外推预测准确性上,前者(E/O比=0.93)稍高于后者(E/O比=0.90)。进一步说明了与模拟结果相符。结论:统计模拟与实例验证均表明,网络结构驱动的疾病风险预测模型与传统的基于Logistic回归的疾病预测模型相比,虽然在判别能力(AUC)上相差不大,但在外推预测准确性(E/O比)上,前者明显优于后者。提示忽略网络结构的预测模型势必会造成模型预测准确性的降低。主要创新点:将预测因子与疾病表型之间的网络结构信息嵌入到竞争风险模型内,构建了网络结构驱动的疾病风险预测模型,提高了疾病风险预测模型的预测准确性,为疾病风险预测模型的构建提供了新方法。
【关键词】:网络结构 生物标记 变量选择 疾病筛检模型 疾病风险预测模型
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:R181
【目录】:
- 中文摘要8-18
- ABSTRACT18-30
- Denotaton30-31
- CHAPTER 1 INTRODUCTION31-41
- 1.1 Biomarker selection33-36
- 1.2 Disease screening36-38
- 1.3 Disease risk prediction38-40
- 1.4 Outline of the dissertation40-41
- CHAPTER 2 GENE NETWORK STRUCTURE-DRIVEN BAYESIAN BIOMARKER SELECTION MODEL41-63
- 2.1 Background41-43
- 2.2 Methods43-51
- 2.2.1 ND-BVS model43-45
- 2.2.2 Posterior distributions derivation45-49
- 2.2.3 Simulation studies49-50
- 2.2.4 Application50-51
- 2.3 Results51-60
- 2.3.1 Simulation results51-54
- 2.3.2 Application results54-60
- 2.4 Discussion60-63
- CHAPTER 3 NETWORK STRUCTURE-DRIVEN MODEL FOR DISEASE SCREENING63-81
- 3.1 Background63-64
- 3.2 Methods64-70
- 3.2.1 Bayesian network64-66
- 3.2.2 Neural network66-68
- 3.2.3 Simulation studies68-70
- 3.2.4 Application70
- 3.3 Results70-78
- 3.3.1 Simulation results70-76
- 3.3.2 Application results76-78
- 3.4 Discussion78-81
- CHAPTER 4 NETWORK STRUCTURE-DRIVEN MODEL FOR DISEASE RISK PREDICTION81-108
- 4.1 Background81-83
- 4.2 Methods83-92
- 4.2.1 Cause-specific hazard model83-84
- 4.2.2 BN-based estimation of relative risks84-86
- 4.2.3 Simulation studies86-89
- 4.2.4 Application89-92
- 4.3 Results92-104
- 4.3.1 Simulation results92-95
- 4.3.2 Application res山ts95-104
- 4.4 Discussion104-108
- CHAPTER 5 CONCLUSIONS108-111
- 5.1 Innovations109-110
- 5.2 Limitations110-111
- REFERENCE111-119
- 致谢119-120
- 攻读学位期间发表的学术论文120-121
- 学位论文评阅及答辩情况表121-123
- 附英文发表文章123-141
本文编号:676630
本文链接:https://www.wllwen.com/yixuelunwen/liuxingb/676630.html