logistic回归模型在流行病学病因分析中的偏性及其改进策略研究
发布时间:2020-07-30 04:17
【摘要】:背景:探讨疾病危险因素进而推断疾病病因是流行病学的永恒主题,也是预防医学实践中的主要任务。然而,目前常用的大多数统计方法多是从关联分析入手,通过相关关系逼近因果关系,在分析过程中常常忽略混杂因素的影响,从而导致因果效应的错误估计。虽然,流行病学家已经提出了一系列控制混杂偏倚的策略方法,包括:限制、分层、调整。但如何正确应用这些策略方法,借助常规的统计关联分析有效地控制混杂偏倚,一直是困扰分析流行病学研究的难题。logistic回归模型是流行病学病因分析中最为普遍的方法。事实上,logistic回归模型的估计值在本质上是关联分析层面的条件概率,所得到的因果效应估计值往往有偏。因此,如何正确使用logistic回归模型以准确估计暴露对结局的真实因果效应是病因分析中需要解决的重要问题。此外,由于纳入回归模型的变量集不同,得到的因果效应估计值也会不同;随着调整变量个数的增加,因果效应估计的精确性也会受到影响。因此,如何选择最优调整变量集,以准确估计暴露对结局的因果效应,也是logistic回归分析中需解决的关键问题。方法:本文针对传统logistic回归模型估计偏性和最优调整混杂集的选择问题,采用了统计模拟研究、理论推导证明和实际数据分析相结合的方法,试图系统地研究传统logistic回归模型的估计偏性,改进分析策略,探索最优调整混杂集的选择及其纳入准则。针对传统logistic回归模型的估计偏性,探讨使用逆概率加权法构建logistic边际结构模型替代传统logistic回归模型,从而校正其估计偏性,获得无偏的因果效应估计。针对logistic回归分析中最优调整混杂集的选择及其纳入准则,基于因果图模型和等值混杂理论,比较传统logistic回归模型和基于逆概率加权的logistic边际结构模型表现,分别提出纳入调整混杂集的最优策略和一般指导性原则。充分考虑到混杂变量之间的复杂性,本文由简单到复杂逐步构建四种因果图模型,并根据等值混杂的充分必要条件,得到每种因果图模型下的等值混杂集;进而,分别采用两种logistic模型调整不同的混杂集,并分别比较估计值的偏倚和标准误,据此评价因果效应估计值的准确性和精确性。在实际数据分析过程中,面对众多混杂因素时,往往难以获得明确的因果图模型,也难以明确真实因果效应。本文采用逐步递加的方式估计高甘油三酯对糖尿病前期的影响。通过比较logistic回归模型和logistic边际结构模型的不同表现,进一步说明两种模型在病因分析中的差异。结果:1.通过理论证明和模拟研究,可得出以下结果:(1)在估计暴露对结局因果效应时,当调整的混杂集满足后门准则时,传统logistic回归模型的因果效应估计值多为有偏估计。其中,调整所有混杂后的因果效应估计值与调整结局所有父母节点后的因果效应估计值相等;而调整暴露的所有父母节点后得到的因果效应估计值与前两者不相等,但是偏倚更小(即准确性更高),且大部分情况下精确性也最高。(2)logistic边际结构模型调整满足后门准则的任一集合时,均可得到因果效应的无偏估计。其中,调整结局所有父母节点时,因果效应估计值的标准误最小(精确性最高)。(3)在因果图的结构只有部分已知的情况下,传统logistic回归模型调整马尔科夫边界相等的混杂集时,因果效应的估计值均为有偏估计,通常情况下,调整暴露的父母节点产生的偏倚较小。(4)logistic边际结构模型调整仅满足马尔科夫边界相等的混杂集,得到的因果效应估计值近似相等,但均为有偏估计。2.在实际数据分析时,分别用传统logistic回归模型和logistic边际结构模型估计高甘油三酯对糖尿病前期的因果效应,均得到高甘油三酯是糖尿病前期的危险因素。随着传统logistic回归模型/logistic边际结构模型调整更多的生化指标和体质测量指标,高甘油三酯对糖尿病前期影响的效应估计值逐渐减小。当调整的混杂因素相同时,相较于logistic边际结构模型,传统logistic回归模型得到高甘油三酯对糖尿病前期的效应偏大。结论:1.充分考虑混杂变量之间的关系,分别就四种因果图模型进行统计模拟研究、理论推导证明。结论如下,(1)当调整的混杂集合满足后门准则时,传统logistic回归模型的因果效应估计值多为有偏估计,而logistic边际结构模型均为近似无偏估计且估计值的精确性更高。因此,建议使用logistic边际结构模型代替传统logistic回归模型进行病因分析。(2)当调整的混杂集合仅满足马尔科夫边界相等时,两种logistic模型的因果效应估计值均为有偏估计,但logistic边际结构模型相对稳定。因此,仍推荐使用logistic边际结构模型。(3)选择调整混杂集的准则为:logistic边际结构模型为调整结局的所有父母节点;传统logistic回归模型为调整暴露的所有父母节点。2.实际数据分析与模拟结果一致,与logistic边际结构模型相比,传统logistic回归模型估计暴露对结局的因果效应值偏高。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R181
【图文】:
图2不同z—r和r—y效应时两种logistic模型的估计偏倚及标准误逡逑(2)不同和X—T效应时两种logistic模型的估计偏倚及标准误逡逑设定和;效应lnOR从0到2.303邋(Oi?从1到10),针对4={Z}、逡逑山={7}和山={Z,邋T}三组等值混杂集,分别采用两种logistic模型进行调整后的偏逡逑倚和标准误变化趋势如图3所示。逡逑观察图3邋(a)和图3邋(c),随着Z对Z效应X棿螅ǎ保┯么常欤铮纾椋螅簦椋慊毓殄义夏P偷髡煸蛹截ⅲ蓿剑罚騈B3={Z,邋r}时,得到估计结果仍然不同:1)调逡逑整▲(图中LogitAi)时,结果近似无偏,但其标准误随着Z对;T效应增大先降逡逑后升;2)调整混杂集A或d3,二者的估计均为有偏估计(图中Logit邋A2和Logit逡逑A3)。由此可见,使用传统logistic模型调整暴露(Z)的父母节点(D时,可逡逑获得偏倚最小的估计。(2)当用logistic边际结构模型调整混杂集4、山或沁逡逑时(图中MSMAi、MSMA2和MSMA3),三者均为无偏估计,且调整七时,逡逑标准误最小。因此,logistic边际结构模型调整三个变量集中任意一个均可获得无逡逑
设定和;效应lnOR从0到2.303邋(Oi?从1到10),针对4={Z}、逡逑山={7}和山={Z,邋T}三组等值混杂集,分别采用两种logistic模型进行调整后的偏逡逑倚和标准误变化趋势如图3所示。逡逑观察图3邋(a)和图3邋(c),随着Z对Z效应X棿螅ǎ保┯么常欤铮纾椋螅簦椋慊毓殄义夏P偷髡煸蛹截ⅲ蓿剑罚騈B3={Z,邋r}时,得到估计结果仍然不同:1)调逡逑整▲(图中LogitAi)时,结果近似无偏,但其标准误随着Z对;T效应增大先降逡逑后升;2)调整混杂集A或d3,二者的估计均为有偏估计(图中Logit邋A2和Logit逡逑A3)。由此可见,使用传统logistic模型调整暴露(Z)的父母节点(D时,可逡逑获得偏倚最小的估计。(2)当用logistic边际结构模型调整混杂集4、山或沁逡逑时(图中MSMAi、MSMA2和MSMA3),三者均为无偏估计,且调整七时,逡逑标准误最小。因此,logistic边际结构模型调整三个变量集中任意一个均可获得无逡逑偏估计
使用logistic边际结构模型调整三个变量集中任意一个均可获得无偏估计,逡逑且调整结局(r)的父母节点(7:邋F)时估计精度最高。逡逑由图4(b)和图4(d)可见,随着效应的逐渐X棿螅ǎ保┤酰欤铮纾椋螅簦椋沐义匣毓槟P偷墓兰破芯噬仙魇菩裕椅衅兰疲渲械髡纾ㄍ贾校
本文编号:2775002
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R181
【图文】:
图2不同z—r和r—y效应时两种logistic模型的估计偏倚及标准误逡逑(2)不同和X—T效应时两种logistic模型的估计偏倚及标准误逡逑设定和;效应lnOR从0到2.303邋(Oi?从1到10),针对4={Z}、逡逑山={7}和山={Z,邋T}三组等值混杂集,分别采用两种logistic模型进行调整后的偏逡逑倚和标准误变化趋势如图3所示。逡逑观察图3邋(a)和图3邋(c),随着Z对Z效应X棿螅ǎ保┯么常欤铮纾椋螅簦椋慊毓殄义夏P偷髡煸蛹截ⅲ蓿剑罚騈B3={Z,邋r}时,得到估计结果仍然不同:1)调逡逑整▲(图中LogitAi)时,结果近似无偏,但其标准误随着Z对;T效应增大先降逡逑后升;2)调整混杂集A或d3,二者的估计均为有偏估计(图中Logit邋A2和Logit逡逑A3)。由此可见,使用传统logistic模型调整暴露(Z)的父母节点(D时,可逡逑获得偏倚最小的估计。(2)当用logistic边际结构模型调整混杂集4、山或沁逡逑时(图中MSMAi、MSMA2和MSMA3),三者均为无偏估计,且调整七时,逡逑标准误最小。因此,logistic边际结构模型调整三个变量集中任意一个均可获得无逡逑
设定和;效应lnOR从0到2.303邋(Oi?从1到10),针对4={Z}、逡逑山={7}和山={Z,邋T}三组等值混杂集,分别采用两种logistic模型进行调整后的偏逡逑倚和标准误变化趋势如图3所示。逡逑观察图3邋(a)和图3邋(c),随着Z对Z效应X棿螅ǎ保┯么常欤铮纾椋螅簦椋慊毓殄义夏P偷髡煸蛹截ⅲ蓿剑罚騈B3={Z,邋r}时,得到估计结果仍然不同:1)调逡逑整▲(图中LogitAi)时,结果近似无偏,但其标准误随着Z对;T效应增大先降逡逑后升;2)调整混杂集A或d3,二者的估计均为有偏估计(图中Logit邋A2和Logit逡逑A3)。由此可见,使用传统logistic模型调整暴露(Z)的父母节点(D时,可逡逑获得偏倚最小的估计。(2)当用logistic边际结构模型调整混杂集4、山或沁逡逑时(图中MSMAi、MSMA2和MSMA3),三者均为无偏估计,且调整七时,逡逑标准误最小。因此,logistic边际结构模型调整三个变量集中任意一个均可获得无逡逑偏估计
使用logistic边际结构模型调整三个变量集中任意一个均可获得无偏估计,逡逑且调整结局(r)的父母节点(7:邋F)时估计精度最高。逡逑由图4(b)和图4(d)可见,随着效应的逐渐X棿螅ǎ保┤酰欤铮纾椋螅簦椋沐义匣毓槟P偷墓兰破芯噬仙魇菩裕椅衅兰疲渲械髡纾ㄍ贾校
本文编号:2775002
本文链接:https://www.wllwen.com/yixuelunwen/yufangyixuelunwen/2775002.html
最近更新
教材专著