logistic回归模型在流行病学病因分析中的偏性及其改进策略研究

发布时间：2020-07-30 04:17

【摘要】：背景:探讨疾病危险因素进而推断疾病病因是流行病学的永恒主题,也是预防医学实践中的主要任务。然而,目前常用的大多数统计方法多是从关联分析入手,通过相关关系逼近因果关系,在分析过程中常常忽略混杂因素的影响,从而导致因果效应的错误估计。虽然,流行病学家已经提出了一系列控制混杂偏倚的策略方法,包括:限制、分层、调整。但如何正确应用这些策略方法,借助常规的统计关联分析有效地控制混杂偏倚,一直是困扰分析流行病学研究的难题。logistic回归模型是流行病学病因分析中最为普遍的方法。事实上,logistic回归模型的估计值在本质上是关联分析层面的条件概率,所得到的因果效应估计值往往有偏。因此,如何正确使用logistic回归模型以准确估计暴露对结局的真实因果效应是病因分析中需要解决的重要问题。此外,由于纳入回归模型的变量集不同,得到的因果效应估计值也会不同;随着调整变量个数的增加,因果效应估计的精确性也会受到影响。因此,如何选择最优调整变量集,以准确估计暴露对结局的因果效应,也是logistic回归分析中需解决的关键问题。方法:本文针对传统logistic回归模型估计偏性和最优调整混杂集的选择问题,采用了统计模拟研究、理论推导证明和实际数据分析相结合的方法,试图系统地研究传统logistic回归模型的估计偏性,改进分析策略,探索最优调整混杂集的选择及其纳入准则。针对传统logistic回归模型的估计偏性,探讨使用逆概率加权法构建logistic边际结构模型替代传统logistic回归模型,从而校正其估计偏性,获得无偏的因果效应估计。针对logistic回归分析中最优调整混杂集的选择及其纳入准则,基于因果图模型和等值混杂理论,比较传统logistic回归模型和基于逆概率加权的logistic边际结构模型表现,分别提出纳入调整混杂集的最优策略和一般指导性原则。充分考虑到混杂变量之间的复杂性,本文由简单到复杂逐步构建四种因果图模型,并根据等值混杂的充分必要条件,得到每种因果图模型下的等值混杂集;进而,分别采用两种logistic模型调整不同的混杂集,并分别比较估计值的偏倚和标准误,据此评价因果效应估计值的准确性和精确性。在实际数据分析过程中,面对众多混杂因素时,往往难以获得明确的因果图模型,也难以明确真实因果效应。本文采用逐步递加的方式估计高甘油三酯对糖尿病前期的影响。通过比较logistic回归模型和logistic边际结构模型的不同表现,进一步说明两种模型在病因分析中的差异。结果:1.通过理论证明和模拟研究,可得出以下结果:(1)在估计暴露对结局因果效应时,当调整的混杂集满足后门准则时,传统logistic回归模型的因果效应估计值多为有偏估计。其中,调整所有混杂后的因果效应估计值与调整结局所有父母节点后的因果效应估计值相等;而调整暴露的所有父母节点后得到的因果效应估计值与前两者不相等,但是偏倚更小(即准确性更高),且大部分情况下精确性也最高。(2)logistic边际结构模型调整满足后门准则的任一集合时,均可得到因果效应的无偏估计。其中,调整结局所有父母节点时,因果效应估计值的标准误最小(精确性最高)。(3)在因果图的结构只有部分已知的情况下,传统logistic回归模型调整马尔科夫边界相等的混杂集时,因果效应的估计值均为有偏估计,通常情况下,调整暴露的父母节点产生的偏倚较小。(4)logistic边际结构模型调整仅满足马尔科夫边界相等的混杂集,得到的因果效应估计值近似相等,但均为有偏估计。2.在实际数据分析时,分别用传统logistic回归模型和logistic边际结构模型估计高甘油三酯对糖尿病前期的因果效应,均得到高甘油三酯是糖尿病前期的危险因素。随着传统logistic回归模型/logistic边际结构模型调整更多的生化指标和体质测量指标,高甘油三酯对糖尿病前期影响的效应估计值逐渐减小。当调整的混杂因素相同时,相较于logistic边际结构模型,传统logistic回归模型得到高甘油三酯对糖尿病前期的效应偏大。结论:1.充分考虑混杂变量之间的关系,分别就四种因果图模型进行统计模拟研究、理论推导证明。结论如下,(1)当调整的混杂集合满足后门准则时,传统logistic回归模型的因果效应估计值多为有偏估计,而logistic边际结构模型均为近似无偏估计且估计值的精确性更高。因此,建议使用logistic边际结构模型代替传统logistic回归模型进行病因分析。(2)当调整的混杂集合仅满足马尔科夫边界相等时,两种logistic模型的因果效应估计值均为有偏估计,但logistic边际结构模型相对稳定。因此,仍推荐使用logistic边际结构模型。(3)选择调整混杂集的准则为:logistic边际结构模型为调整结局的所有父母节点;传统logistic回归模型为调整暴露的所有父母节点。2.实际数据分析与模拟结果一致,与logistic边际结构模型相比,传统logistic回归模型估计暴露对结局的因果效应值偏高。
【学位授予单位】：山东大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：R181
【图文】：

标准误,偏倚,效应,模型调整

图２不同ｚ—ｒ和ｒ—ｙ效应时两种ｌｏｇｉｓｔｉｃ模型的估计偏倚及标准误逡逑（２）不同和Ｘ—Ｔ效应时两种ｌｏｇｉｓｔｉｃ模型的估计偏倚及标准误逡逑设定和；效应ｌｎＯＲ从０到２．３０３邋（Ｏｉ？从１到１０），针对４＝｛Ｚ｝、逡逑山＝｛７｝和山＝｛Ｚ，邋Ｔ｝三组等值混杂集，分别采用两种ｌｏｇｉｓｔｉｃ模型进行调整后的偏逡逑倚和标准误变化趋势如图３所示。逡逑观察图３邋（ａ）和图３邋（ｃ），随着Ｚ对Ｚ效应X棿螅ǎ保┯么常欤铮纾椋螅簦椋慊毓殄义夏Ｐ偷髡煸蛹截ⅲ蓿剑罚騈B３＝｛Ｚ，邋ｒ｝时，得到估计结果仍然不同：１）调逡逑整▲（图中ＬｏｇｉｔＡｉ）时，结果近似无偏，但其标准误随着Ｚ对；Ｔ效应增大先降逡逑后升；２）调整混杂集Ａ或ｄ３，二者的估计均为有偏估计（图中Ｌｏｇｉｔ邋Ａ２和Ｌｏｇｉｔ逡逑Ａ３）。由此可见，使用传统ｌｏｇｉｓｔｉｃ模型调整暴露（Ｚ）的父母节点（Ｄ时，可逡逑获得偏倚最小的估计。（２）当用ｌｏｇｉｓｔｉｃ边际结构模型调整混杂集４、山或沁逡逑时（图中ＭＳＭＡｉ、ＭＳＭＡ２和ＭＳＭＡ３），三者均为无偏估计，且调整七时，逡逑标准误最小。因此，ｌｏｇｉｓｔｉｃ边际结构模型调整三个变量集中任意一个均可获得无逡逑

标准误,偏倚,效应,模型调整

设定和；效应ｌｎＯＲ从０到２．３０３邋（Ｏｉ？从１到１０），针对４＝｛Ｚ｝、逡逑山＝｛７｝和山＝｛Ｚ，邋Ｔ｝三组等值混杂集，分别采用两种ｌｏｇｉｓｔｉｃ模型进行调整后的偏逡逑倚和标准误变化趋势如图３所示。逡逑观察图３邋（ａ）和图３邋（ｃ），随着Ｚ对Ｚ效应X棿螅ǎ保┯么常欤铮纾椋螅簦椋慊毓殄义夏Ｐ偷髡煸蛹截ⅲ蓿剑罚騈B３＝｛Ｚ，邋ｒ｝时，得到估计结果仍然不同：１）调逡逑整▲（图中ＬｏｇｉｔＡｉ）时，结果近似无偏，但其标准误随着Ｚ对；Ｔ效应增大先降逡逑后升；２）调整混杂集Ａ或ｄ３，二者的估计均为有偏估计（图中Ｌｏｇｉｔ邋Ａ２和Ｌｏｇｉｔ逡逑Ａ３）。由此可见，使用传统ｌｏｇｉｓｔｉｃ模型调整暴露（Ｚ）的父母节点（Ｄ时，可逡逑获得偏倚最小的估计。（２）当用ｌｏｇｉｓｔｉｃ边际结构模型调整混杂集４、山或沁逡逑时（图中ＭＳＭＡｉ、ＭＳＭＡ２和ＭＳＭＡ３），三者均为无偏估计，且调整七时，逡逑标准误最小。因此，ｌｏｇｉｓｔｉｃ边际结构模型调整三个变量集中任意一个均可获得无逡逑偏估计

偏倚,标准误,效应,模型估计

使用ｌｏｇｉｓｔｉｃ边际结构模型调整三个变量集中任意一个均可获得无偏估计，逡逑且调整结局（ｒ）的父母节点（７：邋Ｆ）时估计精度最高。逡逑由图４（ｂ）和图４（ｄ）可见，随着效应的逐渐X棿螅ǎ保┤酰欤铮纾椋螅簦椋沐义匣毓槟Ｐ偷墓兰破芯噬仙魇菩裕椅衅兰疲渲械髡纾ㄍ贾校

本文编号：2775002

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/yixuelunwen/yufangyixuelunwen/2775002.html

上一篇：营养联合运动干预对肌肉衰减综合征社区老年人影响的随机对照研究
下一篇：铜对H22荷瘤小鼠肿瘤的生长以及EGFR通路相关蛋白表达的影响

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|