基于统计学习的逆概率加权方法研究及其在医学中的应用
发布时间:2020-06-11 10:47
【摘要】:研究背景:探讨处理/暴露因素与结局之间的因果效应是医学研究中的重要课题。随机对照试验通常被认为是因果效应估计的金标准。在观察性研究中,研究对象的处理分配机制通常不是随机发生的,而是会受到众多混杂因素的影响。在比较处理组间的暴露效应时,如果忽略这些混杂因素,效果估计就会发生偏倚。基于边际结构模型的逆概率加权法(inverse probability weighing,IPW)是一类可用于观察性资料处理效应估计的重要方法。IPW在应用时需要满足一些前提假设,比如无遗漏未观测混杂因素、非负性假设、稳定单元处理值假设以及要正确设定权重估计模型等。对于IPW而言,第一阶段的逆概率权重估计非常关键,这是因为最终的处理效应估计对于第一阶段的权重估计准确与否非常敏感。如果权重估计模型设定错误(如遗漏二次项或交互项等),估计的权重就不准确,且容易产生极端权重,导致最终的效应估计发生偏倚。近年来,越来越多的研究人员推荐采用包括许多统计学习算法在内的数据适应性方法估计逆概率权重,取得了良好的效果。然而,目前的研究大多局限于二分类处理因素资料以及单一结局纵向生存资料。医学实践中存在着许多处理/暴露因素为连续性变量的资料以及时依性竞争风险生存资料。对于处理因素为连续性变量的资料类型而言,采用IPW进行效应估计要比二分类处理因素的情况更复杂,比如要考察处理因素的分布类型、控制较多的极端权重对于效应估计的影响等。对于时依性竞争风险生存资料而言,传统的边际结构原因别风险模型(marginal structural cause specific hazard models,MSCSHM)中的逆概率权重是多次随访所得的权重累乘所得。即使权重估计模型设定发生了比较轻微的错误,最终处理效应估计都将可能发生严重的偏倚。有鉴于此,探索基于统计学习算法的逆概率加权法在连续性处理因素资料以及时依性竞争风险生存资料中的适用效果具有潜在的理论意义和实际应用价值。研究目的:1、针对连续性处理因素的资料,通过模拟研究比较包括一般线性模型在内的7种逆概率权重估计方法在不同数据情境下的估计效果。同时,以一般线性模型为例,探讨权重截断方法对于效应估计的影响。2、针对时依性竞争风险生存资料,在MSCSHM的基础上,引入8种统计学习方法估计逆概率权重。通过模拟研究比较logistic回归与这8种方法在不同数据情境下的估计效果,筛选出其中表现较优的方法。另外,探讨不同程度的权重截断水平对于各个估计方法的影响。研究方法:针对以上两个研究目的,均分别采用数据模拟→模型构建→模型筛选→实例应用的研究流程开展研究。分述如下:1、连续性处理因素的逆概率加权方法研究采用蒙特卡洛法模拟处理因素为连续性变量的观察性队列资料。模拟实验设置三种不同大小的样本量(250、1000和2500)和四种不同复杂程度的处理因素生成模型(线性可加、非线性、非可加以及非线性非可加模型),比较一般线性模型(general linear model,GLM)、gamma回归模型、分位数分组法(quantile binning,QB)、协变量均衡性倾向性评分(covariate-balancing propensity score,CBPS)、非参数CBPS(nonparametric CBPS,npCBPS)、boosted分类与回归树(boosted classification and regression trees,boosted CART)和随机森林(random forest,RF)等7种方法估计广义倾向性评分和逆概率权重,另外,对由GLM得到的稳定权重分别在双侧1%和5%分位点进行截断处理,得到相应的截断权重。进一步,利用得到的9个权重变量对原始样本加权,通过加权结局回归模型得到各自的处理效应估计量。采用平均绝对相关系数(average absolute correlation coefficient,AACC)、相对偏倚(relative bias)、经验标准差(standard deviation,SD)、模型输出的标准误(standard error,SE)、均方根误差(root mean squared error,RMSE)和95%置信区间(confidence interval,CI)覆盖率等指标评价估计效果。最后通过研究吸烟量对于医疗总支出的影响,比较不同的IPW估计方法在实际数据分析时的应用效果。2、时依性竞争风险生存数据的逆概率加权方法研究首先提出采用MSCSHM作为本研究的基础框架,引入LASSO、贝叶斯logistic回归、CART、bagged CART、boosted CART、随机森林、支持向量机(support vector machine,SVM)和EL(ensemble learner)算法等8种统计学习方法构造第一阶段的逆概率权重。然后采用蒙特卡洛法模拟时依性竞争风险生存数据。模拟设置了两种不同大小的样本量(250和1000)、不同强度的处理因素序列的自相关性(相关系数为log(4)和0.5)、不同的竞争终点事件数(2和3)以及四种处理因素生成模型(线性可加、非可加、非线性以及非线性非可加模型)。分别采用logistic回归和上述8种统计学习方法估计稳定权重。另外,分别在稳定权重分布的双侧1%、5%、10%、25%、35%和50%分位点进行截断处理,探讨不同的截断水平对于处理效应估计的影响。采用绝对偏倚、相对偏倚、SD、SE、RMSE和95%CI覆盖率等指标评价估计效果,探索不同数据情境下的最优方法。最后,将筛选得到的最优方法应用于评估硫唑嘌呤暴露对于炎症性肠病患者的(I)恶性肿瘤及死亡的发生风险以及(II)非恶性肿瘤相关死亡的发生风险,与传统的分析方法得到的结果进行对比,评价研究方法在实际数据分析时的应用效果。上述研究过程均采用统计分析软件R 3.4.3中实现。研究结果:1、连续性处理因素的逆概率加权方法研究(1)模拟研究结果:(1)在均衡协变量的能力方面,CBPS在所有方法中表现最好,其次为npCBPS。直接采用GLM法得到的原始稳定权重对样本加权,协变量分布仍然不均衡,通过权重截断方法去除极端值后,采用GLM(1,99)加权后的样本的协变量均衡性显著改善。(2)Boosted CART和RF在不同程度的权重估计模型误设的情况下的估计偏倚均较小,在减小偏倚方面优于其他方法。(3)由GLM、GLM(1,99)和GLM(5,95)三者的SD可以看出,权重截断方法可以减小估计量的方差,且随着截断水平的提高,方差逐渐变小。(4)CBPS、npCBPS和boosted CART的RMSE较小,估计精度较高。由于权重截断减小了方差,致使GLM(5,95)和GLM(1,99)的RMSE小于前述三种方法。(5)随着处理因素生成模型复杂度的上升,各个方法的95%CI覆盖率均有不同程度的下降。GLM(1,99)、CBPS、npCBPS和boosted CART四种方法的表现相对稳健。(2)实例研究结果:通过“考察处理因素的分布-逆概率权重的估计-考察权重的分布-协变量均衡性的评价-剂量反应函数的估计”的分析流程研究了吸烟数量对于医疗总支出的影响。结果表明,随着吸烟量的增加,个人的医疗总支出也随之增加;在调整了相关混杂因素后,吸烟量对于医疗总支出的效应虽有所减弱,标准误增大,但是除了boosted CART(1,99)加权法得到的估计量具有临界统计学意义外,GLM(1,99)和RF(1,99)加权法得到的估计量仍具有显著的统计学意义。2、时依性竞争风险生存数据的逆概率加权方法研究(1)模拟研究结果:(1)当处理因素生成模型仅包括主效应项(线性可加)时,boosted CART估计量的偏倚较小,且在SD和RMSE方面表现最优,而基于参数logistic回归的估计量的SD较大,估计精度较差。(2)当处理因素生成模型仅包括二阶交互项(非可加)时,在大样本且处理因素序列强自相关时,boosted CART和RF的估计效果非常接近,且均优于其他方法;在小样本或处理因素序列中度自相关时,RF在偏倚和RMSE方面表现最优。(3)当处理因素生成模型包括非线性项时,boosted CART在偏倚、RMSE和95%CI覆盖率方面最优。(4)当处理因素生成模型同时包括二阶交互项和非线性项时,RF在RMSE和95%CI覆盖率方面表现最优。(5)低水平(如双侧1%分位点)的权重截断能够进一步减小boosted CART和RF两种方法的RMSE。(6)在相同的模拟情境下,多数估计方法的最优截断水平不尽相同;在不同的模拟情境下,同一种方法的最优截断水平也有差异。最优截断水平的选择具有数据依赖性。(2)实例研究结果:采用带有时依性协变量的Cox比例风险模型、分别基于logistic回归和boosted CART的MSCSHM分析硫唑嘌呤暴露对炎症性肠病患者的两个竞争终点事件的风险大小。结果显示,无论处理因素定义为过去3个月暴露还是累积暴露,各个模型的效应估计结果均未显示暴露效应具有统计学意义。研究结论:对于连续性处理因素资料,CBPS和npCBPS在均衡协变量方面的能力较强;在减小估计偏倚方面,boosted CART和RF等统计学习算法的表现较优;在采用IPW进行效应估计时,应首先考察权重变量的分布,若存在较多离群点,应首先对权重作截断处理,然后进行下一步的效应估计。对于时依性竞争风险生存资料,在采用MSCSHM模型进行效应估计时,由于实际资料中的处理分配机制往往未知,建议采用boosted CART和RF两种方法替代传统的logistic回归构建逆概率权重,以减小模型设定错误对于效应估计的影响。
【图文】:
三、模拟研究(一)模拟实验设计本部分的模拟实验设计参考了 Setoguchi[36]、Lee[38]、Wyss[84]和 Romain[90]等拟框架,并在他们的基础上作了适当的改进以适应本文的研究目的。1、模拟数据的总体结构本研究模拟的是三种不同样本量(分别为 250、1000 和 2500)的观察性队 3.1 所示,该模拟队列数据包括一个连续性处理因素 A ,一个二分类结局变(Y ) ~ 0.10)和10个基线协变量iX ,i 1, , 10。在这10个基线协变量中,1X 杂因素,它们与处理因素和结局变量都相关,5 7X ~X 仅是处理因素的预测献中一般也称之为工具变量),8 10X ~X 仅是结局变量的预测变量(即结局立预测因子)。另外,设置1X 、3X 、5X 、6X 、8X 和9X 为二分类变量,,7X 和10X 为连续性变量。各个基线协变量之间的相关系数矩阵见表 3.1。
样本量为1000时四种模拟情境下的不同权重估计方法得到的AACC值的分布(1000次模拟的结果)
【学位授予单位】:中国人民解放军海军军医大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:R195.1;O213
本文编号:2707792
【图文】:
三、模拟研究(一)模拟实验设计本部分的模拟实验设计参考了 Setoguchi[36]、Lee[38]、Wyss[84]和 Romain[90]等拟框架,并在他们的基础上作了适当的改进以适应本文的研究目的。1、模拟数据的总体结构本研究模拟的是三种不同样本量(分别为 250、1000 和 2500)的观察性队 3.1 所示,该模拟队列数据包括一个连续性处理因素 A ,一个二分类结局变(Y ) ~ 0.10)和10个基线协变量iX ,i 1, , 10。在这10个基线协变量中,1X 杂因素,它们与处理因素和结局变量都相关,5 7X ~X 仅是处理因素的预测献中一般也称之为工具变量),8 10X ~X 仅是结局变量的预测变量(即结局立预测因子)。另外,设置1X 、3X 、5X 、6X 、8X 和9X 为二分类变量,,7X 和10X 为连续性变量。各个基线协变量之间的相关系数矩阵见表 3.1。
样本量为1000时四种模拟情境下的不同权重估计方法得到的AACC值的分布(1000次模拟的结果)
【学位授予单位】:中国人民解放军海军军医大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:R195.1;O213
【参考文献】
相关期刊论文 前1条
1 卢梓航;周立志;韩栋;周燕丰;陈征;;竞争风险型数据的统计处理及应用[J];现代预防医学;2013年05期
本文编号:2707792
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2707792.html