当前位置:主页 > 医学论文 > 流行病论文 >

基于多水平模型的工具变量方法研究及应用

发布时间:2017-10-04 22:19

  本文关键词:基于多水平模型的工具变量方法研究及应用


  更多相关文章: 层次结构特征数据 多水平模型 工具变量 未知观测混杂因素


【摘要】:研究背景:随着医疗卫生信息化的不断发展,对分析方法的需求不断增加,并且“真实世界的研究”在目前越来越受到关注,随着数据集收集范围的不断扩大,数据来源常常包括不同的地区、不同的医院,如全市医院信息数据、全国卫生服务调查数据等。这些数据具有层次结构特征,对于这样的数据进行分析,首先需要考虑数据中不同水平单位对结果可能产生的影响,对于此类问题,多水平分析模型可以很好地进行处理。多水平模型将方差成分模型和多元回归模型相结合,把广义线性模型中的差异拆分为固定效应和随机效应两部分,从而更加准确地估计处理/暴露因素的效应值。在利用多水平模型对具有层次结构特征的数据进行分析时,不仅能够很好地控制不同的水平因素对结果所产生的影响,而且通过纳入多个已知观测的混杂因素,能较好地控制这些已知观测混杂因素对结果产生的影响。也有研究者将倾向性评分法(Propensity Score Analysis,PSA)引入多水平模型,采取倾向性评分匹配法、分层法和加权法对数据集中的已知观测混杂因素进行控制,从而更好地获得准确的结果。但是,目前大部分卫生服务方面的调查是关于人群健康方面的普查,当研究者利用这样的数据进行某专项疾病或健康方面的研究时,通常所需的变量并不能完全满足研究要求,研究结果通常会受到未知观测混杂因素的影响,如分析每周运动时间对自身健康状况的影响,数据中已包括了一些已知观测混杂因素(年龄、BMI、患病情况、吸烟、喝酒等),但对于本人的心情、家庭关系、病情轻重程度等因素调查数据中可能未包含或难以测量,这些因素同样可能会影响到分析结果的准确性,而目前这些常用于具有层次结构特征数据的分析方法并不能控制这方面的影响。在普通数据分析时,可以利用工具变量方法对未知观测混杂因素进行控制,在本研究中,我们将工具变量的思想引入多水平模型数据分析中,用以处理未知观测混杂因素所产生的影响。研究目的:目前,对于层次结构特征数据中未观测混杂偏倚的控制鲜有研究进行探索,本研究针对此问题,将构建出多水平工具变量模型(Multilevel Instrumental Variable,MIV),从而较为全面地控制层次结构特征数据中水平因素、已知观测混杂因素和未知观测混杂因素对结果所产生的偏倚,并且基于资料中数据类型的不同(连续性变量和分类变量),将构建出不同的多水平工具变量模型,以分别适用于连续型变量和分类变量资料分析中。本研究还将对所构建的模型进行准确性和精确性方面的评价,探索各种数据条件下所应当采用的最佳参数估计模型,在模型构建的基础上,笔者引入自助法(bootstrap),使模型估计得到的结果更加可靠。研究方法:研究首先进行数据模拟,数据的模拟过程主要根据数据类型的不同分为3部分,在数据模拟过程中将考虑到不同强度的未知观测混杂因素和不同强度的工具变量,从而较为全面对模型进行评价。(1)模型构建在处理/暴露因素和结局变量为连续型变量情况下,将构建出两阶段最小二乘多水平工具变量模型与两阶段残差纳入多水平工具变量模型;在处理/暴露因素和结局变量为连续型变量且均存在层次效应情况下,将构建出两阶段多水平回归工具变量模型和两阶段多水平回归残差纳入工具变量模型;在处理/暴露因素和结局变量为分类变量情况下,将构建出两阶段logistic回归多水平工具变量模型和线性回归+logistic回归多水平工具变量模型。在模型构建的过程中我们还引入了自助法(bootstrap),在本研究中自助法采用的是分层个例重复抽样法,根据原始样本量的大小进行等样本重复抽样,每次抽500次,然后用所构建的模型对500个复样本进行分析。(2)模型评价模型评价部分将所构建的多水平工具变量模型和普通多水平回归模型所得的结果用四个指标进行客观科学的评价,分别为绝对偏倚、置信区间宽度、标准误、置信区间覆盖率。根据这四个指标可以反映模型在不同数据情况下的准确性和精确性,为后续模型的调整和应用提供了科学根据。(3)实例分析最后将构建的多水平工具变量模型应用于实例分析中。实例分析数据来源于第五次全国卫生服务调查数据(上海)。针对结局变量和处理/暴露因素为连续型变量,本研究所选的实例为分析上海60岁以上老人每周体育锻炼时间对其健康状况的影响,男性和女性分别进行分析,其中可能存在的未知观测混杂包括本人的心情、家庭关系、病情轻重程度等,结局变量采用欧洲五维健康量表(europeanqualityoflife5-dimensions,eq-5d)评分,工具变量选择为其爱人每周运动的次数。针对结局变量和处理/暴露因素为分类变量,本研究所选的实例为分析上海市60以上岁男性是否吸烟对其是否患有高血压的影响,其中可能存在的未知混杂包括基因特征、周围环境因素等,工具变量选择为其家人是否吸烟。实例分析中应用普通多水平模型和模拟中所获得的最优多水平工具变量模型进行分析,并对不同方法所获得的结果进行比较。研究结果:数据模拟的结果显示,研究发现在资料中存在未知观测混杂因素时,所构建的多水平工具变量模型有较好的效果,具体如下:(1)处理/暴露因素和结局变量为连续型变量当不存在未知观测混杂因素时,所有模型均能获得较为理想的结果,但当研究中存在未知观测混杂因素时,普通多水平线性回归模型和自助法多水平线性回归模型会获得偏倚较大的结果,偏差最大的出现在β=6、=1时的普通多水平线性回归模型中,其绝对误差为-2.8219,但多水平工具变量的结果较为稳定,当β=6、=5时两阶段最小二乘多水平工具变量模型、两阶段残差纳入多水平工具变量模型、自助法两阶段最小二乘多水平工具变量模型和自助法两阶段残差纳入多水平工具变量模型结果的绝对偏倚分别为-0.0004、-0.0009、0.0012和0.0006。在四种多水平工具变量模型中,自助法引入的模型结果的置信区间较宽,提示结果更为保守,当工具变量的强度增加时,其区间会相应的变窄。(2)处理/暴露因素和结局变量为连续型变量且均存在层次效应普通多水平线性回归模型仅适用于无未知观测混杂因素的数据中,该模型在数据中存在未知观测混杂因素时所得的结果偏离金标准较大。虽然两阶段自助法两阶段最小二乘多水平工具变量模型可以基本准确估计得出处理/暴露因素的效应值,但其置信区间过宽。两阶段多水平回归工具变量模型、两阶段多水平回归残差纳入工具变量模型、自助法两阶段多水平回归工具变量模型和自助法两阶段多水平回归残差纳入工具变量模型在不同的数据情况下均能得到理想的结果,其中自助法两阶段多水平回归工具变量模型的准确度和精确度总体最佳,当β=6、=5时该模型的绝对偏倚仅为0.0009。(3)处理/暴露因素和结局变量为分类变量结果展示当数据中无未知观测混杂因素存在的情况下普通多水平logistic回归模型所获得结果最佳,但当混杂因素存在时,普通多水平logistic回归模型所得的结果将偏离金标准较远,并且置信区间覆盖率较低,自助法两阶段logistic回归多水平工具变量模型和自助法线性回归+logistic回归多水平工具变量模型两种模型在有未知观测混杂因素数据情况下表现较好,点估计最接近所设的金标准,但此两个模型的置信区间受到工具变量强度影响较大,在弱工具变量时,模型估计的结果过于保守,区间过宽,两阶段logistic回归多水平工具变量模型和线性回归+logistic回归多水平工具变量模型两种模型在各种数据情况下均未表现出很好的效果。实例分析的结果显示,在分析每周运动时间同自身健康状况间的关系时,普通多水平回归模型和多水平工具变量模型均提示在60岁以上人群中,男性和女性每周运动时间同健康评分间存在正相关关系,但在男性中普通多水平回归模型所得回归系数为0.42(0.41-0.43),多水平工具变量模型所得回归系数为0.70(0.53-0.86),两者相差约0.3,女性中,普通多水平回归模型所得回归系数为0.49(0.48-0.50),多水平模型所得结果为0.37(0.21-0.53),两者相差约0.1。说明在该实例中,两者都能较好地识别出感兴趣的影响因素与应变量之间的关系,但对关系大小的衡量存在差别。在分析60岁以上男性吸烟和患高血压间关系时,普通多水平logistic回归提示吸烟为保护因素,OR值为0.74(0.65-0.83),此与目前所公认的结论相违背,但多水平工具变量模型提示吸烟是患高血压的危险因素,OR值为5.05(1.40-18.26)。此项研究中仅纳入五项协变量,很多高血压的危险因素在卫生服务调查中未收集,如家族史、血液生化指标等,普通分析方法无法控制这些未知观测混杂因素对结果产生的影响,从而得到了错误的结论,当利用多水平工具变量模型对这些因素进行控制后,所得结果将更为可靠。研究结论:本研究通过模拟研究和实例分析发现多水平工具变量模型均能很好地获得较为准确的结果。当研究资料收集较全,均不存在十分重要的未知观测混杂因素时,普通的分析模型即可获得较好的结果。当资料并非为专项研究调查,层次结构特征数据中遗漏了较多或一些较为重要的影响因素时,普通分析模型将不再适用,可以采用本研究所构建的多水平工具变量模型。当针对连续性变量数据时,首先需要看数据中处理/暴露因素在水平2单位上是否存在异质性,当处理/暴露因素存在层级效应时,建议采用自助法两阶段多水平回归工具变量模型;当针对分类数据时,建议采用自助法两阶段logistic回归多水平工具变量模型和自助法线性回归+logistic回归多水平工具变量模型两种模型。分析过程中可以采用多个工具变量模型进行分析,当结果一致时,可以更加肯定研究的结论。在模型使用过程中,应当尽可能地寻找强度较高的工具变量,从而可以获得更为准确的结果。
【关键词】:层次结构特征数据 多水平模型 工具变量 未知观测混杂因素
【学位授予单位】:第二军医大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:R181
【目录】:
  • 摘要6-10
  • Abstract10-15
  • 缩略词表15-17
  • 第一部分 概述17-33
  • 一、研究背景17-23
  • 二、研究目的与意义23-24
  • 三、研究内容24-30
  • 四、研究步骤30-31
  • 五、资料来源、分析工具及研究平台31-33
  • 第二部分 多水平工具变量模型在模拟数据中的拟合和验证33-63
  • 一、处理/暴露因素和结局变量为连续型变量34-43
  • 二、处理/暴露因素和结局变量为连续型变量(均存在层级效应)43-51
  • 三、处理/暴露因素和结局变量为分类变量51-59
  • 四、讨论59-63
  • 第三部分 实例应用63-75
  • 一、概况63-64
  • 二、应用实例一:60岁以上老人每周运动时间和身体健康状况的关系64-68
  • 三、应用实例二:60岁以上男性吸烟对其患高血压的影响68-73
  • 四、讨论73-75
  • 第四部分 研究结论与展望75-78
  • 一、研究结论75-76
  • 二、研究特色和创新点76
  • 三、尚待开展的研究76-78
  • 附录:核心程序78-92
  • 文献综述92-105
  • 参考文献102-105
  • 参考文献105-110
  • 在读期间发表论文和参加科研工作110-113
  • 致谢113


本文编号:973191

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/liuxingb/973191.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4cbdb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com