双稳健逆概率加权方法的建立及其在临床试验数据缺失中的应用

发布时间：2017-09-15 04:23

本文关键词：双稳健逆概率加权方法的建立及其在临床试验数据缺失中的应用

【摘要】：一、研究背景和研究目的随机对照试验被认为是当前评价试验产品是否具有治疗效果的研究设计金标准。然而在随机对照试验中,各种原因导致的数据缺失有其自身特点,但仍然十分普遍。由于数据缺失,导致结果产生偏倚。这势必会影响到数据的意向性分析,以及进一步威胁到研究结论的有效性。数据缺失处理方法的研究由来已久,迄今为止主要包括完整病例分析、填补法、基于似然的分析方法和逆概率加权法等。这些方法的应用都受制于数据缺失的机制,数据呈随机缺失的假设较易满足。当数据呈随机缺失时,除非缺失不影响结果,否则不建议直接采用完整病例法分析;而多重填补法和极大似然估计方法都有其各自的特点和局限性。例如,多重填补时,分析模型不能含有填补模型之外的变量、非线性项和交互项,因此,该兼容性要求对结局分析模型的构建有一定的限制,而且两模型容易产生冲突。此外多重填补牵涉随机抽样,决策考虑要点也较多,结果不确定不唯一。应用极大似然估计法时,其依赖于参数假设,如数据呈正态性;需合理构建似然函数;缺失比例不宜过大;当采用贝叶斯后验推断时,结果依赖于先验信息等。逆概率加权法增加完整病例的权重,分析直观;但是单纯性逆概率加权不能利用部分缺失病例的信息,并且权重采用Logistic回归获得受制于回归模型且有时过大。因此,本研究基于随机缺失数据,对单纯性逆概率加权方法加以改进,一方面改进结局分析模型,改进后能同时利用完整病例和部分缺失病例的信息;另一方面,采用随机森林非参数的方法优化未缺失概率的估计,且尽量避免权重过大。此外,对缺失数据进行敏感性分析应用新方法,其不需要额外满足统计假设,且从临床角度看,结果也容易解释。二、研究方法首先,理论上合理构建双稳健逆概率加权方法。一方面我们在单纯性逆概率加权方法的算式中,增加期望值为0的项,而该项可以加入部分缺失病例的信息。另一方面,未缺失概率模型中倾向性评分的估计还采用随机森林非参数的方法加以比较。其次,我们利用模拟数据建立双稳健逆概率加权方法并采用SAS和R语言加以实现,同时与其它方法进行模拟数据处理效果的比较。模拟数据时从随机对照试验数据缺失的特点出发,预设研究主要终点呈单调性缺失,其缺失机制呈随机缺失,即采用Logit模型基于每个受试者的基线协变量和研究中辅助变量的信息对其主要终点是否缺失进行模拟。研究中主要终点的模拟在其呈正态分布的基础上,还增加了另外三种情景,即结局分析模型有随机中心效应、主要终点呈非正态分布、未缺失概率模型错误结局分析模型正确。这四种情景中,我们均考虑了4种大小的样本量(N=120;240;600;1,000),每种样本量下又进一步设计了不同的研究总缺失比例(10%;20%;30%)。统计分析时,首先对Logit建模和随机森林法的倾向性评分进行比较;然后再对单纯性逆概率加权、双稳健逆概率加权与多重填补法等进行分析方法比较。评价指标包括疗效组间差异的绝对误差均值、95%可信区间覆盖率和组间差异的误差均方。最后,还进一步在一个非劣效设计的糖尿病随机对照试验中进行应用比较。对Logit建模和随机森林法进行了倾向性评分的比较,还比较了这几种缺失处理方法的表现。为了支持研究结论的稳健性,采用反转点方法,分缺失填补数据的标准差等于零、等于组内观测值的标准差、填补后整组的标准差等于观测值的标准差三种情况,对主要分析结果进行敏感性分析。三、结果基于II型糖尿病的初步临床规律,设立未缺失概率模型和结局分析模型的函数关系。各种模拟情形中,通过调整未缺失概率模型函数的系数,均达到了预期的研究总缺失比例。模拟数据倾向性评分不论是试验组或对照组、不同的预设缺失比例或不同的研究样本量时,均是随机森林的倾向性评分值变异度小,并且极端小的倾向性评分值少,平均值或中位数均稍微较大。此外,不同研究样本量之间,两种算法内部各自的倾向性评分估计值十分接近。在相同缺失比例的试验组或者对照组内,随着研究样本量的增加,随机森林算法的倾向性评分值几乎都逐渐增加向1接近;而Logit回归模型算法的倾向性评分值在四种情景中的趋势并不完全一致,有时增加有时降低。模拟数据疗效差异的绝对误差均值和误差均方由于偶然性,模拟中无缺失数据仍然有一定的误差,但误差均是最小的。不论采用何种缺失处理方式,样本量越大绝对误差均值越小;缺失比例越大绝对误差均值越大。四种情景中,均是双稳健逆概率加权法优于单纯性逆概率加权法。除结局变量呈非正态分布的情景外,随机森林倾向性评分加权法往往表现最优。Logit模型倾向性评分加权法的表现往往较差。另外,同步采用误差均方进行评价时,各种方法表现出来的规律与采用绝对误差均值发现的规律类似。模拟数据疗效差异的95%可信区间覆盖率可信区间覆盖率的规律性不如绝对误差均值指标的明显,并未出现双稳健逆概率加权法一致优于单纯性逆概率加权法,也未出现随机森林算法一致优于Logit模型。但多重填补法具有良好的覆盖率。实际应用数据分析不论试验组、对照组还是两组合计,随机森林算法的倾向性评分的平均水平(平均值和中位数)均较高,但倾向性评分的标准差并不总是随机森林算法的小。从疗效的组间差值看,多重填补法的结果最大,其最小二乘均数及95%可信区间为0.069(-0.148,0.286);Logit的单纯性逆概率加权法的结果最小,其最小二乘均数及95%可信区间为0.014(-0.207,0.235);其余处理方法的结果十分接近。总体而言,不论采用哪一种处理方法,研究的非劣效结论均成立。反转点分析结果表明,从临床角度看,非劣效结论在三种情况下均成立是可信的。四、结论在模拟随机对照临床试验数据中,当主要终点呈单调性缺失且属于随机缺失时,采用双稳健逆概率加权法,尤其随机森林双稳健逆概率加权法处理具有良好的表现,优于单纯性逆概率加权法,且除主要终点呈非正态分布情况下甚至优于广受欢迎的多重填补法,值得考虑应用。在实际应用中,随机森林结合逆概率加权的方法以及Logit双稳健逆概率加权法,均获得了稳健的分析结果。反转点分析作为一种敏感性分析方法,不要求额外统计假设,临床上亦易于解释。总之,本研究建立了随机森林结合双稳健逆概率加权法处理缺失的方法,尽量避免了过大的权重,同时利用了部分缺失病例的信息,为随机对照临床试验主要终点呈单调性随机缺失时的分析提供了一种值得考虑的处理方法。
【关键词】：双稳健 逆概率加权 临床试验 数据缺失 随机森林 倾向性评分
【学位授予单位】：第二军医大学
【学位级别】：博士
【学位授予年份】：2015
【分类号】：R969.4
【目录】：

摘要9-12
Abstract12-16
缩略词表16-18
第一部分概述18-29
一、研究背景18-20
二、研究现状20-24
(一)常见缺失数据统计方法20-22
(二)逆概率加权法22-23
(三)利用倾向性评分校正缺失原因23-24
(四)敏感性分析24
三、研究目的与意义24-25
(一)研究目的24
(二)研究意义24-25
四、研究内容、研究方法及技术路线图25-28
(一)研究内容25-27
(二)研究方法27
(三)技术路线图27-28
五、资料来源及研究平台28-29
第二部分理论方法研究及模型构建29-44
一、RCT试验若干统计考虑要点29-31
(一)随机对照试验的基石29-30
(二)数据缺失威胁RCT有效性30-31
(三)随机模型31
二、多重填补31-33
三、倾向性评分33-37
(一)Logit模型33-34
(二)随机森林34-37
四、逆概率加权37-41
(一)单纯性逆概率加权37-38
(二)双稳健逆概率加权38-41
五、反转点分析41-44
第三部分模拟研究情况44-71
一、模拟研究的设计44-47
(一)Monte-Carlo数据模拟总体考虑44-46
(二)有缺失时参数估计评价指标46-47
二、各种模拟研究及其结果47-69
情景 1、两模型构建均正确且组间疗效有差异时47-53
情景 2、两模型构建均正确且考虑随机中心效应时53-58
情景 3、两模型构建均正确且结局变量呈非正态分布时58-63
情景 4、未缺失概率模型构建错误结局分析模型构建正确时63-69
三、讨论及结论69-71
第四部分实例研究71-78
一、研究简介71
二、分析结果71-72
三、反转点分析72-78
第五部分研究总结78-80
一、研究局限性78
二、研究创新性78
三、研究总体结论78-80
附录一两种算法倾向性评分的比较80-109
附录二计算机化实现所用程序109-143
一、情景1和情景4中数据模拟程序109-114
二、情景2中数据模拟程序114-118
三、情景3中数据模拟程序118-123
四、随机森林外四种分析方法程序123-133
五、随机森林分析方法程序133-140
六、反转点分析程序140-143
参考文献143-148
在读期间发表论文和参加科研工作148-149
致谢149

【相似文献】

中国期刊全文数据库前1条

1 ;统计概率值[J];护理管理杂志;2009年06期

中国重要会议论文全文数据库前1条

1 王杰;梁华国;李华伟;闵应骅;李晓维;;基于输出违例概率的时延向量测试质量评估[A];第六届中国测试学术会议论文集[C];2010年

中国重要报纸全文数据库前2条

1 柯果;概率断案有玄机[N];民主与法制时报;2012年

2 李中彩;为什么不选择这样的号码[N];重庆商报;2000年

中国博士学位论文全文数据库前2条

1 钟细华;双稳健逆概率加权方法的建立及其在临床试验数据缺失中的应用[D];第二军医大学;2015年

2 余磊;基于认知科学的计算机围棋博弈问题的研究[D];华东师范大学;2011年

中国硕士学位论文全文数据库前9条

1 吴惠红;中学生对概率值的理解[D];华东师范大学;2004年

2 左红江;基于样本定邻域概率的贝叶斯分类器[D];河北大学;2013年

3 张进东;基于区域的非确定性RFID事件概率计算方法研究[D];辽宁大学;2013年

4 李亚文;概率XML文档中Holistic Twig查询处理算法的研究与实现[D];东北大学;2009年

5 刘潘;概率XML文档中Twig查询处理算法的研究与实现[D];东北大学;2010年

6 夏嘉斌;基于概率推断的动态切片裁剪方法[D];上海交通大学;2013年

7 张刘辉;基于概率XML数据的关键字查询处理方法研究[D];燕山大学;2014年

8 周芳芳;新课程背景下高中生对概率基本概念理解的研究[D];东北师范大学;2012年

9 周小平;概率XML文档Top-κ关键字检索算法研究[D];大连海事大学;2012年

，

本文编号：854294

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/yxlbs/854294.html

上一篇：HLA-G基因修饰及磁靶向趋化BM-MSCs诱导肾移植免疫耐受的研究
下一篇：齐墩果酸通过胆汁酸受体TGR5减肥作用的分子机制研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|