一种新的风险等级预测的模型改善评价方法
本文关键词:一种新的风险等级预测的模型改善评价方法,,由笔耕文化传播整理发布。
【摘要】:背景:应用统计模型诊断疾病或预测预后在医学领域,特别是在临床医学中有广泛应用。如何获得最优模型或相对最优模型是统计建模的最终目的。在原模型的基础上加入新的协变量形成新模型,或选择与原模型不同的协变量形成新模型,然后将新模型与原模型进行比较,评价新模型的改善效果,如果效果显著,则替代原模型,并在此基础上重复上述过程,直到获得最优或相对最优模型为止,这是统计建模常用的也是有效的策略。例如,新发现的生物标志物是否具有临床意义(诊断价值或预测价值),往往通过将该标志物加入到已有的统计模型中进行验证,考核其是否有助于显著提高模型的诊断或预测能力。等级风险预测模型是统计模型其中的一种,多用于疾病的发生风险预测或疾病的预后判断,例如用于预测10年内发生心血管疾病的模型(Framingham model),用于预测发生2型糖尿病的模型(QDScore model),以及用于预测乳腺癌的模型(Gail model)等。因此,如何评价和度量新模型较原模型的预测效果是否有显著改善是等级风险预测模型构建的一个关键环节。评价及比较模型预测效果应用最多的指标是受试者诊断/预测特征曲线下面积(area under the receiver operating characteristic curve, AUC),又称C指数(Cindex)或C统计量(C-statistic)。然而,AUC的敏感性有时并不理想,特别是在原模型AUC较高的情形下,其提升空间有限,即使新加协变量与结局变量的关联非常强。近年来,其它评价新模型预测效果改善的方法相继提出,其中运用最多的是Pencina (2008)提出的净重分类指数(net reclassification index or improvement, NRI)和整体判别改善指数(integrated discrimination improvement, IDI),但这两个指标的统计性质也争议颇多。Greenland(2008)指出,类似于AUC, IDI也是一个全局评价指标,实际应用中并不能提供更详细的信息。Pencina (2008)提出IDI时,假定截断值在(0,1)上均匀取值,但这并不符合所有的实际情况,例如癌症筛查要求特异度高于0.8甚至0.9。另外,Kerr(2011)指出,对IDI的检验与对新变量加入模型后所对应回归系数的检验本质上是一致的。NRI的主要缺陷是对结果的解释不够直观,而且反映的信息不完整。NRI基于风险分级,评价新模型和原模型下个体风险等级的变动情况,从而评价新模型对风险重分类的影响。Kerr(2014)指出,NRI虽然由四个率构成,但NRI本身并不是一个率,其取值可以超过1,也可以小于0,从而造成结果难以解释。此外,在构造NRI时,只考虑风险等级是否改变,并没有考虑风险等级的级数改变多少,由此可能导致重要信息的损失。在临床实践中,基于风险分级的NRI比IDI及AUC更有实际指导意义,而NRI又存在应用上的缺陷,故本研究提出如下研究目的。目的:本研究旨在构建一种新的统计方法,用以评价和度量等级风险预测模型的改善效果,以期为统计模型的评价及比较提供新的手段。方法:本研究基于风险分级,同时考虑新模型和原模型风险等级的变动方向和级数,提出评价不同模型预测效果的新方法,应用统计模拟比较新方法与现有方法的统计性能,最后经实例验证。(1)新指标的构造本研究定义新指标—平均重分类改善(average reclassification improvement, ARI),即个体在新模型下相对于原模型,其风险等级的平均改善,用统计学语言可表示为:其中,K为所有风险等级可能变动的组合数,K=2H-1,H为风险等级数,如当有3个风险等级时,K为5,即有5种可能的风险等级变动组合。记vi(i=1,2,...,K)为风险等级变动组合,最大变动范围为-(H-1)~+(H-1),其相应的概率向量P=(P1,P2,...,PK)。假定阳性及阴性结局相互独立,定义新模型相对原模型的ARI为其期望估计为其方差估计var ARI由var ARIevent和var ARInonevent分别估计,基于多项分布假定阳性及阴性结局相互独立,在原假设H0:ARI=0成立的条件下,可构造如下检验统计量:在大样本情形下,检验统计量近似服从正态分布。(2)模拟研究具体参数设置为:样本量(n):500,1000,3000;阳性事件率(PD):0.05,0.10,0.30;X的效应(ORX):ORx=1.5,2,3,4,5,6,7,8,9;M的效应(ORM):ORM=1, 1.25,1.5,1.75,2,2.5,3,4,6,8;其中,X为现有强预测因子或常用预测因子的线性组合(linear combination of predictors), M是具有潜在预测价值的新协变量。X及M分别从标准正态分布N(0,1)中随机产生。基于logistic回归模型进行模拟研究。各参数情形下均模拟5000次。风险分级:本研究考虑两种情形,四分类情形下风险等级设置为5%、5%到10%、10%到20%以及≥20%;在三分类情形下风险等级设置为5%、5%到20%以及≥20%。结果:ARI的统计性质:从标准差估计及I类错误评价。1)标准差估计:当阳性事件率PD=0.05及PD=0.1时,ARI标准差的估计比较准确;当PD=0.3时,ARI标准差的估计略微偏小。2)Ⅰ类错误:风险等级为四级时,当PD=0.05时,ARI检验统计量的正态分布性质不够理想;当PD=0.1及PD=0.3时,其正态近似都较好。在相对极端的参数情形下(如PD=0.05, n=500), ARI的I类错误在0.0171~0.0380范围内,小于设定的检验水准0.05;在其它情形下,ARI的Ⅰ类错误在0.0329~0.0621范围内,除少数情形控制不佳外,其余基本在模拟允许的误差范围内,说明Ⅰ类错误控制较好。风险等级为三级时与四分类的结果相似。ARI与其它方法的比较:主要与常用评价方法NRI和AUC进行比较。1)与NRI的比较:I类错误:多数情形下,两种方法的Ⅰ类错误均控制较好,基本在模拟允许的误差范围内。在相对极端的参数情形下(如PD=0.05,n=500),NRI的Ⅰ类错误率在0.0269~0.0558范围,ARI的Ⅰ类错误率在0.0259~0.0558范围,两种方法均偏保守。检验效能:当PD=0.05及PD=0.1时,NRI及ARI的检验效能基本一致;当PD=0.3时,ARI的检验效能较NRI提高0.2%~1.6%,平均提高0.5%。2)与AUC的比较:Ⅰ类错误:配对样本AUC检验的DeLong法偏保守。检验效能:当PD=0.05及PD=0.1时,ARI与DeLong法的检验效能基本一致,有些参数情形下后者更高些(如n=1000,PD=0.1); PD=0.3时,ARI的检验效能比DeLong法平均提高为5.7%。实例分析:实例为探究尿血管紧张素原(uAGT)、尿白蛋白肌酐比(UACR)能否提高对急性复合性心脏衰竭病人发生AKI的预测效果。AUC的比较:不含uAGT的原模型M0(含年龄、性别、慢性病肾脏病、血清白蛋白、N端前脑钠肽和中性粒细胞明胶酶相关脂质运载蛋白),其AUC为0.814;含有uAGT的新模型M1 (M0+uAGT),其AUC为0.874,两者之差为0.06,差异有统计学意义(DeLong检验,P0.001):含有UACR的新模型M2 (M1+UACR),其AUC为0.874,与M1相比,无统计学差异(DeLong检验,P=1.000)。风险等级改善:考虑分四个风险等级的情形,M1 V.S. M0:有NRI=0.302 (P0.001), ARI=0.423 (P0.001),对ARI的解释为将uAGT加入原有模型后,所有病例的平均风险改善等级为0.423,而NRI无直观解释;M2 V.S. M1:其ARI= 0.0 (P=0.997), NRI=0.0(P=0.997)。UACR不能提高模型的预测效果。从实例中可以看出,uAGT能改善风险分级,而UACR不能,故M1为相对最优模型。结论:本研究针对风险等级预测模型,提出评价模型预测效果改善的新指标—ARI,其Ⅰ类错误整体上控制较好,检验效能与现有指标(如NRI、AUC)相比略有提高。从目前研究来看,ARI用于评价风险等级预测的模型改善效果具有较好的统计性能,而且意义直观,便于应用。
【关键词】:预测模型 风险分级 重分类 NRI ARI
【学位授予单位】:南方医科大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:R181.2
【目录】:
- 摘要3-9
- ABSTRACT9-17
- 第一章 前言17-19
- 第二章 模型预测效果的评价19-38
- 2.1 模型预测效果评价的传统指标20-25
- 2.1.1 区分度(discrimination)20-22
- 2.1.2 校正度(calibration)22-25
- 2.2 风险等级模型预测效果的评价方法25-35
- 2.3 各评价指标的研究现状35-37
- 2.4 研究目的37-38
- 第三章 基于风险分级的新评价方法38-89
- 3.1 新评价指标的构造38-39
- 3.2 ARI的估计与统计推断39-43
- 3.3 模拟研究43-85
- 3.3.1 参数设置43-44
- 3.3.2 模拟结果44-85
- 3.4 实例分析85-89
- 第四章 讨论及结论89-93
- 4.1 讨论89-91
- 4.2 结论91
- 4.3 缺点与不足91-92
- 4.4 后期展望92-93
- 参考文献93-98
- 攻读学位期间成果98-99
- 致谢99-100
【相似文献】
中国重要会议论文全文数据库 前3条
1 陈林;周宗放;;基于Fisher判别法的信用风险等级判别[A];中国灾害防御协会——风险分析专业委员会第一届年会论文集[C];2004年
2 王双成;邵军;杜瑞杰;;企业风险等级预测的集成聚类方法研究[A];第十二届中国管理科学学术年会论文集[C];2010年
3 方洪全;曾勇;何佳;;序次PROBIT模型在银行债项等级预测中的应用研究[A];中国运筹学会第七届学术交流会论文集(中卷)[C];2004年
中国重要报纸全文数据库 前10条
1 记者 王瑾;上海拟推积涝风险等级预报[N];中国气象报;2011年
2 记者 王瑾;上海 积涝风险等级预报今夏发布[N];中国气象报;2012年
3 李剑利 路振朝 周远;晒权力 亮风险 定责任 促防范[N];河北日报;2013年
4 记者 侯杰;硫酸企业划分环境风险等级将有依据[N];中国化工报;2010年
5 记者 马洁 通讯员 郑昊;评定风险等级 加强源头治理[N];天津政法报;2010年
6 本报记者 侯捷宁;防范基金客户洗钱 划分风险等级采取相应措施[N];证券日报;2009年
7 中国邮政储蓄银行广东省珠海分行 吴华琼;反洗钱客户风险等级划分存在的问题和对策[N];中国邮政报;2009年
8 邵峰 翟乃山 单峰;将风险等级判定纳入区域监管体系[N];中国质量报;2010年
9 证券时报记者 于扬;基金公司反洗钱客户风险等级标准划定[N];证券时报;2009年
10 特约记者 邵小青 通讯员 王敦岚 李明先;江苏省局根据产品风险等级分期培训药企[N];中国医药报;2011年
中国博士学位论文全文数据库 前1条
1 曹鑫;油港储运综合安全评价和预警应急系统研究[D];武汉理工大学;2010年
中国硕士学位论文全文数据库 前2条
1 周立志;一种新的风险等级预测的模型改善评价方法[D];南方医科大学;2015年
2 陈平;不同风险等级下农作物GRP保险费率厘定研究[D];华中农业大学;2011年
本文关键词:一种新的风险等级预测的模型改善评价方法,由笔耕文化传播整理发布。
本文编号:267494
本文链接:https://www.wllwen.com/yixuelunwen/yufangyixuelunwen/267494.html