当前位置:主页 > 医学论文 > 医卫管理论文 >

基于LASSO的FDR控制方法及其在高维数据生存分析中的应用

发布时间:2020-09-27 16:09
   目的:本研究针对传统的LASSO调整参数选择方法中错误发现率(False Discovery Rate,FDR)过高的问题,介绍三种控制FDR的调整参数选择方法的基本原理,并基于LASSO-Cox 模型探索 CV 法(Cross Validation)、pcvl 法(penalized cross-validated log-likelihood)、EBIC 准则(Extended Bayesian Information Criterion)、平稳选择法(Stability Selection)四种方法在变量选择方面的性能。方法:本研究基于LASSO-Cox模型对LASSO调整参数的选择方法进行系统地介绍。模拟研究生存数据的不同删失比例、自变量间不同相关程度以及自变量的不同稀疏水平对各方法的影响。模拟设置样本量n=(100,120,140,160,180,200),自变量个数p=1000,自变量间相关为区组相关,相关结构为corr(x_i,x_j)=ρ~(|i-j|),i≠j:方案一是|ρ|=(0,0.3,0.5,0.8),L=(2,3,4,5),回归系数为β_1*=3、β_(51)*=-1.5、β_(101)*=2、β_(151)*=-3、β201*=1.5、β251*=-2、其余回归系数值为0;方案二是|ρ| =(0,0.3,0.5,0.8),L=3,真实非零自变量个数为q=(4,6,8,10),非零回归系数值分别取2与-2。利用R软件模拟数据并进行分析,从FDR和PSR(Positive Select Rate)两方面进行评价。实例研究利用高通量基因表达量数据库(Gene Expression Omnibus,GEO)上下载的420例DLBCL(Diffuse Large B-cell Lymphoma)患者的生存数据及54675个基因进行基因与预后间的关联分析,对数据进行整理后用于最终分析的样本例数和基因数分别为412 和 4947。结果:模拟结果显示:在样本量、删失比例、相关系数、稀疏水平均一定的情况下,各方法的FDR从低到高依次为:平稳选择法≤EBICγ1准则EBICγ2准则pcvl法CV法;PSR从高到低依次为:CV法≥pcvl法≥平稳选择法≥EBICγ2准则≥EBICγ1准则。随着删失比例的降低,各方法的FDR均基本保持不变,PSR均升高。随着相关程度的增加,平稳选择法、pcvl法和CV法的FDR基本不变,EBIC准则的FDR略升高。随着稀疏水平的降低,平稳选择法的FDR基本保持不变,pcvl法的FDR略微升高,EBIC准则的结果则波动较大;当样本量较大时随着稀疏水平的降低CV法、pcvl法和平稳选择法的PSR保持不变。实例结果显示:EBIC准则只选出1个基因,平稳选择法选出的13个基因中与CV法相同的基因有12个,与pcvl法相同的基因有10个;pcvl法选出的28个基因中与CV法相同有26个,与EBIC准则相同的基因有1个。结论:在基于LASSO方法的高维数据生存分析中,当删失比例、自变量间相关程度和自变量稀疏水平均一定时平稳选择法控制错误发现率的能力优于其他方法并且其变量选择效能也较高。当删失比例、自变量间相关程度和自变量稀疏水平各自发生变化时平稳选择法是四种方法中表现最稳定的方法。EBIC准则在自变量间相关程度低、自变量较稀疏的情况下表现较好,当样本量较小时结果比较保守。pcvl法虽然不容易漏掉有效应的自变量,但其错误发现率仍较高。
【学位单位】:山西医科大学
【学位级别】:硕士
【学位年份】:2017
【中图分类】:R195.1
【部分图文】:

信息准则,类方法


cpcvl )也随之减大值时对从适当增 FDR 的 cvl pcvl 减少,pcvl对应的 为增加 值以的理想水平以山西 0 cvl l ( )随之先模型最终的减少 LASS以实现精确医科大学硕士 0, 在 先增加后减小的调整参数SO 筛选出的确的 FDR 的学位论文 0 ;cvl 范小然后增加数,此时的q的变量数的的控制。围内增加时加至0pcvl ( 与 cvlq 相的角度控制时,q 逐渐) 。选择使比减少了许FDR,无法渐许法

【参考文献】

相关期刊论文 前3条

1 王彤;易东;;临床试验中多重性问题的统计学考虑[J];中国卫生统计;2012年03期

2 刘晋;张涛;李康;;多重假设检验中FDR的控制与估计方法[J];中国卫生统计;2012年02期

3 闫丽娜;覃婷;王彤;;LASSO方法在Cox回归模型中的应用[J];中国卫生统计;2012年01期

相关博士学位论文 前1条

1 勾建伟;惩罚回归方法的研究及其在后全基因关联研究中的应用[D];南京医科大学;2014年

相关硕士学位论文 前5条

1 赵俊琴;基于Lasso的高维数据线性回归模型统计推断方法比较[D];山西医科大学;2015年

2 刘莉;两两多重比较的FDR控制[D];上海交通大学;2015年

3 王慧;生存分析中半参数模型的变量选择方法及其模拟研究[D];山西医科大学;2013年

4 张秀秀;基于(I)SIS的变量选择方法及其在极高维数据生存分析中的应用[D];山西医科大学;2013年

5 满敬銮;生存数据模型的变量选择[D];中南大学;2009年



本文编号:2828091

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2828091.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8aac6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com