【摘要】:目的:生存分析中,Cox模型是分析生存数据的经典模型。随着高通量技术的飞速发展,实现了数以万计的基因位点测定,而样本量往往较小,如何高效地从繁多的基因位点中筛选出与所研究疾病相关的基因位点就显得尤为重要,传统的Cox模型并不适用于处理高维数据,并且高维数据中自变量间往往存在较强相关性。经典的Lasso法虽然可以实现高维数据的变量选择和系数估计,较好地处理Cox模型的变量选择问题,但是该方法采用的是对所有的变量施加相同的惩罚,使其得到的估计量往往是有偏的,并且该方法对于强相关变量的处理效果较差。本文为得到更加精确的稀疏化模型,将Adaptive Elastic Net(AEnet)引入Cox模型,并与Lasso、Adaptive Lasso(ALasso)、Elastic Net(Enet)三种变量选择方法比较优劣,从而得到更合乎实际的模型,为今后高维数据分析方法学研究奠定基础。方法:1数据模拟和实例数据分析均在R3.3.0软件中进行。研究过程中,主要利用“Matrix”、“MASS”、“survival”、“Coxnet”四个R包进行数据模拟和实例数据分析。本文算法采用的是一阶循环坐标下降算法,在实际基因表达数据中,与疾病相关的基因位点相对较少,即最终模型具有稀疏的系数结构,该算法尤其适用这种情况,运行速度极快,数据处理效率较高。2针对生存分析中基因表达数据高维度、强相关、数据存在删失的特性,生成模拟数据时,变量间的相关系数设定分别为0.3、0.6、0.9,删失比例设定分别为20%、50%、70%,生成9种方案的模拟数据,样本量为100,自变量个数为1000,每种方案前10个变量系数定义为5,即高信息变量,第11至20号变量系数定义为2,即低信息变量,其他变量的系数均定义为0,即零信息变量。每种方案重复模拟1000次,均采用四种变量选择方法进行变量筛选,比较各部分信息变量的选择结果。模型最优调整参数?的选择方法为五折交叉验证法。3实例数据来源于荷兰Van't Veer[12]等人对原发性乳腺癌病人进行的DNA微阵列数据分析研究。本文选取该研究中78例没有发生淋巴结转移的乳腺癌患者4751个基因位点进行分析。终点事件定义为乳腺癌患者是否发生远端转移,分别用四种变量选择方法对实例数据进行变量筛选,并估计最终模型中各自变量系数。模型最优调整参数?的选择方法为五折交叉验证法。结果:1经数据模拟过程,四种方法进行变量选择结果显示,在数据删失比例较低时(20%),第一部分自变量纳入最终模型的百分比接近百分之百,所有高信息自变量几乎完全纳入最终模型,第二部分自变量筛选百分比较高,经比较存在差别,ALasso法相对于Lasso法、AEnet法相对于EN法筛选变量百分比有所降低。随着删失比例的增加,第一部分、第二部分自变量纳入最终模型的百分比较低删失时逐渐下降,并且ALasso法相对于Lasso法、AEnet法相对于Enet法筛选变量百分比有所降低。比较四种方法最终纳入模型变量个数发现,弹性网惩罚得到的变量个数普遍高于仅施加Lasso惩罚,尤其是变量间相关性较强时,而且采用自适应Lasso惩罚得到的变量个数均低于仅施加Lasso惩罚。2实例数据分析结果显示,Lasso、ALasso、Enet、AEnet四种变量选择方法对实例数据进行分析,最终模型中变量数目分别为11、4、21、8,最优调整参数λ分别为0.207、0.250、0.344、0.500。ALasso方法筛选变量数目明显低于Lasso方法,并且两者筛选得到的相同变量系数比较,ALasso方法筛选得到的变量系数绝对值均小于Lasso法。AEnet方法筛选变量数目明显低于Enet方法,两者筛并且筛选得到的相同变量系数比较,AEnet方法筛选得到的变量系数绝对值均小于Enet法。结论:1 Enet法、Lasso法都能处理高维的生存分析数据,但Enet法能把强相关变量更多的纳入最终模型,Lasso法不具有该性质。2 AEnet法在处理高维度且变量间存在较强相关性的生存分析数据时,变量选择结果优于Lasso法、ALasso法、Enet法。
【学位授予单位】:河北医科大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R195.1
【参考文献】
相关期刊论文 前10条
1 王小燕;谢邦昌;马双鸽;方匡南;;高维数据下群组变量选择的惩罚方法综述[J];数理统计与管理;2015年06期
2 李春红;黄登香;戴洪帅;;Adaptive Elastic Net方法在Logistic回归模型中的应用(英文)[J];工程数学学报;2015年05期
3 张秀秀;王慧;田双双;乔楠;闫丽娜;王彤;;高维数据回归分析中基于LASSO的自变量选择[J];中国卫生统计;2013年06期
4 毕达天;邱长波;张晗;;数据降维技术研究现状及其进展[J];情报理论与实践;2013年02期
5 李锋;卢一强;李高荣;;部分线性模型的Adaptive LASSO变量选择[J];应用概率统计;2012年06期
6 杨梅;肖静;蔡辉;;多元分析中的多重共线性及其处理方法[J];中国卫生统计;2012年04期
7 李根;邹国华;张新雨;;高维模型选择方法综述[J];数理统计与管理;2012年04期
8 闫丽娜;覃婷;王彤;;LASSO方法在Cox回归模型中的应用[J];中国卫生统计;2012年01期
9 王大荣;张忠占;;线性回归模型中变量选择方法综述[J];数理统计与管理;2010年04期
10 ;Gene Expression Data Classification Using Consensus Independent Component Analysis[J];Genomics Proteomics & Bioinformatics;2008年02期
相关硕士学位论文 前2条
1 闫丽娜;惩罚COX模型和弹性网技术在高维数据生存分析中的应用[D];山西医科大学;2011年
2 何秀丽;多元线性模型与岭回归分析[D];华中科技大学;2005年
本文编号:
2737693
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2737693.html