区间删失数据下两类回归模型的贝叶斯自适应Lasso变量选择
发布时间:2020-04-01 23:42
【摘要】:在生存分析研究中,普遍存在着高维数据。高维数据下的变量选择是生存分析中主要的研究问题之一。一般这种变量选择是在回归模型的框架下实现的。本文的主要研究内容为区间删失数据下两类回归模型的贝叶斯自适应Lasso变量选择研究,通过贝叶斯自适应Lasso变量选择方法进行Cox模型和AFT模型的变量选择和回归系数估计。第一部分主要研究区间I型删失数据下基于贝叶斯自适应Lasso方法的半参数Cox比例风险回归模型的变量选择,解决未知的基准风险函数是构建Cox比例风险模型的关键;本文将选取三次样条来逼近基准风险函数,然后通过分层贝叶斯结构来构建Cox比例风险模型下贝叶斯自适应Lasso,对待估参数寻找合适的先验分布(如正态分布、指数分布、伽马分布等),通过后验推断得到Cox比例风险模型下的BaLasso变量选择的后验分布。最后,通过MH与Gibbs相结合的MCMC抽样算法求解待估参数并进行变量选择。通过多种情况下的模拟,验证了模型方法的有效性。第二部分主要研究区间I型删失数据下基于贝叶斯自适应Lasso方法的AFT模型的变量选择,通过对AFT模型中残差项、对数项方差的建模以及分层贝叶斯结构来构建AFT模型下贝叶斯自适应Lasso,对待估参数寻找合适先验分布(如正态分布、指数分布、伽马分布等),通过后验推断得到AFT模型下的Ba Lasso变量选择的后验分布。最后,通过MH与Gibbs相结合的MCMC抽样算法进行求解待估参数并进行变量选择。通过多种情况下的模拟,验证了模型方法的有效性。
【图文】:
图 4.1 右删失比为 0.8 时的生存概率图从上图可以看出,红色曲线是生存率真实值,,蓝色实线是生存概率估计值,蓝色虚线是生存率估计的上下 95%分界线,由此发现,高生存率组的拟合情况最模拟 2:在本模拟设置中,考虑的是 p 10的模型,设置样本大小为: N =150。数据模拟设置如下:1. 协变量iZ 来自独立同分布 Bernoulli(0.5)2. (0.2,0.2,0.1,-0.1,0,0,0,0,0,0) 3. 右删失的比例为 80%表 4-2 右删失比为 0.8 时的后验情况真值 ETS BIAS RMS 95%lr 95%ur1 0.20.1988 0.0012 0.0040 0.1899 0.20672 0.20.1983 0.0017 0.0016 0.1945 0.2032 0.10.1033 0.0033 0.0039 0.0949 0.1109
图 4.2 右删失比为 0.8 时的生存概率图从上图可以看出,红色曲线是生存率真实值,蓝色实线是生存概率估计值,两条蓝色虚线是生存率估计的上下 95%分界线,由此发现,低生存率组的拟合情况相对较好。但是整体来看,模拟效果没有模拟 1 好,说明当非 0 值较零差距较小时,自变量选择的效果也会相对较差。模拟 3:在本模拟设置中,考虑的是 p 10的模型,设置样本大小为: N =150。数据模拟设置如下:1. 协变量iZ 来自独立同分布 Bernoulli(0.5)2. (0.5,0.5,0.35,-0.35,0,0,0,0,0,0) 3. 右删失的比例为 50%表 4-3 右删失比为 0.5 时的后验情况真值 ETS BIAS RMS 95%lr 95%ur
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O212
本文编号:2611119
【图文】:
图 4.1 右删失比为 0.8 时的生存概率图从上图可以看出,红色曲线是生存率真实值,,蓝色实线是生存概率估计值,蓝色虚线是生存率估计的上下 95%分界线,由此发现,高生存率组的拟合情况最模拟 2:在本模拟设置中,考虑的是 p 10的模型,设置样本大小为: N =150。数据模拟设置如下:1. 协变量iZ 来自独立同分布 Bernoulli(0.5)2. (0.2,0.2,0.1,-0.1,0,0,0,0,0,0) 3. 右删失的比例为 80%表 4-2 右删失比为 0.8 时的后验情况真值 ETS BIAS RMS 95%lr 95%ur1 0.20.1988 0.0012 0.0040 0.1899 0.20672 0.20.1983 0.0017 0.0016 0.1945 0.2032 0.10.1033 0.0033 0.0039 0.0949 0.1109
图 4.2 右删失比为 0.8 时的生存概率图从上图可以看出,红色曲线是生存率真实值,蓝色实线是生存概率估计值,两条蓝色虚线是生存率估计的上下 95%分界线,由此发现,低生存率组的拟合情况相对较好。但是整体来看,模拟效果没有模拟 1 好,说明当非 0 值较零差距较小时,自变量选择的效果也会相对较差。模拟 3:在本模拟设置中,考虑的是 p 10的模型,设置样本大小为: N =150。数据模拟设置如下:1. 协变量iZ 来自独立同分布 Bernoulli(0.5)2. (0.5,0.5,0.35,-0.35,0,0,0,0,0,0) 3. 右删失的比例为 50%表 4-3 右删失比为 0.5 时的后验情况真值 ETS BIAS RMS 95%lr 95%ur
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O212
【参考文献】
相关期刊论文 前4条
1 刘丹;郑少智;;Cox模型中的自适应Lasso变量选择[J];统计与决策;2016年10期
2 李佳蓓;朱永忠;王明刚;;贝叶斯变量选择及模型平均的研究[J];统计与信息论坛;2015年08期
3 尚华;冯牧;张贝贝;于凤敏;;基于Bayesian Lasso方法的变量选择和异常值检测[J];计算机应用研究;2015年12期
4 闫丽娜;覃婷;王彤;;LASSO方法在Cox回归模型中的应用[J];中国卫生统计;2012年01期
相关博士学位论文 前2条
1 袁晶;贝叶斯方法在变量选择问题中的应用[D];山东大学;2013年
2 刘吉彩;生存数据统计模型的变量选择方法[D];华东师范大学;2014年
相关硕士学位论文 前5条
1 李群;贝叶斯框架下生存分析回归模型及其变量选择研究[D];长春工业大学;2017年
2 韦新星;几种变量选择方法在Cox模型中的应用[D];广西大学;2015年
3 王慧;生存分析中半参数模型的变量选择方法及其模拟研究[D];山西医科大学;2013年
4 刘琳;几类回归模型中的变量选择方法[D];广西大学;2013年
5 满敬銮;生存数据模型的变量选择[D];中南大学;2009年
本文编号:2611119
本文链接:https://www.wllwen.com/kejilunwen/yysx/2611119.html