Lasso回归:从解释到预测
发布时间:2022-01-26 20:38
传统的最小二乘回归法关注于对当前数据集的准确估计,容易导致模型的过拟合,影响模型结论的可重复性。随着方法学领域的发展,涌现出的新兴统计工具可以弥补传统方法的局限,从过度关注回归系数值的解释转向提升研究结果的预测能力也愈加成为心理学领域重要的发展趋势。Lasso方法通过在模型估计中引入惩罚项的方式,可以获得更高的预测准确度和模型概化能力,同时也可以有效地处理过拟合和多重共线性问题,有助于心理学理论的构建和完善。
【文章来源】:心理科学进展. 2020,28(10)北大核心CSSCICSCD
【文章页数】:15 页
【部分图文】:
惩罚项对系数的压缩结果
第10期张沥今等:Lasso回归:从解释到预测1779图1偏差方差权衡也越大(Babyak,2004;Derksen&Keselman,1992)。相反地,如果使用当前数据集获得的参数估计存在着可以接受的偏差,那么参数的样本间方差会因有偏估计而减小,这样的估计结果反而具有更强的概化能力(如图1b所示)。因此,在实际数据分析中我们需要很好地处理这种偏差方差权衡(Bias-VarianceTradeoff)问题。而传统的OLS估计关注对当前数据集的精确估计,在预测变量较多时不可避免地容易出现过拟合的估计结果,进而削弱模型的概化能力。二是多重共线性(Multicollinearity),即在回归模型中多个预测变量间存在相关关系的现象,其中当预测变量间的相关系数为正负1时,即存在完全多重共线性。当模型存在较强的多重共线性时,OLS估计得到的回归系数极易受到样本数据的微小波动的影响,估计的稳定性较差。回归系数的估计方差也会随着自变量间共线性的增强而增大(张凤莲,2010)。即当更换样本中的部分数据时,回归系数因为多重共线性的存在会产生较大的变化。这不仅会导致得到的回归模型缺乏概化能力,还会使某些重要变量的回归系数变得微不足道甚至与现实情况相反(Rao,1976)。此外,当模型存在较多的预测变量时,我们往往会采用逐步回归(StepwiseRegression)等方法增加或删减变量,以获得有效的预测变量集。但是该方法违背了回归分析推论的前提假设,即所有预测变量是作为整体固定存在的(Lockhartetal.,2014),过度拟合带来的问题在使用逐步回归法进行模型选择时也会更加突出。此时用于统计推断的t检验或F检验不仅无法遵循其适合的零假设分布,也无法拥有合适的自由度进行分析,基本的统计检验及其相关的p值将不适用于不断增减变量的模型选择。这种模型选择可能会使回归系数假设?
学生(Cortez&Silva,2008),数据中包含了11个连续变量:(1)年龄(age),(2)家庭关系质量(famrel),(3)放学后空闲时间(freetime),(4)和朋友出去玩的频率(goout),(5)工作日饮酒频率(dalc),(6)周末饮酒频率(walc),(7)自评健康状况(health),(8)缺课次数(absences),(9)学生第一次数学测验成绩(G1),(10)中期测验成绩(G2)和(11)期末测验成绩(G3)。其中期末测验成绩为因变量,本研究将探究能够有效预测数学期末测验成绩的因素。相关分析结果显示,学生第一次数学测验成绩、中期测验成绩与期末测验成绩之间存在较强的正相关。图1变量间相关图注:红色系代表负相关,蓝色系代表正相关,颜色越深代表相关值越大。在Lasso回归中,首先采用10重交叉验证方法选择合适的惩罚项λ。这一方法可以通过R软件中的glmnet包(Friedman,Hastie,&Tibshirani,2010)实现。值得注意的是,为了保证每次交叉验证分析得到的λ结果一致,需要采用set.seed()函数设定随机数种子,否则每次分析的结果会存在微小差异。结果显示最小化均方误差(MeanSquareError,MSE)的λ为0.043,λ+1se为0.776。图2呈现了随着log(lambda)的增加MSE值的变化。当λ对复杂模型的惩罚力度增大时,MSE同样会增大,而惩罚项的增大最终会导致所有系数压缩到0,此时MSE值最大。图2十重交叉验证结果注:图中两条竖线分别代表最小化MSE的λ值和λ+1se值图3呈现了随着log(lambda)的增加,标准化回归系数被压缩的情况,可以看到的是,随着惩罚力度的增大,标准化系数最终全部会被压缩到0。而在λ值为0.776处,有两个系数不为0。根据输出结果,G1(学生第一次数学测验成绩)和G2(学生中期数学测验成绩)两个预测因素被保留下来。图3惩罚项对系数的压缩结果此外,Lasso回归中可以通过co
【参考文献】:
期刊论文
[1]贝叶斯结构方程模型及其研究现状[J]. 张沥今,陆嘉琦,魏夏琰,潘俊豪. 心理科学进展. 2019(11)
[2]基于LASSO类方法的Ⅰ类错误的控制[J]. 许树红,王慧,孙红卫,王彤. 中国卫生统计. 2017(04)
[3]心理学研究中的可重复性问题:从危机到契机[J]. 胡传鹏,王非,过继成思,宋梦迪,隋洁,彭凯平. 心理科学进展. 2016(09)
[4]正则化稀疏模型[J]. 刘建伟,崔立鹏,刘泽宇,罗雄麟. 计算机学报. 2015(07)
硕士论文
[1]多元线性回归中多重共线性问题的解决办法探讨[D]. 张凤莲.华南理工大学 2010
本文编号:3611135
【文章来源】:心理科学进展. 2020,28(10)北大核心CSSCICSCD
【文章页数】:15 页
【部分图文】:
惩罚项对系数的压缩结果
第10期张沥今等:Lasso回归:从解释到预测1779图1偏差方差权衡也越大(Babyak,2004;Derksen&Keselman,1992)。相反地,如果使用当前数据集获得的参数估计存在着可以接受的偏差,那么参数的样本间方差会因有偏估计而减小,这样的估计结果反而具有更强的概化能力(如图1b所示)。因此,在实际数据分析中我们需要很好地处理这种偏差方差权衡(Bias-VarianceTradeoff)问题。而传统的OLS估计关注对当前数据集的精确估计,在预测变量较多时不可避免地容易出现过拟合的估计结果,进而削弱模型的概化能力。二是多重共线性(Multicollinearity),即在回归模型中多个预测变量间存在相关关系的现象,其中当预测变量间的相关系数为正负1时,即存在完全多重共线性。当模型存在较强的多重共线性时,OLS估计得到的回归系数极易受到样本数据的微小波动的影响,估计的稳定性较差。回归系数的估计方差也会随着自变量间共线性的增强而增大(张凤莲,2010)。即当更换样本中的部分数据时,回归系数因为多重共线性的存在会产生较大的变化。这不仅会导致得到的回归模型缺乏概化能力,还会使某些重要变量的回归系数变得微不足道甚至与现实情况相反(Rao,1976)。此外,当模型存在较多的预测变量时,我们往往会采用逐步回归(StepwiseRegression)等方法增加或删减变量,以获得有效的预测变量集。但是该方法违背了回归分析推论的前提假设,即所有预测变量是作为整体固定存在的(Lockhartetal.,2014),过度拟合带来的问题在使用逐步回归法进行模型选择时也会更加突出。此时用于统计推断的t检验或F检验不仅无法遵循其适合的零假设分布,也无法拥有合适的自由度进行分析,基本的统计检验及其相关的p值将不适用于不断增减变量的模型选择。这种模型选择可能会使回归系数假设?
学生(Cortez&Silva,2008),数据中包含了11个连续变量:(1)年龄(age),(2)家庭关系质量(famrel),(3)放学后空闲时间(freetime),(4)和朋友出去玩的频率(goout),(5)工作日饮酒频率(dalc),(6)周末饮酒频率(walc),(7)自评健康状况(health),(8)缺课次数(absences),(9)学生第一次数学测验成绩(G1),(10)中期测验成绩(G2)和(11)期末测验成绩(G3)。其中期末测验成绩为因变量,本研究将探究能够有效预测数学期末测验成绩的因素。相关分析结果显示,学生第一次数学测验成绩、中期测验成绩与期末测验成绩之间存在较强的正相关。图1变量间相关图注:红色系代表负相关,蓝色系代表正相关,颜色越深代表相关值越大。在Lasso回归中,首先采用10重交叉验证方法选择合适的惩罚项λ。这一方法可以通过R软件中的glmnet包(Friedman,Hastie,&Tibshirani,2010)实现。值得注意的是,为了保证每次交叉验证分析得到的λ结果一致,需要采用set.seed()函数设定随机数种子,否则每次分析的结果会存在微小差异。结果显示最小化均方误差(MeanSquareError,MSE)的λ为0.043,λ+1se为0.776。图2呈现了随着log(lambda)的增加MSE值的变化。当λ对复杂模型的惩罚力度增大时,MSE同样会增大,而惩罚项的增大最终会导致所有系数压缩到0,此时MSE值最大。图2十重交叉验证结果注:图中两条竖线分别代表最小化MSE的λ值和λ+1se值图3呈现了随着log(lambda)的增加,标准化回归系数被压缩的情况,可以看到的是,随着惩罚力度的增大,标准化系数最终全部会被压缩到0。而在λ值为0.776处,有两个系数不为0。根据输出结果,G1(学生第一次数学测验成绩)和G2(学生中期数学测验成绩)两个预测因素被保留下来。图3惩罚项对系数的压缩结果此外,Lasso回归中可以通过co
【参考文献】:
期刊论文
[1]贝叶斯结构方程模型及其研究现状[J]. 张沥今,陆嘉琦,魏夏琰,潘俊豪. 心理科学进展. 2019(11)
[2]基于LASSO类方法的Ⅰ类错误的控制[J]. 许树红,王慧,孙红卫,王彤. 中国卫生统计. 2017(04)
[3]心理学研究中的可重复性问题:从危机到契机[J]. 胡传鹏,王非,过继成思,宋梦迪,隋洁,彭凯平. 心理科学进展. 2016(09)
[4]正则化稀疏模型[J]. 刘建伟,崔立鹏,刘泽宇,罗雄麟. 计算机学报. 2015(07)
硕士论文
[1]多元线性回归中多重共线性问题的解决办法探讨[D]. 张凤莲.华南理工大学 2010
本文编号:3611135
本文链接:https://www.wllwen.com/shekelunwen/xinlixingwei/3611135.html