当前位置:主页 > 论文百科 > 大学课程 >

多元线性回归中多重共线问题的解决方法综述

发布时间:2017-10-08 05:18

  本文关键词:实用回归分析


  更多相关文章: 多元 线性 回归 多重 共线 题的 解决 方法 综述


多元线性回归中多重共线问题的解决方法综述

发布时间:2013-12-13 11:06:53  

多元线性回归中多重共线问题的解决方法综述

摘 要

在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression)、主成分回归(Principal Component Regression简记为PCR)和偏最小二乘回归(Partial Least Square Regression简记为PLS)。

关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归

引言

在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并破坏模型的稳健性 由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。

1、 多元线性回归模型

1.1 回归模型的建立

设Y是一个可观测的随机变量,它受m个非随机因素X1,X2,…,Xp-1和随机因素ε的影响, 若有如下线性关系

Y??0??1X1??2X2????p?1Xp?1??

我们对变量进行了n次观察,得到n组观察数据(如下),对回归系数 ? 0, ? 1, ?? ? , ? (1 ? p) 进行估计

Y i, X i 1, X i2 , ? ? i ?, X(p?1),i?1,???,n

一般要求n>P。于是回归关系可写为

?Y1??0??1X11??2X12????p?1X1(p?1)??1? ?Y2??0??1X21??2X22????p?1X2(p?1)??2 ??? ?Y????X??X????01n12n2p?1Xn(p?1)??n?n

采用矩阵形式来表示

?1 X11 X12 ?X1,(p?1)??Y1? ???Y?1 X X ?X 21222,(p?1)?Y??2?, X???? ? ???? ???? ??Yn?n?1?1 Xn1 Xn2 ?Xn,(p?1)??n?p

??0???1???????1?, ???2? ????????????????p?1??n?n?1??p?1

Y称为观测向量,X称为设计矩阵,ε称为误差向量,β称为回归参数。

则误差的平方和

2 2s(?)???X??(Y?X?)T(Y?X?)?YTY??TXTY?YTX???TXTX? ??(??0,??1,???,??(1?p))求参数β的估计 ?

?)?minS(?)使得 S(?

用最小二乘法估计

?(?)???[(Y?X?)T(Y?X?)]?(YTY?2YTX???TXTX?) ?????? ? ?(?2YTX???TXTX?)??YTX?2XTX??0??

s

得正规方程:

(XTX)??XTY

由于X为列满秩,所以 X TX 可逆,由此解得

??(XTX)?1XTY?

1.2 多重共线性的产生

当 Rank ( X ) ? P 时,表明在数据矩阵X中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。 ?1???XX?不存在,而?(XTX)XTY导致?无法估计。 即XX?0,TT?1

1.3多重共线性的产生的原因

(1)经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为解释变量时,会出现多重共线性。

(2)模型中包含滞后变量,变量各期值之间有可能高度相关。

(3)利用截面数据建立模型也可能出现多重共线性。

(4)经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依存。

(5)样本数据自身的原因,数据收集的范围过窄,造成某些解释变量之间似乎有相同或相反变化趋势的假象。

(6)在建模过程中由于解释变量选择不当,引起变量之间的多重共线性。

2 处理多重共线性的方法

2. 1处理多重共线性的经验式方法

2. 1.1 删除不重要的共线性变量

最常见的一种思路是设法去掉不太重要的共线性变量。有些应用人员认为,可以采用多元回归分析中的向前选择变量、向后删除变量法或逐步回归法来进行变量的筛选。然而,在理论上,这些变量筛选方法都是针对无共线性的数据而言的。在多重共线性十分严重的情况下,结论的可靠性都要受到一定的影响。由于变量间多重共线性的形式十分复杂,而且还缺乏十分可靠的检验方法,所以,删除部分多重共线性变量的做法常导致增大模型的解释误差,将本应保留的系统信息舍弃,使得接受一个错误结论的可能和做出错误决策的风险都不断增大。 另外,在一些模型中,从理论上要求一些重要的解释变量必须被包括在模型中,而这些变量又存在多重共线性。这时采用删除部分共线性变量的做法就不符合实际工作的要求。

2.1.2 增加样本容量

增加样本的容量在某种程度上会减轻多重共线性对模型估计的影响,而且对某些样本数据来说,变量间的多重共线性可能正是由于样本容量过小而造成的。然而,在实际工作中,由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的。

2.1.3 变量转换的方式

在少数情况下,当基于理论背景认为所有的变量都极其重要,但相互之间存在严重的多重共线性时,对方程的变量进行变换有时至少能在一定程度上消除共线性。两种最常用的变换方法为:

(1) 构造一个多重共线性变量的组合。此方法就是构造一个新的变量,这一新变量是多重共线性变量的函数,进而以这一新变量来替代回归方程中的具有多重共线性的那些旧变量。但要注意的是,只有当新变量本身有意义时,才可以考虑采用组合变量这一方法。

(2) 把方程的函数形式转换为一阶差分形式。若把一个方程(或一个方程中的几个变量)从它的常规设定形式转换为一阶差分的设定形式,就很有可能会大大降低多重共线性的程度。由于一阶差分方法损失了一个观测值(即样本数据少了一个),这在小样本的情况下是极不可取的。

2.2岭回归

根据高斯-马尔科夫定理,在线性回归模型的基本假设满足时,用最小二乘法得到的回归系数估计量是无偏的且具有最小方差。可以证明,即使在高度多重相关的情况下,最小二乘法的回归系数估计量依然是线性无偏的,且具有最小方差。也就是说,多重共线性并不影响最小二乘估计量的无偏性和最小方差性。因此在所有的线性无偏估计中,最小二乘估计仍具有比较小的方差,这并不意味着最小二乘估计量的方差一定是最小的,因为,虽然它在所有的线性无偏估计量中是方差较小,但是这个方差却不一定小。

于是就启发我们,是否可以找到某一个有偏估计,这个有偏估计虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。在许多情况下,我们更愿意选用这个估计量,因为它接近真实参数值的可能性更大。岭回归就是一种基于放弃回归系数一般最小二乘估计的无偏估计性要求的方法。

T?1T基本思想:当出现多重共线性时,XX?0,从而使参数的 ??(XX)XY很不稳T

定,出现不符合含义的估计值,给XX 加上一个正常数矩阵K?(K>0),则 XX?K?TT

?1??(XTX)XTY来估计, 比用普通最等于0的可能性就比XX的可能性要小得多,再用?T

小二乘估计的要稳定得多。

2.3主成分回归

基本思想:如果观察了n个样本点,得到因变量y和p个自变量x1,x2, …,xp 为后续分析方便起见,并且不失一般性,可假设它们都是标准化变量(均值为零方差为1)自变量x0=(x1,x2,… ,xp)间的相关数矩阵记为R。

用主成分回归方法的第1步,是完全撇开因变量y,单独考虑对自变量集合做主成分提取。 其过程是:

(1)求R的前m个非零特征值?1??2??????m?0 ,以及相应的特征向量u1,u2,… ,um。 (2)求m个主成分:Fh=X0uh h=1,2, … ,m。 可以证明,这m个主成分有如下性质: ①均值为零:E(Fh)=0,h=1,2, … ,m; ②若方差算子用var(?)表示,var(Fh)=

? h=1,2,…,m 所以有var(F)?var(F)????? var(F)。

h

1

2

m

从这个性质可知,F1之所以被称为第1主成分,是由于它携带了原自变量系统中最多的变异信息也就是说,如果要以一个综合变量来概括原来所有的自变量,并希望数据变异信息损失最小,则第1主成分是最好的选择它对原变异信息的反映精度为Q?

?

Pj?1

1

?var(X)

j

p

?

?

1

P

③第1主成分与所有原变量的相关度可达到最大。即最优化问题:

2

rmax?(x0u,xj)

u?RP

j?1

其中r (? ,?)为相关系数算子 它的解是u*?u1,而x0u1=F1。

因此,若要寻找一个综合变量,它能和原来所有的自变量最相关,这个变量就是第1主成分F1。

④主成分F1,F2, … ,Fm是彼此无关的变量,即协方差为cov(Fj,Fk)=0 j?k。

由于主成分之间不再存在自相关现象,这就对解决多重相关性下的回归建模问题给出了某种希望。

这种成分提取的思路是十分可取的 问题在于,在上述成分提取过程中,完全没有考虑与因变量y的联系。这样所得到的第1 (或前几个)主成分可能会对自变量系统有很强的概括能力,而对y的解释能力却变得十分微弱。

2.4偏最小二乘回归

基本思想:

(1)若记t1=X0w1,则上述的数学原则可表达成优化问题:(2)分别施行X0和y在t1上的回归:X0=t1p1'+X1 其中p1为回归系数,p1=

p

r(y,XW)?var(XW) ?maxP

2

u?R

j?1

X0't1

2;X1是残差矩阵。 t1

而y=r1t1+y1,其中r1=y't1

2;y1是残差向量 t1

(3)以残差矩阵X1和y1替代X0和y,采用类似于提取t1的方法,可以进行第2个综合变量t2的提取,然后施以回归:X1=t2p2'+x2,y1=r2t2+y2

如此循环往复,直到提取了A个综合变量t1,t2, … ,tA(阶数A的确定目前流行采用“交差有效性”)。

做y对成分t1,t2, ,tA的普通多元线性回归,得到y??1t1??2t2??????AtA?yA?

而由于每一个th均为x1,x2, ,xp的线性组合(X0=x1,x2, … ,xp),因此可以最终写出PLS1回归模型:y??1X1??2X2??????PXP?yA

从PLSR回归的工作过程看,它采取的是一种循环式的信息分解与提取方法它在多变量集合中逐次提取成分t1,t2, ,tA,它们对y的解释能力最强,同时又最能概括X0中的信息而同时,对y没有解释意义的信息则自动地被排除掉了。

3.结论

岭回归估计量的质量取决于k值的选取,但是k值的确定存在一定的人为因素,所以在确定k值的时候要把定性分析和定量分析有机的结合起来一般认为:在通过岭迹图和方差膨胀因子来选择k值时,其判断方法是选择一个尽可能小的k值,在这个较小的k值上,岭迹图中回归系数已变得比较稳定,并且方差膨胀因子也变得足够小

利用主成分进行的回归结果往往不够理想,原因是在对系统中的信息做综合提取的时候,只注重尽可能多地概括自变量系统中的信息而对因变量的解释性不加考虑 偏最小二乘回归也

采用成分提取的方式进行回归建模,但其思路却有很大的不同 它在对自变量进行信息综合时,不但考虑要最好的概括自变量系统中的信息,而且要求所提取的成分必须对因变量有一定的解释性 因此,与主成分回归相比,偏最小

二乘回归更具有先进性,其计算结果更为可靠偏最小二乘回归法尤其适用于变量数目巨大的情况下,,实例分析中变量的个数不多,偏最小二乘回归的优点在这里没有充分的显示出来。

参考文献

[1]C.R.Rao,H.Toutenburg.Linear Models: Least Squares and Alternatives[M].Springer Verlag New York Inc.1995

[2]C.R.Rao.Estimation of parameters in a linear model [J].Annual Statistics,1976,4:1021-1030

[3]Birkes,D,and Dodge.Y(1993),Alternative Methods of Regression, New York,wiley:191-193

[4] Draper NR,Smith H.(1996).Applied Regression Analysis. John wiley&sons inc:71-83

[5]Cheng Bo,Wu Xizhi.Assessing Local Influence in PLS Regression by the Second Order Approach[J].Statistics and Probablity,2001,53:113-121

[6]I.G.Chong,C.H.Jun.Performance of some variable selection methods whenmulticollinearity is present[J].Chemometrics and Intelligent Laboratory Systems,2005,78:103-112

[7]S.L.T.Lima,C.Mello,R.J.Poppi.PLS pruning: a new approach to variable selection for multivariate calibration based on Hessian matrix of errors[J].Chemometrics and Intelligent Laboratory Systems,2005,76:73-78

[8] J.P.Gauchi,P.Chagnon.Comparison of selection methods of explanatory variables in PLS regression with application to manufacturing process data[J]. Chemometrics and Intelligent Laboratory Systems,2001,58:171-193

[9]B.Cheng,X.Wu.A Modification of the PLS Method[J],Advances in Mathematics,1999,28(4):375

[10]Sorenson H W. Parameter Estimation: Principle and Problems. Marcel Dekker, 1980

[11] 肖琳,何大卫.PLS回归在消除多元共线性中的作用[J].山西医科大学学报,2002,33(3)

[12] 陈希儒,王松桂.近代实用回归分析[M].广西人民出版社,1984

[13] 高惠璇.处理多元线性回归中自变量共线性的几种方法[J].数理统计与管理,2000,20(5):50

[14] 游华.论多元线性模型回归系数有偏估计的实现.福州大学,1999

[15] 许凤华,偏最小二乘回归分析中若干问题的研究.山东科技大学硕士论文,2006,6

[16] 王松桂.线性模型的理论及其应用[M].合肥:安徽教育出版社,1987

[17] 张恒喜.小样本多元数据分析及应用[M].西安:西安工业大学出版社,2002

[18] 任若恩,王惠文.多元统计数据分析——理论、方法、实例[M].北京:国防工业出版社,1997

[19] 张金槐.线性模型参数估计及其改进.长沙:国防科技大学出版社,1999

[20] 王惠文,吴载斌,孟洁.偏最小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006

上一篇:黄铜矿生物浸出研
下一篇:低压锅炉水质标准



本文编号:992191

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/dxkc/992191.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a8df1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com